Die Datenmengen, die aus den zahlreichen Genomprojekten und anderen molekular- und mikrobiologischen Forschungsarbeiten gewonnen werden, steigen exponential an und erreichen immer öfter die magische Terabyte-Grenze. Problematisch bleibt bisweilen die Analyse der Unmengen an Daten nach fundamentalen Gesetzmäßigkeiten, da die bisherigen Datenformate alles andere als standardisiert sind und viele Forschungseinrichtungen hier ihr eigenes Süppchen kochen.
Mit XML scheint endlich eine brauchbare Lösung in Sicht, die verstärkt auch Anwendung im Bereich der Bioinformatik findet. Dies zeigen nicht zuletzt die 439 Veröffentlichungen zum Thema XML in der umfangreichen, biomedizinischen Artikel-Datenbank PubMed (Stand 01.07.05). Doch wie jede neue Technologie muss auch XML erstmal erlernt werden, um sie sinnvoll einzusetzen. Hierbei hilft das vorliegende Buch „XML for Bioinformatics“ -- gute Englisch- und ausreichende Bioinformatik-Kenntnisse vorausgesetzt.
Anstelle grauer Theorie präsentiert der Autor konkrete Anwendungen für XML: Mit einem Überblick über das Distributed Annotation System (kurz DAS) gibt Ethan Cerami einen Einblick in XML. Die folgende Beschreibung der Bioinformatic Sequence Markup Language (kurz BSML) bildet den Einstieg in die Grundlagen von XML. Weiter geht es mit Erläuterungen zu der Erstellung von eigenen DTDs und XML Schemas. Auch hier steht die Anwendung von XML anhand von bioinformatischen Beispielen im Vordergrund. Entwickelt wird je eine einfache DTD und ein Schema für die Strukturierung von Proteinsequenzen. Zudem werden die XML-Formate NCBI TinySeq DTD und PSI-MI (Proteomics Standards Initiative Molecular Interaction) als Fallbeispiele herangezogen.
Ein wenig Abwechslung vom eintönigen XML-Code bietet das Kapitel zu XML und Perl, der Lieblingssprache der Bioinformatiker. Grundkenntnisse in Perl vorausgesetzt erfährt der Leser hier, wie XML-Daten vom NCBI E-Fetch-Service einmal mithilfe von SAX und ein weiteres Mal mittels des Moduls XML::LibXML als DOM geparst werden. Dem Thema XML und Java widmen sich dagegen gleich zwei Kapitel. In einem Kapitel steht SAX, im anderen JDOM im Vordergrund. Als Beispiel findet erneut das Distributed Annotation System Anwendung, das in einem vorherigen Kapitel ausführlich erläutert wird. Nebenbei werden einige Klassen aus dem BioJava-Projekt vorgestellt, mehrere DAS-Clients entwickelt und JDAS, ein Java-API für DAS präsentiert.
Ein Kapitel zu Web Services bildet den Abschluss des durch und durch lesenswerten und informationsreichen Buchs. Behandelt werden hierbei sowohl REST- als auch SOAP-basierte Web Services und zwar -- wie nicht anders zu erwarten war -- anhand einer konkreten Anwendung: dem caBio-Web Service des NCI. Einziges Manko des Buches: Für XML durchaus relevante Themen wie XPath, XSLT und XQuery werden nur am Rande erwähnt.








