Wikidata: Wikipedia als semantisches Mammutwerk [Interview]
Kommentare

Dank semantischer Umstrukturierung und neuen APIs aus dem Wikidata-Projekt soll Wikipedia schon bald in allen Sprachen dieselben Inhalte bereitstellen können. Im Gespräch mit Wikidata-Mitarbeiterin Lydia

Dank semantischer Umstrukturierung und neuen APIs aus dem Wikidata-Projekt soll Wikipedia schon bald in allen Sprachen dieselben Inhalte bereitstellen können. Im Gespräch mit Wikidata-Mitarbeiterin Lydia Pintscher erfahren wir mehr über die neuen Features, die uns mit Wikidata bevorstehen:

PHP Magazin: Herzlichen Glückwunsch an das Wikimedia-Team zum Auftakt der Beta-Phase von Wikidata! Verstehe ich es richtig, dass Wikidata der Versuch ist, Wikipedia für das Semantic Web aufzubereiten?

Lydia Pintscher: Danke! Es geht hauptsächlich darum, Wikipedia durch strukturierte Daten zu verbessern und der Welt diese strukturierten Daten zur Verfügung zu stellen. Semantic Web ist ein großes Buzzword, das hier und da gebraucht wird für Wikidata 😉

„Wikidata ist der Name einer bearbeitbaren Datenbank, mit dem Ziel, Wikipedia zu unterstützen.“, so heißt es in der offiziellen Beschreibung auf Wikipedia. Technisch wird dies über neue Datenaustauschformate und APIs realisiert. Sowohl das Einpflegen neuer Daten, als auch das Abgleichen vorhandener Daten in Wikipedias verschiedener Sprachen soll damit stark vorangetrieben werden. Pintscher erklärt dazu:

PM: Inwieweit wird die Wissensverbreitung von der semantischen Aufbereitung und den neuen APIs profitieren? Wer soll das neue System
nutzen?

Pintscher: Aktuell haben wir den ersten Teil der ersten von drei Phasen gelauncht. Das heißt, aktuell ist es möglich Sprachlinks zu setzen.

Wenn sie auf eine beliebige Wikipedia Seite gehen, sehen sie auf der linken Seite Links zu Artikeln zum selben Thema in anderen Sprachen.

Diese Links werden bisher im Artikelquelltext in jedem Artikel in jeder Sprache gespeichert. Das ist ineffizient und unschöne Duplikation die Probleme bereitet. Das Ziel der ersten Phase ist es jetzt, diese Links nur einmal zentral in Wikidata zu speichern. Dazu ist der zentrale Teil jetzt online gegangen. Die nötigen Änderungen in der Wikipedia die gemacht werden müssen, um das zu nutzen sind aktuell noch in Arbeit. Diese erste Phase ist für jemanden außerhalb der Wikipedia eher uninteressant. Der interessantere Teil kommt dann mit Phase 2.

Mehr dazu gibt es unter http://meta.wikimedia.org/wiki/Wikidata/Introduction

Doch wie wirkt sich das auf den Traffic aus? Wikidata wird für die Rechenzentren von Wikimedia wahrscheinlich neue Maßstäbe in Sachen Datenübertragung setzen, da man sich in letzter Instanz um maschinelle Auswertung der Daten bemüht. Bisherige Server arbeiten mit Apache, PHP und MySQL, wobei weder Apache noch MySQL bekannt dafür sind, Rekorde bei den Verbindungen pro Sekunde aufzustellen. Auch das Caching, das bisher die größten Fluten abfedert, könnte sich in Wikidata-Zeiten als wenig hilfreich erweisen.

PM: Wird sich die Hard- oder Software der Wikipedia-Server für Wikidata verändern, oder kann man die Technik komplett übernehmen?

Pintscher: Wir arbeiten aktuell auf den vorhandenen Servern. Es wird sich mit der Zeit zeigen was wir zusätzlich brauchen. Aktuell ist das nicht abschätzbar.

PM: Welches Datenbanksystem wird benutzt?

Pintscher: Wir speichern die Daten als json in Wikiseiten ab. Alles was wir bauen ist eine MediaWiki Erweiterung. Es nutzt also darunter die Datenbank für die MediaWiki konfiguriert ist. Meist MySQL soweit ich weiß.

PM: Die Umstrukturierung der Daten in semantisch aufbereitete Fact-Pakete wird die Anwendung stark verändern. Besonders durch das API werden Knowledge Extraction Bots denkbar, die sehr individuelle Traffic-Muster erzeugen. Wie bereitet man sich auf diese Flut von Verbindungen und Traffic vor?

Pintscher: Da wir alles Schrittweise ausrollen werden, wir das im Laufe des Projekts sehen. Es wird sich nicht schlagartig alles ändern. Aber Caching und Skalierung sind natürlich Probleme die ganz vorrangig sind bei einem Projekt für eine der größten Webseiten im Netz. Abhängig davon wie jetzt dieser erste Teil verläuft werden wir sicher einige Anpassungen machen für die nächsten Entwicklungen.

Wir müssen schauen, wie sich das in den nächsten Wochen und Monaten entwickelt. Ich erwarte aktuell noch nicht viel Traffic aber in Zukunft dann doch sehr viel. Die Wikimedia Foundation als Betreiber der Wikipedia hat aber natürlich viel Erfahrung mit dem Betrieb großer Webseiten. Ich denke also, dass auch Wikidata lösbar sein wird, wenn es in Zukunft mehr Traffic erzeugen wird.

Gesetzt, der Traffic von Wikidata bereitet der Infrastruktur der Wikimedia keine Probleme, und alles läuft wie geplant. Dann werden auf die bisher ruhigen Wikipedias Berge von neuen Daten aus Übersee zurollen, die einer Faktenprüfung bedürfen. Wie steht es dann um die Manpower, um das übernatürliche Wissens-Wachstum zu bewältigen?

PM: Durch die neuen Schnittstellen wird das Einpflegen von Daten erheblich vereinfacht. Wahrscheinlich wird die Flut der eingehenden Daten größer. Wie will man mit der somit gesteigerten Herausforderung bei der Qualitätskontrolle und beim Fact-Cecking vorgehen?

Pintscher: Wir erwarten, dass sich auch wesentlich mehr Leute die Daten ansehen, da sie in allen Wikipedien sichtbar werden und nicht nur wie bisher in den einzelnen Spracheditionen.

PM: Vielen Dank!

Wir sind gespannt, wie sich Wikipedia weiterentwickeln wird. Der semantische Aufbau kann ein Segen für die schwach bestückten Lexika kleiner Sprachräume sein. Doch wir werden ein Auge auf den Last-Diagrammen des Wikimedia-Grids behalten. Wollen wir nicht hoffen, dass Wikipedia an sich selbst ein Exempel statuiert in Sachen Skalierbarkeit.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -