Zusammenführen und Aufbereiten von Daten und Informationen mit SharePoint

Daten Daten Daten Wie Sie mit SharePoint der Datenflut Herr werden
Kommentare

In jedem Unternehmen gibt es die Herausforderung des unternehmensweiten Daten- und Informationsmanagements. Daten kommen dabei aus unterschiedlichsten Quellsystemen, haben unterschiedliche Formate, Metadaten, Versionen etc. Aber wie geht man ein unternehmensweites Daten- und Informationsmanagement an? Was ist technisch dazu nötig und welche Möglichkeiten ergeben sich dadurch?

Mit SharePoint 2010 kann man der Datenflut Herr werden. Technologische Basis ist dabei die Suche in SharePoint 2010 bzw. das Konstrukt der crawled und managed Properties, über die sich Metadaten etc. mergen und aufbereiten lassen. Auf dieser technologischen Basis lassen sich dann sehr gut Analysen, Synergien und Korrelation innerhalb eines heterogenen Datenbestands finden und aufbereiten.

Herausforderungen

Am Anfang eines unternehmensweiten Informationsmanagements steht immer die Herausforderung, die unterschiedlichen Datenquellen innerhalb der Unternehmenslandschaft zu identifizieren. Generell unterscheidet man hier zwischen zwei Arten von Datenquellen: Einerseits gibt es die strukturierten Daten, die aus Datenbanken, Line-of-Business-(LOB-)Anwendungen oder strukturierten File-Ablagen kommen. Andererseits sind viele Informationen in unstrukturierten Daten, wie Wiki-Seiten, Informationsportalen oder themenbezogenen File-Ablagen mit gewachsenen Ablagestrukturen zu finden.

Analysen, Synergien und Korrelation

Obwohl Daten aus den unterschiedlichsten Bereichen und Strukturen innerhalb des Unternehmens kommen, können sie doch in einem gemeinsamen Kontext stehen, sich ergänzen oder nur in Kombination Sinn ergeben. Die Herausforderung bei der Einführung eines unternehmensweiten Datenmanagements ist es daher, diese Zusammenhänge zu erkennen und technisch abzubilden. Die Zusammenhänge zu finden und zu nutzen, ist natürlich umso einfacher je besser die Datenbasis ist. Wenn die Daten in sauberen Strukturen abgelegt sind, Metadaten gepflegt wurden und die Berechtigungen sauber gesetzt sind, kann mit dem Ergebnis, das durch ein einfaches Indizieren generiert wird, schon gut gearbeitet werden. Leider findet man so etwas in der Praxis eher selten. In der Regel trifft man auf gewachsene Strukturen mit teilweise redundanten Daten, unklaren Zuständigkeiten und weit verteilten Inhalten aus den unterschiedlichsten Systemen. Nichtsdestotrotz ist das im Folgenden beschriebene Vorgehen auch hier ein sehr guter Ansatz. Sind die Daten im Unternehmen sehr verteilter, unstrukturierter und chaotischer Natur, müssen eben mehrere Zwischenschritte eingelegt werden bevor die Lösung online gehen kann. Dabei ist es auch egal, ob die SharePoint-Suche oder FAST Search für SharePoint verwendet wird. Das Vorgehen ist in beiden Fällen gleich. Nachdem der erste Schritt, das Identifizieren aller potenziellen Datenquellen, getan ist, gilt es diese durch den Crawler der Suche in einem Initiale Full Crawl zu erfassen. Der nächste Schritt ist dann, die durch den Crawler generierten Eigenschaften, die so genannten crawled Properties zu analysieren. Der Crawler generiert für jede gefundene Eigenschaft, egal ob die Daten aus einer SharePoint-Seite oder einem Fileshare stammen, ein eigenes crawled Property. Da der Crawler nicht intelligent ist, würde er für folgendes Beispiel zwei Properties anlegen:

  • Ein Dokument liegt in einer SharePoint-Seite und hat das Metadatenfeld Abteilung mit dem Wert Abteilung 1 gesetzt.
  • Ein Dokument liegt in einem Fileshare im Unterordner mit dem Namen Abteilung 1.

Für den Crawler sind das zwei völlig verschiedene Werte, für den Anwender ist klar, dass es sich hier um eine Übereinstimmung handelt.

Daten im Gehirn und in der IT

Die Metadaten werden hier quellbezogen flach in einer Liste aus crawled Properties abgelegt (Abb. 1). Ein Anwender müsste also schon genau wissen, in welchem Property welche Metadaten gelandet sind, um dann eine angepasste Such-Query zu formulieren – das ist aber wohl eher unwahrscheinlich. Abgesehen davon, dass diese Informationen keinem normalen Anwender bekannt sein dürften, widerspricht es der Art und Weise wie wir denken, wie unser Gehirn funktioniert. Während die Daten hier flach, bzw. in diverse Überkategorien sortiert und quellbezogen abgelegt werden, merkt sich unser Gehirn Informationen aufgrund von Geschichten und Erlebnissen mit denen wir etwas verbinden – vergleichend, wertend und assoziativ. Wir müssen also tagtäglich eine Brücke zwischen der Art wie wir denken und lernen und der Art und Weise wie Informationen von IT-Systemen verwaltet werden, schlagen. Das ist nicht nur sehr mühsam und führt zu einer geringen Benutzerakzeptanz, es führt auch dazu, dass Informationen, Zusammenhänge und Synergien nicht gefunden werden – denn man kann nur nach etwas suchen, von dem man zumindest eine ungefähre Ahnung hat, dass es vorhanden ist bzw. ein Bezug besteht.

Abb. 1: Liste der generierten crawled Properties
Abb. 1: Liste der generierten crawled Properties
Ans Werk

Entscheidender Aspekt, wenn es um unternehmensweites Daten- und Informationsmanagement geht, ist es, das „Wissen“ zu identifizieren sowie Zugriffsrechte und Datenqualität zu evaluieren. Durch das Einbeziehen von fachlich Verantwortlichen, Teamleitern, Projektmanagern und anderen Entscheidern mit einem guten Querschnittswissen müssen daher zuerst Datenquellen identifiziert werden. In jedem Unternehmen wird es erfahrungsgemäß mindestens Daten in Ordnerstrukturen, Web/Wiki-Seiten und LOB-Systemen geben. Nachdem klar ist, welche dieser Datenquellen für ein unternehmensweites Informationsmanagement benötigt werden, ist der nächste Schritt, diese Datenquellen mit der SharePoint-Suche zu indizieren. Nach der initialen Indizierung gilt es, dieses Ergebnis zu analysieren und somit die Datenqualität und die Zugriffsrechte zu prüfen. Einerseits müssen die generierten crawled Properties ausgewertet und auf Korrelationen hin untersucht werden. Andererseits ist es genauso wichtig, die Datenqualität selbst zu betrachten. Fachlich Verantwortliche müssen die Ergebnisse, die die Suche nach unternehmenstypischen Schlagworten etc. anzeigt, analysieren. Finden sich z. B. viele Duplikate oder werden vertrauliche Informationen angezeigt, müssen die Fehler korrigiert und die Indizierung wiederholt werden. Wenn die Datenqualität und die Zugriffsrechte stimmen, kann der nächste Schritt angegangen werden.

Crawled und managed Properties

Es gibt zwei mögliche Herangehensweisen, um die crawled Properties auszuwerten: Einerseits kann man gezielt nach ihnen suchen, wenn man bereits im Vorfeld identifiziert hat welche Metadaten weiter zusammengefasst werden sollen. Andererseits kann man die Suchfunktion im Verwaltungsbereich der crawled Properties nutzten, um Übereinstimmungen und Ähnlichkeiten zu finden (Abb. 2).

Abb. 2: Suche nach crawled Properties, die den Term
Abb. 2: Suche nach crawled Properties, die den Term „Kunde“ enthalten
Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -