Welche Möglichkeiten bietet die SharePoint-2013-Plattform für Big Data?

SharePoint als Big-Data-Plattform
Kommentare

Lange Zeit war das Thema Big Data für SharePoint ein frommer Wunsch, denn in der Praxis war SharePoint eher für kleine Datenmengen ausgelegt. Mit SharePoint 2013, verbesserten Business Intelligence Tools und dem zugehörigen SQL Server 2012 wurden Verbesserungen umgesetzt, die es auch Endanwendern erlauben, in SharePoint mit großen Datenmengen umzugehen. Der Artikel gibt einen Überblick über das Thema SharePoint als Big-Data-Plattform.

SharePoint ist seit der Version 2007 eine Plattform, die das Thema Business Intelligence (BI) einer breiten Anwendergruppe zugänglich macht – u. a. durch eine einfache Integration von Excel-Dateien und die zugehörige Verarbeitung von Daten und Anzeige in der Weboberfläche durch die Excel Services. In den verschiedenen SharePoint-Versionen kamen seit SharePoint 2007 immer mehr Funktionalitäten hinzu, um Daten aus verschiedenen Datenquellen zu integrieren (Business Connectivity Services), aufbereitete Daten und KPIs zu visualisieren (z. B. durch Performance Point und Viso Services) und die Verwaltung aller zugehörigen Komponenten bequem über die SharePoint-Weboberfläche auch Nichtentwicklern durch Web Parts zu ermöglichen. Mit der Weiterentwicklung der SharePoint-Plattform erfolgte die immer bessere Integration von SQL Server, SharePoint und Office. Diese Verknüpfung ist in SharePoint 2013 zu einem mächtigen Werkzeug herangereift, das für Businessanwender die Themen Big Data und BI intuitiv durch gewohnte Tools wie Excel und SharePoint Web Parts zusammenbringt. Aber reichen die Verbesserungen in den BI-Funktionalitäten aus, damit SharePoint als Big-Data-Plattform gesehen wird?

SharePoint und Small Data

Traditionell ist SharePoint in seiner typischen Rolle als Collaboration Platform oder Intranet/Extranet eher eine Plattform, die mit „kleinen“ Datenmengen umgegangen ist. Das heißt, man hatte in der Regel maximal ein paar tausend Listenelemente pro Liste, die Empfehlung von maximal 10 000 Dokumenten pro Bibliothek in SharePoint 2007 und maximal 2 000 pro Ansicht. Ferner kommt hinzu, dass bei großen SharePoint-Installationen die hohen Datenmengen in der Regel von Dokumenten aus Word und Excel oder PDF-Dokumenten stammen. Diese Daten sind aber für die Einsatzszenarien von Big Data (siehe auch Kasten „Was ist Big Data?“) weniger relevant.

Was ist BigData? Bei Big Data geht es um die Speicherung und Verarbeitung von extrem hohen Datenmengen –z. T. aus vielfältigen Datenquellen. Herausforderung dabei sind u. a. die Verarbeitungsgeschwindigkeit, Speicherung, Analyse und Visualisierung dieser Datenmengen. In der Regel spricht man von Big Data ab einem Volumen von Terabytes, Petabytes und Exabytes. Typische Einsatzgebiete sind z. B.: • Klimaforschung • Marktforschung und Konsumverhalten • Finanzmärkte, -transaktionen und E-Commerce • Analyse von Telekommunikationsverbindungen Für Unternehmen, Behörden und Forschungseinrichtungen können sich durch die Analyse, Verarbeitung und Visualisierung dieser Datenmengen Einsparpotenziale ergeben, neue Zusammenhänge können hergestellt oder Wettbewerbsvorteile geschaffen werden. Behörden erhoffen sich u. a. bessere Ergebnisse bei der Strafverfolgung und Terrorismusbekämpfung.

Und eher selten findet man Aufgabenlisten und Kalender in Collaboration Websites, die mehrere Millionen Einträge aufweisen, die es zu analysieren gilt. Warum war das so?

Zum einen wurde SharePoint in der Rolle der Zusammenarbeitsplattform gesehen, bei der man abgesehen von Dokumenten keinen Use Case hat, umfangreiche Datensätze über die SharePoint-Oberfläche zu verarbeiten. Zum anderen waren in SharePoint 2007 nur wenige Mechanismen vorhanden, um mit großen Datenmengen umzugehen, diese effizient zu verarbeiten und an der Weboberfläche anzuzeigen. Die zugrunde liegende (32bit-)Plattform hatte zum einen feste Limits für die Menge der Daten und zum anderen keine effizienten Dienste, um die Daten zu verarbeiten. Auch der Transport der Daten vom Server zum Client war an vielen Stellen nicht optimiert, sodass oftmals Verzögerungen entstanden sind, wenn Anwender sich große Datenmengen vom SharePoint Server haben anzeigen lassen. Auch in SharePoint 2013 gilt noch das feste Limit von 2 GB pro Dateiobjekt, wodurch z. B. umfangreiche Daten in Excel-Dokumenten, die durch die Excel Services in SharePoint eingebunden werden können, entfallen. Denn 2 GB sind in Big-Data-Maßstäben quasi nichts.

Limits von SharePoint 2013

Um ein Gefühl dafür zu bekommen, welche Datenmengen und Limitierungen der SharePoint Server 2013 mit sich bringt, sind in diesem Abschnitt einige Grenzen für Anzahl und Volumen von Items und Daten in SharePoint 2013 auszugsweise vorgestellt. Einige Werte sind feste Limits, die nicht überschritten werden können. Konfigurierbare oder andere Limits, die lediglich von Microsoft getestet worden sind, beinhalten die Gefahr, dass man im Fall einer Überschreitung keinen Support mehr von Microsoft bekommt. Hier eine Übersicht der Limits:

  • Maximal 500 Inhaltsdatenbanken pro Farm
  • 200 GB – 4 TB pro Inhaltsdatenbank
  • Maximal 750 000 SiteCollections pro Farm
  • Maximal 250 000 Sites pro SiteCollection
  • Maximale Dateigröße: 2 GB
  • Anzahl Dokumente: 30 Millionen pro Bibliothek
  • Anzahl Listenelemente: 30 Millionen pro Liste
  • Anzahl User in SiteCollection: zwei Millionen
  • Anzahl SharePoint-Gruppen pro SiteCollection: 10 000
  • Anzahl Social Tags, Notes und Ratings: 500 Millionen pro Social-Datenbank
  • BlogPosts: 5 000 pro Site

Diese und weitere Limits finden Sie hier.

Einsatzszenarien

Wenn man SharePoint als Big-Data-Plattform betrachtet, dann muss man folgende Tatsachen berücksichtigen:

  • Nur der Microsoft SQL Server bzw. ein anderes Datenbanksystem kann ein hohes Aufkommen an Daten speichern und hocheffizient verarbeiten.
  • SharePoint als Webserver hat physikalische Limits, was den Transfer von Daten vom Server zum Client angeht. Daher werden seit SharePoint 2010 Throttling-Mechanismen verwendet, um die Web-Frontend-Server davor zu bewahren, zu viele Daten an die Clients zu schicken und damit die Gesamtperformance zu reduzieren – z. B. wenn zehn Anwender sich Listen mit 500 000 Listeneinträgen gleichzeitig angucken wollten.
  • SharePoint und Office sind als Frontend für Anwender im Umgang mit BI-Funktionalitäten wesentlich intuitiver und komfortabler als ein Datenbanksystem wie der SQL Server.
  • SharePoint bietet diverse Services und Funktionen, um den Spagat zwischen den effizienten Datenquellen und der Visualisierung der Daten in der Weboberfläche zu meistern.

Abb. 1: Einsatzszenarien SharePoint als Big-Data-Plattform

Aus diesen Tatsachen folgt, dass es für die Speicherung, Verarbeitung und Darstellung großer Datenmengen in SharePoint drei wesentliche Einsatzszenarien gibt, die jeweils ihre Vor- und Nachteile haben. Abbildung 1 zeigt ein Diagramm, das diese drei Möglichkeiten darstellt.

  1. Big-Data-Speicherung und -Verarbeitung im SQL Server 2012 und Anzeige von Ergebnissen über SharePoint: Bei dieser Variante können sehr viele Daten im SQL Server gespeichert und effizient verarbeitet werden. SharePoint dient lediglich dazu, die Ergebnisse der Verarbeitung in Form von Berichten oder Diagrammen anzuzeigen. Dazu können z. B. die SQL Reporting Services verwendet werden.
  2. „SharePoint only“: Speicherung, Verarbeitung und Anzeige von Daten direkt in SharePoint. Obwohl datenbankgestützt, ist diese Variante nicht für ein hohes Datenaufkommen geeignet, da zum einen die Verarbeitung über das SharePoint-Objektmodell bei hohem Datenaufkommen langsamer als direkt in SQL-Datenbanken ist. Zum anderen wird die Anzeige von Daten z. B. in ListViews oder Web Parts aus Performancegründen beschnitten.
  3. Kombinierter Einsatz von Services: Anbindung von Datenbanken und anderen Datenquellen, Verarbeitung über SharePoint Services, z. B. Excel Services, PowerView, Performance Point Services oder Visio Services und Darstellung von Ergebnissen in SharePoint. Bei dieser Variante werden die Vorteile der Varianten 1 und 2 kombiniert. Die Speicherung der Daten erfolgt in den Datenquellen z. B. SQL-Datenbanken. Die Verarbeitung erfolgt über SharePoint-Dienste, die auf den Application-Servern auf die physikalischen Ressourcen wie CPU, Speicher und Festplattenplatz beschränkt sind.

Aufmacherbild: Creative sign with the text – Big Data, Next Exit von Shutterstock / Urheberrecht: Filipe Frazao

[ header = Seite 2: Power, Power, Power BI ]

Power, Power, Power BI

In SharePoint 2010 wurden zahlreiche Business Intelligence Services und Tools eingeführt, die mit SharePoint 2013 noch leistungsstärker sind und sich noch besser integrieren bzw. den SQL Server als Datenbanksystem, SharePoint Services zur Datenverarbeitung und Excel bzw. andere Tools zur Visualisierung verbindet. Da das Thema Business Intelligence für SharePoint ein ganzes Buch füllen könnte, beschränkt sich dieser Abschnitt auf die Neuerungen, die SharePoint 2013 einführt wurden und die den Umgang mit großen Datenmengen erst ermöglichen.

Excel Services

SharePoint 2013 hat im Bereich Excel Services zwei wesentliche Verbesserungen, die Big-Data-Szenarien ermöglichen: Zum einen die Einführung des OData-Protokolls, das auf dem REST-API aufsetzt, um Daten, die in SharePoint liegen, von und nach Excel Workbooks zu transportieren. Businessanwender können jetzt diese Workbooks mit einer Reihe von Datenquellen verknüpfen, deren Daten nicht einmal unbedingt im SQL Server liegen müssen oder im Data Warehouse, um analysiert zu werden. Zum anderen und sogar viel wichtiger ist es, dass zwar das 2-GB-Dateigrößenlimit nach wie vor in SharePoint besteht, aber es kein Limit mehr für die Menge an Daten gibt, die im Speicher verarbeitet werden kann, z. B. während einer Datenanalyse. Ein Anwender kann unter Verwendung der SharePoint Excel Services ein Excel Workbook erstellen, so viele Daten hineinpumpen, wie es die physikalischen Grenzen des SharePoint Application Servers erlauben und ist lediglich darin begrenzt, dass das Ergebnis in SharePoint in 2 GB gespeichert werden muss.

Verbesserte PowerPivot-Anwendung

Wie also ein hohes Datenaufkommen in  kurzer Zeit verarbeiten? Natürlich mit PowerPivot –eine Technologie, die bereits in SharePoint 2010 eingeführt wurde, aber jetzt eine noch tiefere Integration mit den Excel Services bietet. Durch die Verwendung der VertiPaq Engine, die einige smarte Funktionen, wie z. B. In-Memory-Kompression und Datenfilterung, verwendet, kann sichergestellt werden, dass Operationen auf großen Datenmengen extrem schnell ausgeführt werden. PowerPivot gibt Anwendern auch die Möglichkeit, Beziehungen zwischen verschiedenen Datenquellen herzustellen und komplexe Daten in einer normalisierten Form anzuzeigen, sogar aus verschiedenen Datenquellen. Diese Möglichkeiten führen zu einer Datenkontrolle, die vorher nur Entwicklern vorbehalten war. Durch diese Verbesserung können nun Endanwender über SharePoint 2013 ihre Businessdaten agiler und kreativer gestalten.

PowerView

Die Excel Services 2013 nutzen die verbesserten Möglichkeiten von PowerView. Diese Datenmodellierungs- und -visualisierungs-Engine ist Bestandteil des SQL Server Reporting Services AddIns für SharePoint und stellt interaktive Datenmodellierungs- und Visualisierungstools zur Verfügung. Wie bei PowerPivot verschwimmt immer mehr die Grenze zwischen Self-Service BI und Provider-driven BI. Man muss zwar initial aufwändig die Datenquellen, -beziehungen, -filter usw. spezifizieren, aber wenn man das erledigt hat, sind Anwender interaktiv in der Lage, diese Tools durch dynamische Charts, Filter, Slicer usw. effizient zu nutzen.

Visio Services 2013

Die Visio Services werden als BI Tools oftmals nicht wahrgenommen. Dabei kann hier auf einfache Weise ein Visio-Diagramm mit Businesszahlen aus verschiedenen Datenquellen verknüpft und über die Visio Services in SharePoint-Webseiten angezeigt werden. Folgende Verbesserungen sind in den Visio Services 2013 eingeflossen:

  • BCS-Verbindungen: Anwender können Diagramme direkt zu externen Daten über die SharePoint Business Connectivity Services verbinden. Da SharePoint die Datenverbindungen verwaltet, können Administratoren diese Datenverbindungen über SharePoint verwalten und bereitstellen.
  • Kommentieren: Eine Herausforderung von vielen BI-Lösungen ist das Nutzerfeedback. Visio Services 2013 ermöglichen es, dass Anwender ganze Diagramme oder einzelne Shapes kommentieren. Dadurch können Teams auf Datenbasis besser zusammenarbeiten.
  • Flexiblere Sicherheit: Mehr Arten von Datenverbindungen können über Visio genutzt werden. Dazu können Themen wie Authentication direkt verwaltet und auch der SecureStore von SharePoint kann als zentrales Sicherheitsmanagement genutzt werden.

PerformancePoint

PerformancePoint ist ein Tool, das Endanwendern, Businessanwendern und Entwicklern das Erstellen von BI-Dashboards ermöglichen soll. Angefangen als eigenständiges Tool, wurde PerformancePoint später in SharePoint 2010 als PerformancePoint Services integriert und in SharePoint 2013 weiter verbessert. Einstiegspunkt ist das BI-Center (Abb. 2).

Abb. 2: BI-Center als Einstieg zu PerformancePoint Dashboards. Quelle: Microsoft

PerformancePoint besteht aus zwei Teilen: Dem Dashboard Designer, der eine Windows-Clientanwendung ist, und den Dashboards selbst. Mit dem Designer spezifiziert man Datenquellen, -beziehungen, -filter sowie Grids, KPIs, Scorecards etc. Per Knopfdruck erzeugt der Dashboard Designer Web-Part-Seiten und darin integrierte verbundene Web Parts, die das Dashboard in SharePoint repräsentieren. Diese Web-Part-Seiten und Web Parts können von allen Nutzern in SharePoint aufgerufen und verwendet werden. Diese Web Parts haben viele nützlich Funktionen, wie das dynamische Filtern, Abfragen und Reindrillen von Daten. In SharePoint 2013 sind folgende Verbesserungen dazugekommen:

  • Verbesserte Migration von Dashboards: Dashboards müssen nun nicht in verschiedenen SharePoint-Umgebungen immer wieder neu erstellt und veröffentlich werden, sondern können einmalig erstellt und als Deployment-Paket vom Administrator serverseitig eingespielt werden
  • Theme-Unterstützung: Die PerformancePoint Dashboards waren in der Vergangenheit vom Look-and-Feel her nicht anpassbar. Nun nutzen veröffentlichte Dashboards das Theme der SharePoint Site, auf der sie veröffentlicht wurden.
  • iPad Client: Für das iPad als First-Class-Client können nun spezielle Ansichten entworfen werden, die für das iPad optimiert sind und Touch-Bedienung unterstützen.

Zusammenfassung

Es ist offensichtlich, dass Microsoft versucht, den Anwender auf BI-Spur zu bringen. SharePoint 2013 verbessert die bestehenden BI-Funktionalitäten im Großen und Ganzen „unter der Haube“ und ermöglicht nun auch den Umgang mit großen Datenmengen, die in verschiedenen Datenquellen liegen können. SharePoint ist noch nicht die Big-Data-Plattform, beherrscht aber im Gegensatz zu anderen Big-Data-Lösungen von IBM, SAP oder Oracle den Spagat zwischen dem leistungsfähigen Backend und dem intuitiven Benutzer-Frontend, sodass eine größere Zielgruppe, angefangen bei Endanwendern über Poweruser und Managern bis hin zu Entwicklern die Business-Intelligence-Funktionen auch mit großen Datenmengen nutzen kann.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -