Business Intelligence und Data Science: Erfolgreiche Organisationen benötigen beides

Der Harvard Business Review kürte den Job des Data Scientist als attraktivsten Beruf des 21. Jahrhunderts (© olly | fotolia.de)

Data Science (Datenwissenschaft) ist eines der „heißesten“ Themen unserer Zeit. Der Harvard Business Review kürte den Job des Data Scientist als attraktivsten Beruf des 21. Jahrhunderts. Warum ist das so? Und was unterscheidet Data Science vom klassischen Thema Business Intelligence? Diese Fragen möchte ich nachfolgend beantworten und aufzeigen, warum die beiden Themen zunehmend zusammenwachsen.

Autor: Dr. Gero Presser

Ursprünglich aus dem Controlling erwachsen, steht Business Intelligence (BI) im Wesentlichen für die zentrale Bereitstellung von Daten und deren Visualisierung.

Manche Theoretiker mögen hier widersprechen, denn man kann BI auch als „Gesamtheit von Managementgrundlagen wie beispielsweise Wissensmanagement, Customer-Relationship-Management oder Balanced Scorecard, die bei einem prozessorientierten Begriffsverständnis auch die permanente Datenpflege und Anpassung an ein sich veränderndes Umfeld“ verstehen (Wikipedia). In der Praxis hingegen hat sich eine andere Sichtweise durchgesetzt. Neben der „Automatisierung des Controllings, des Berichtswesens, der Planung und der Vorschau sowie Markt- und Kundenanalyse“ (ebenfalls Wikipedia) steht Business Intelligence vor allem dafür, Daten bereitzustellen und zu visualisieren.

In den Anfängen der 1990er-Jahre stand dabei das Thema „Data Warehousing“ im Vordergrund, also das zentrale Vorhalten wichtiger Unternehmensdaten aus potenziell unterschiedlichen operativen Systemen. Üblicherweise wurden hierzu sogenannte ETL-Jobs erstellt, die in der Nacht  Daten aus den operativen Systemen extrahieren (E), in ein gewünschtes Zielformat transformieren (T) um die Daten abschließend in ein zentrales Datenlager, das Data Warehouse, zu laden (L). Mit der Verfügbarkeit der Daten und dem Siegeszug von Arbeitsplatzrechnern hat zunehmend die Visualisierung und Auswertung der Daten an Bedeutung gewonnen. Neben dem traditionellen Berichtswesen haben sich nicht nur interaktive Berichte und Dashboards etabliert, sondern zunehmend auch eine „Self Service“-Funktionen für die Anwender: Mitarbeiter aus den Fachabteilungen können eigene Daten mit Hilfe intuitiver Werkzeuge selbst visualisieren und zu einem gewissen Grad analysieren. Beispielsweise ist es ihnen möglich Kennzahlen im Zeitablauf vergleichen, um aus selbst gewählten Visualisierungen Erkenntnisse zu gewinnen.

Charakteristisch für Business Intelligence ist, dass zentralisiert entschieden wird, welche Daten in welcher Form bereitgestellt werden, um den Wünschen der eigentlichen Nutzer der Daten gerecht zu werden. Der Fokus liegt insofern auf der Wiederholbarkeit. Schwerpunktmäßig werden Daten bereitgestellt, die wiederkehrend und von vielen Anwendern benötigt werden. Erst nach einer positiven Entscheidung werden die entsprechenden Datenquellen an das zentrale Data Warehouse angebunden, die Daten strukturiert und den Anwendern bereitgestellt. Die Nutzer verwenden die Daten anschließend in ihren Berichten, Dashboards und im Self-Service um zu analysieren, was für ihren Kontext relevant ist. Der Betrachtungswinkel ist insofern rückblickend (wenn auch natürlich häufig eine Grundlage für Weichenstellungen für die Zukunft).

Schwerpunktmäßig geht es beim Thema Business Intelligence also um die zentrale Bereitstellung von geeignet visualisierten Daten.

„Data Science“ hingegen „bezeichnet die Extraktion von Wissen aus Daten“, wie es auf Wikipedia heißt. „Der Job eines Data Scientist besteht darin, aus großen Datenmengen Informationen zu generieren und Handlungsempfehlungen abzuleiten, die das Unternehmen befähigen, effizienter zu arbeiten.“ Im Gegensatz zur Business Intelligence mit dem Fokus der Bereitstellung visualisierter Daten, liegt hier die Hauptherausforderung folglich- im eigentlichen Erkenntnisgewinn, dem Ergebnis der Analyse von Daten.

Ein Data Science Projekt beginnt üblicherweise mit einer Fragestellung oder Aufgabe. Sie könnte darin bestehen,  möglichst gute Wartungszeiten für eine Maschine einzuplanen, um ein Verschleißteil rechtzeitig vor dem Ausfall  zu wechseln („Predictive Maintenance“). Es schließen sich Phasen der Datenbeschaffung, der Erkundung der Daten und des Erstellens eines geeigneten Modells an. Diese Phasen werden üblicherweise nicht einmalig sequentiell durchlaufen, sondern mehrfach. Data Scientists nutzen Verfahren wie die lineare Regression, die Zeitreihenanalyse, Konfidenzintervalle, Entscheidungsbäume, Bayes-Klassifikatoren, Nächste-Nachbarn-Klassifikation oder auch „Deep Learning“. Im Gegensatz zu Business Intelligence, wo der Strukturierung der Daten ein sehr hoher Stellenwert beigemessen wird, sind Data Scientists hier bedeutend pragmatischer: Wichtig ist primär, dass Daten verfügbar sind.

Der Job des Data Scientist

Data Science ist projektorientiert mit dem Charakter der Einmaligkeit. Im Rahmen eines Projekts wird eine Fragestellung untersucht und eine Erkenntnis (zum Beispiel in Form eines Modells) gewonnen. Anschließend wird mit dem Modell gearbeitet. Gegebenenfalls wird es an die Gegebenheiten angepasst (Drift of Concept/Change of Concept). Je mehr Daten für das Projekt möglichst unverarbeitet zur Verfügung stehen, desto besser. Im Vorfeld ist häufig nicht klar, für welches Projekt welche Daten benötigt werden. Zur Anwendung kommen komplexe statistische Verfahren und Algorithmen, meist mit den Freiheiten einer (für die Domäne geeigneten oder sogar hierauf spezialisierten) Programmiersprache wie „R“ oder Python. Immer häufiger sind semi-strukturierte oder unstrukturierte Daten Gegenstand der Analyse, zum Beispiel Protokolle der Webseitenbenutzung („Log-Files“), E-Mails, Bilder, Videos oder auch Geräusche (etwa einer Maschine). Das Ergebnis eines Data-Science-Projekts kann ein Modell sein, das anschließend in den produktiven Betrieb überführt werden muss. In unserem Predictive Maintenance Beispiel muss das fertige Modell mit realen Maschinendaten „live“ gefüttert werden, so dass es im laufenden Betrieb Wartungszeiten vorschlägt.

In der folgenden Tabelle sind einige Charakteristika von Business Intelligence und Data Science nochmal zusammengestellt, wobei der Fokus auf den Unterschieden liegt.

Business Intelligence Data Science
Schwerpunkt Bereitstellen von (visualisierten) Daten Neue Erkenntnisse durch neue Fragen
Hauptaufgabe Die richtigen Daten bereitstellen Modelle finden (durch Anwendung der richtigen Algorithmen auf die richtigen Daten)
Blickwinkel Rückblickend Vorausblickend
Fokus Berichte, Dashboards, Self Service Analysen Muster, Korrelationen, Modelle
Datenquellen Wenige (wichtige Unternehmenssoftware), wenig Änderung Im Vorfeld unbekannt, bedarfsgerecht, vielfach auch externe Quellen
Datenspeicher Data Warehouse Data Lake (im Grunde agnostisch: Hauptsache, die Daten sind da).
Datenmodell Festes Schema (vorverarbeitete Daten) im Data Warehouse Rohdaten (bspw. im Data Lake), Schema „on read“
Datentypen Vorrangig strukturierte Daten Strukturierte, semi-strukturierte und unstrukturierte Daten (bspw. Bilder)
Reifegrad Gereiftes, etabliertes Thema Junges, „hippes“ Thema
Tools Tableau, Qlik, SAS, Jaspersoft, MicroStrategy, … R, RapidMiner, KNIMW, IBM, Alteryx, …
Charakter Bereitstellung von (visualisierten) Daten, die dauerhaft benötigt werden Klassische Projektarbeit, insofern jeweils Einmaligkeit (mit ggf. inkrementellen Anpassungen)
Liefer-gegenstand Dashboards, Berichte, Alerts / Benachrichtigungen Sehr unterschiedlich, z. B. nahe-Echtzeit System (bspw. für Predictive Maintenance oder Erkennung von Warenkorbabbrechern) oder auch Dashboard (z. B. bei Assoziationsanalyse)

 

Trotz der erheblichen Unterschiede existieren natürlich auch Gemeinsamkeiten zwischen den beiden Themen. Insbesondere bewegen sich die Welten beim Thema Datenmanagement aufeinander zu. Auf Dauer scheint es wenig sinnvoll, einen „Data Lake“ hermetisch vom „Data Warehouse“ zu trennen. Genauso können Data Scientists von ETL Werkzeugen und Jobs profitieren, die bereits für das Befüllen des Data Warehouses erstellt wurden. Die beiden Themen eint, dass sie Zugriff auf Daten aus operativen Systemen benötigen, wenn auch in unterschiedlicher Verdichtung, Qualität und Aktualität. Gewisse Aspekte und Systeme des Datenmanagements – Datenqualität, Stammdatenmanagement, Metadatenmanagement oder Datenintegration und -transformation – kommen in beiden Themen zum Einsatz. Hier empfiehlt sich insofern eine übergreifende Sichtweise und auch Vereinheitlichung der Sprache.

Enge Kopplung

Neben dem Datenmanagement findet man immer häufiger auch auf der Ebene der Gesamtarchitektur Konzepte für eine engere Kopplung. Viele Bemühungen zielen darauf ab, das klassische Data Warehouse mit den Vorteilen eines Data Lake zu kombinieren. Häufig werden dabei Datenzonen aufgebaut, die sich in Geschwindigkeit, Verarbeitungsstatus und Strukturierung der Daten unterscheiden, wobei Daten auch von Zone zu Zone fließen. Bei einem solchen Ansatz kann dann eine äußere Zone den Erfordernissen von Data Science genügen (und eher den Charakter eines Data Lake mit unstrukturierten Rohdaten aufweisen), eine innere Zone hingegen die strukturierten, transformierten Datenstrukturen eines Data Warehouse abbilden. Auch der immer weiter verbreitete Ansatz des Data Vault ermöglicht in der aktuellen Version 2.0 diese Architektur. Ebenfalls an Bedeutung gewinnen die Virtualisierung und die Idee eines „logischen“ Data Warehouses.

Abschließend ist festzustellen, dass erfolgreiche, datengetriebene Unternehmen sowohl Business Intelligence als auch Data Science benötigen und einsetzen. Es ist wichtig, den Unterschied zu erkennen und je nach Aufgabenstellung zur richtigen Methode zu greifen. Im Bereich Business Intelligence ist die Zielsetzung, Mitarbeiter in der Breite der Organisation mit den richtigen Daten in der richten Visualisierung zu erreichen, um sie bei ihrer regulären Arbeit zu unterstützen. Im Bereich Data Science laufen hingegen Projekte mit dem Ziel, neue Erkenntnisse zu gewinnen und die Wettbewerbsfähigkeit zu stärken, sei es durch Innovationen oder durch Effizienzverbesserungen. Beide Themen verbindet der hohe Stellenwert, den Daten spielen. Beide Themen sind verschiedene Facetten eines datengetriebenen Unternehmens.

Der Autor

Dr. Gero Presser ist Mitgründer und geschäftsführender Gesellschafter der QuinScape GmbH mit Sitz in Dortmund. Das 2001 gegründete Unternehmen beschäftigt über 100 Mitarbeiter und ist spezialisiert auf die Themen Apps und Portale sowie Integration und Analytics.

Kontakt:

Xing
LinkedIn