Die Basis für Big Data und Künstliche Intelligenz
Schon seit Jahrzehnten kreist das Thema „Künstliche Intelligenz“ (KI) in den Köpfen von Zukunftsforschern, Sci-Fi-Fans und IT-Entwicklern. Aber während früher technische Kapazitäten und gewinnbringende Nutzungsszenarien fehlten, ist beides inzwischen längst vorhanden. Hinzu kommen eine wachsende Roboterisierung, ein sprunghaft steigendes Datenaufkommen aus den verschiedensten vernetzten Quellen und sinkende Kosten für ausreichend potente IT-Systeme.
In Deutschland herrscht dabei erst etwas Zurückhaltung; beispielsweise legte die Bundesregierung erst Ende 2018 ein eigenes KI-Strategiepapier vor. Aber inzwischen zeigt sich eine Veränderung: Laut einer Pressemitteilung des Statistischen Bundesamtes (Destatis) vom November 2024 nutzt inzwischen jedes fünfte Unternehmen (20%) in Deutschland Technologien der künstlichen Intelligenz1. Dies stellt einen deutlichen Anstieg um 8 Prozentpunkte innerhalb eines Jahres dar. Eine weitere Studie von PwC aus dem September 2024 zeigt, dass bereits 45% der Unternehmen KI-Tools einsetzen, um ihre Effizienz zu steigern2. Besonders verbreitet ist der Einsatz von KI in folgenden Bereichen: Texterstellung (43%), Übersetzungen (38%) sowie Recherche, Kundensupport und E-Mail-Beantwortung (32%)
Diese Zahlen verdeutlichen, dass der Einsatz von KI in deutschen Unternehmen nicht mehr nur eine Zukunftsvision ist, sondern bereits in vielen Bereichen Realität geworden ist.
Big Data ermöglicht komplexe Entscheidungen
Mit dem wachsenden Einsatz von KI findet eine Evolution der Datenanalyse statt: Während sich traditionelle Business Intelligence (BI) an beschreibenden und diagnostizierenden Fragen für das Controlling orientiert (Was ist passiert? Warum ist es passiert?), versucht Advanced Analytics, künftige Entwicklungen zu prognostizieren oder gar vorrausschauend zu beeinflussen. Unternehmen analysieren mit KI riesige Datenmengen und nutzen die dadurch gewonnenen Erkenntnisse für ihre Entscheidungsprozesse.
Der Clou dabei: Anstatt schon vorab Software-Routinen zu implementieren, die erwartete Ereignisse definieren, werden künstliche Systeme mit großen Datenmengen auf bestimmte Muster und Gesetzmäßigkeiten „trainiert“ – zum Beispiel durch maschinelles Lernen. So können abstrahierte Aufgabenstellungen und Lösungswege erlernt und in künftigen Situationen eingesetzt werden. Künstliche Intelligenz ist in der Lage, ein Gesamtbild aller verfügbaren Informationen zu berücksichtigen und verschiedene Zukunftsszenarien zu simulieren. Um aber bei komplexen Entscheidungen tatsächlich zu unterstützen, müssen KI-Systeme in ein passendes Big-Data-Szenario eingebettet sein.
Auf die Architektur kommt es an
Bei der Speicherung und Verwaltung großer Datenmengen verlassen sich die meisten Unternehmen bislang auf Data Warehouses (DWH). Dort sammeln sie in relationalen Datenbanken strukturierte Daten, die sich für die klassische Business Intelligence hervorragend eignen. Denn sie ermöglichen es, schnell umfassende Reports zu erstellen und Fragen zu spezifischen KPIs zu beantworten. Die DWH-Architektur ist bewährt, ausgereift und wird gleichermaßen von IT-Abteilungen und Anwendern beherrscht. Aber die Daten werden entlang von Hypothesen strukturiert; bei unerwarteten Fragestellungen hilft ein DWH kaum. Solche Fragestellungen fallen in den Aufgabenbereich von Advanced Analytics, Künstlicher Intelligenz – und Big Data. Mit Big Data entstehen völlig neue Analyse- und Auswertungsmöglichkeiten: Die Technologie kann sehr große Datenmengen aus dem Internet of Things (IoT) verwerten sowie unstrukturierte Informationen aus Social Media, Logfiles und Rohdaten untersuchen. Weil sie explorativ (erforschend) vorgeht, lassen sich dabei völlig neue Zusammenhänge entdecken. Allerdings: Big Data funktioniert nicht in der klassischen Architektur eines Data Warehouses.
Data Lakes machen Big Data und KI nutzbar
Für Big Data braucht es die Architektur eines Data Lakes. Darin lassen sich digitale Informationen unabhängig von Quelle, Relevanz und aktuellem Bedarf speichern. Im „Datensee“ behalten diese Informationen ihre ursprüngliche Form, hier gilt das Prinzip „Schema on Read“: Daten bekommen erst eine Struktur, wenn sie gebraucht und ausgelesen werden. So dürfen die Informationen direkt vom Entstehungsort (beispielsweise einem Maschinensensor, E-Mail-Server oder Twitter-Kanal) in den Speicher fließen. Dort lassen sie sich umgehend nutzen – oder erst in ferner Zukunft. Denn Daten, die heute noch nicht relevant sind, können es schon morgen sein.
Mit der in Big Data verfügbaren Rechenpower und Speicherkapazität geschehen Abfragen und Auswertungen auch in Echtzeit. Verantwortlich dafür ist meist das Open Source Framework Apache Hadoop. Damit wird die Berechnung der Daten über viele Knoten vernetzter Computer verteilt und so enorm schnell. Aber Geschwindigkeit ist kein Selbstzweck; der bereitstehende Datenschatz soll schließlich in wertstiftende Anwendungsfälle und Erkenntnisse münden. Hier sorgt die Künstliche Intelligenz dafür, dass analytische Systeme die passenden Informationen situationsgerecht bereitstellen.
Big Data ist keine Entweder-oder-Frage
Bei der technologischen Ausrichtung auf Analytics-Landschaften mit Big Data und KI geht es aber keinesfalls darum, das Data Warehouse niederzureißen und voll auf Data Lakes zu setzen. Der Königsweg ist vielmehr, beide Technologien und ihre Stärken zu kombinieren: erprobte Business Intelligence und optimierte Use Cases im DWH – und schneller Datenzugriff sowie Advanced Analytics im Data Lake. Die Herausforderung dabei ist die Verbindung beide Elemente. Wie lässt es sich erreichen, dass eine hybride Gesamtarchitektur entsteht – und nicht zwei Systeme parallel gepflegt werden müssen?
In einer hybriden Architektur ist der Data Lake die Schicht, in der absolut alle denkbaren Daten ankommen und dauerhaft gespeichert werden. Daran angebunden ist das Data Warehouse als jene Schicht, die bereits strukturierte Daten vorhält – business ready und nach definierten Vorgaben. Bislang wird das DWH von den Datenquellen direkt gespeist. In einer funktionierenden Hybrid-Architektur erhält das DWH seine Daten stattdessen aus dem Data Lake, das damit gewissermaßen zum „Single Point of Truth“ wird.
Der hybride Ansatz für Anwender:innen und Expert:innen
Für Endanwender:innen, die bestimmte Informationen wie Business Reports benötigen, bleibt das DWH unverändert der Zugriffspunkt. Gleichzeitig können sie in einer hybriden Architektur aber auch direkt auf den Data Lake zugreifen. Dort haben sie alle Möglichkeiten, die sich in der Big-Data-Welt bieten, explorative Untersuchungen oder Data Science mit Rohdaten. Die Ergebnisse lassen sich dann in das Data Warehouse übertragen und stehen aufbereitet zur Verfügung.
Wichtig ist, hier nicht nur technologische Aspekte im Blick zu haben, sondern auch die Menschen. Gefragt sind Expertinnen und Experten, die sich nicht allein mit Data Lakes und Data Warehouses auskennen, sondern die das Potenzial einer hybriden Architektur aktivieren – mit einem Verständnis für die Anforderungen der klassischen BI-Welt und neuer Analyse-Konzepte. Unternehmen, die den Einstieg in KI und Big Data suchen, sollten also frühzeitig in Mitarbeitende investieren und eigene Talente weiterentwickeln: Data Engineers für die Datenbewirtschaftung; Data Scientists für Advanced Analytics und AI sowie Data Artists zur Datenvisualisierung.