Big Data und KI 27.05.2021, 09:44 Uhr

Wie Sie Datenprojekte erfolgreich meistern

Big Data und Maschinenlernen haben gewaltiges Nutzenpotenzial. Vorerst bleibt dies meist ungenutzt, weil die Herausforderungen unterschätzt werden.
Was bringt es dem Business? Diese Frage sollte im Vordergrund von Datenprojekten stehen. Mitläufer eines falsch verstandenen Big-Data-Hypes zahlen drauf
(Quelle: Franki Chamaki / Unsplash)
Das Prinzip klingt einfach: Wir haben Unmengen an Daten, die man für Maschinenintelligenz und Big Data nutzt. Es scheint so natürlich! Doch die Wirklichkeit schaut anders aus. Firmen kaufen teure Applika­tionen und nutzen sie anschliessend nur für recht banale Anwendungen oder gar nicht. Oder sie denken zuerst da­rüber nach, was sie mit ihren Daten machen könnten – was entschieden vernünftiger ist –, und kommen zum Schluss, dass ihnen für ihre Daten die konkreten Ideen fehlen.
Beides konnten wir in Forschung und Beratung mehrfach beobachten und bekommen es von Kolleginnen und Kollegen anderer Hochschulen bestätigt. Sie berichten an entsprechenden Tagungen, dass es regel­mässig Monate dauert, bis man in der Zusammenarbeit mit der Praxis einen brauchbaren ­Anwendungsfall für die Entwicklung intelligenter Werkzeuge – von datenbasierten Entscheidungsunterstützern bis zu modellbasierten digitalen Lernwerkzeugen – identifiziert hat.
Die Probleme der sogenannten «Datafication» treten auf verschiedenen Ebenen auf, sie haben je nach Projekttyp eine andere besondere Herausforderung und treten in verschiedenen Projektabschnitten auf. Hat man das ­Problem einer Phase bewältigt, lauert in der nächsten Phase ein weiteres Problem und schwingt einen noch dickeren ­Knüppel.

Probleme auf unterschiedlichen Ebenen

Eine umfassende Kartografierung der Schwierigkeiten, differenziert nach Ebenen des Lösungsdesigns, steht noch aus. Deshalb werden hier grundsätzliche Probleme dargestellt, die in verschiedenen Projektphasen auftreten können:
  • Daten sind in der Praxis weniger zentral, als die Evangelisten-Folklore behauptet: Das Konzept der Bounded Contexts mit jeweils zugehöriger Ubiquituous Language hat sich im Verbund mit Microservice-Architekturen als mächtige Waffe zur Zähmung des Komplexitätsdämons erwiesen. Seine Wirksamkeit besteht auch darin, dass es sich von einer applikationsweit gültigen Ontologie ver­abschiedet, vom unternehmensweit gültigen Datenmodell ganz zu schweigen, und dass es den Fokus auf das inhaltliche Domänenverständnis legt. Daten folgen hier den Funktionen – anders als in der klassischen Enterprise Application Integration (EAI), die als Erstes die Daten bereinigt und – anders als im «Good E-Government» – das zuerst konsolidierte Datenregister baut.
  • Der Datenwissenschaft sind engere Grenzen gesetzt, als viele meinen: Die Anwendung datenwissenschaft­licher Methoden kann zwar die Datenqualität wesentlich verbessern – und tatsächlich ist das ihr hauptsächlicher Anwendungsbereich –, aber sie funktioniert nur selten ohne inhaltliches Domänenverständnis. Insbesondere kann sie nicht die Summe der Unterschiede der Datenmodelle, wie sie in der Praxis typischerweise anzutreffen ist, auf die Schnelle bewältigen. In der Grundlagenforschung ist demgegenüber die Ausgangslage eine andere: Hier arbeitet man mit Daten, die für die Nutzung gesammelt oder sogar extra dafür gemessen werden.
  • Die Nutzung impliziter Informationen ist schwierig: Eine Definition von Big Data lautet, dass es verborgene Informationen explizit macht. Das impliziert, dass der Nutzungskontext verändert wird. Das wiederum schafft neben der Notwendigkeit der direkten oder indirekten Über­setzung Konflikte mit dem Datenschutz und inhaltliche Verständnisprobleme. Diese können meist nicht ausschliesslich mit Algorithmen gelöst werden.
  • Datenverarbeitungsalgorithmen sind oft richtig, aber nicht passend: Es genügt nicht, korrekte Algorithmen und genügend passende Daten zu nutzen, obwohl an Letzterem bereits viele Vorhaben scheitern. Darüber hinaus müssen die Algorithmen auch stabil und fair sein. Menschliche Lösungen für Fairness – typischerweise das Weglassen von Daten, die Diskriminierung provozieren könnten – funktionieren bei Maschinen nicht. Das Stabilitätsproblem ist beim Maschinenlernen viel weniger gut verstanden als beispielsweise beim Differenzieren von Funktionen in der Numerik. Daneben gibt es verschiedene Dysfunktionalitäten, die man dauerhaft unter Kontrolle halten muss.
  • Datenverarbeitungsalgorithmen sind nur ein kleiner Teil der Lösung: Man kann oft erleben, wie sich selbst Forscher von ihren Messergebnissen hereinlegen lassen. Bei Führungskräften ist dies anreizbedingt noch häufiger. Bei konventioneller Datennutzung hilft Mitdenken. In der modernen Datenwissenschaft ist dies meist nicht mehr möglich. Die einzelnen Komponenten der Lösung müssten für sich und im Zusammenspiel kontrolliert werden. Neben Algorithmen sind dies Bewertungsheuristiken, die Programmierung der Algorithmen, das Design der Mensch- Maschine-Schnittstelle, die Einbettung in die Entscheidungsprozesse und die Programmierung der Applikationslandschaft im Ganzen.
“Daten sind in der Praxis weniger zentral, als häufig behauptet wird„
Reinhard Riedl
  • Das Erkennen von Anwendungsfällen kommt nicht von selbst: Unternehmen haben selten Mitarbeitende, die darauf trainiert sind, mögliche Anwendungen von Big Data und Maschinenlernen zu erkennen. Eine technische Schulung ist notwendig, aber selten hinreichend. Man muss nämlich in aller Regel den Anwendungskontext und die datenwissenschaftlichen Optionen verstehen, um Anwendungsmöglichkeiten zu sehen. Zwar hilft irgendwann die Erfahrung beim Erkennen von Möglichkeiten, doch die ist beim ersten, zweiten oder dritten Projekt noch nicht vorhanden. Deshalb braucht es ein längeres konzeptionelles Experimentieren, bevor in der Praxis die konkreten Möglichkeiten erkannt werden.
  • Das Validieren von nicht trivialen Anwendungsfällen ist aufwendig: Das Finden von vorstellbaren Use Cases für Big Data oder Maschinenlernen führt zur Frage: Ist dieser Use Case tatsächlich hier und jetzt bei uns umsetzbar? Haben wir die passenden Daten? Und vor allem: Ist die Qualität der Anwendungen gut genug für den Nutzungskontext? Es gibt beispielsweise zahllose Laborexperimente zur medizinischen Diagnostik, aber die Qualität variiert sehr stark. Manche Entscheidungsprobleme sind viel besser geeignet für automatisches Entscheiden mit Maschinenintelligenz als andere. In der Praxis hat man es daher oft entweder mit enttäuschend banalen Anwendungen zu tun oder muss aufwendig forschen, um die Machbarkeit abzuklären.
  • Datenschutz ist eine grosse Herausforderung: Zwar verhindert der Datenschutz selten Projekte, er verlangt aber rechtliches Know-how und aufwendige Massnahmen. Für international tätige Unternehmen stellt sich dabei die Herausforderung, dass die Gesetze für die Forschung in Europa national formuliert werden und es deshalb sehr wohl einen grossen Unterschied machen kann, wo in Europa jeweils geforscht wird.
  • Die Umsetzung stösst auf viel Widerstand: Das Beispiel der personalisierten Präzisionsmedizin zeigt, dass einerseits Menschen oft lieber eine schlechtere medizinische Versorgung in Kauf nehmen, als Daten für die Forschung bereitzustellen, und andererseits Fachpersonen häufig die Nutzung datenwissenschaftlicher Anwendungen als Bedrohung für ihre berufliche Existenz wahrnehmen. In zahlreichen Bereichen konnte man schon bei konventioneller Datennutzung, beispielsweise im Umgang mit CRM-Systemen, grosse Widerstände dagegen beobachten. Auch ein funktionierendes und benutzerfreundliches intelligentes Werkzeug wird nicht automatisch akzeptiert.



Das könnte Sie auch interessieren