Big Data und KI 27.05.2021, 09:44 Uhr

Wie Sie Datenprojekte erfolgreich meistern

Big Data und Maschinenlernen haben gewaltiges Nutzenpotenzial. Vorerst bleibt dies meist ungenutzt, weil die Herausforderungen unterschätzt werden.
Was bringt es dem Business? Diese Frage sollte im Vordergrund von Datenprojekten stehen. Mitläufer eines falsch verstandenen Big-Data-Hypes zahlen drauf
(Quelle: Franki Chamaki / Unsplash)
Das Prinzip klingt einfach: Wir haben Unmengen an Daten, die man für Maschinenintelligenz und Big Data nutzt. Es scheint so natürlich! Doch die Wirklichkeit schaut anders aus. Firmen kaufen teure Applika­tionen und nutzen sie anschliessend nur für recht banale Anwendungen oder gar nicht. Oder sie denken zuerst da­rüber nach, was sie mit ihren Daten machen könnten – was entschieden vernünftiger ist –, und kommen zum Schluss, dass ihnen für ihre Daten die konkreten Ideen fehlen.
Beides konnten wir in Forschung und Beratung mehrfach beobachten und bekommen es von Kolleginnen und Kollegen anderer Hochschulen bestätigt. Sie berichten an entsprechenden Tagungen, dass es regel­mässig Monate dauert, bis man in der Zusammenarbeit mit der Praxis einen brauchbaren ­Anwendungsfall für die Entwicklung intelligenter Werkzeuge – von datenbasierten Entscheidungsunterstützern bis zu modellbasierten digitalen Lernwerkzeugen – identifiziert hat.
Die Probleme der sogenannten «Datafication» treten auf verschiedenen Ebenen auf, sie haben je nach Projekttyp eine andere besondere Herausforderung und treten in verschiedenen Projektabschnitten auf. Hat man das ­Problem einer Phase bewältigt, lauert in der nächsten Phase ein weiteres Problem und schwingt einen noch dickeren ­Knüppel.

Probleme auf unterschiedlichen Ebenen

Eine umfassende Kartografierung der Schwierigkeiten, differenziert nach Ebenen des Lösungsdesigns, steht noch aus. Deshalb werden hier grundsätzliche Probleme dargestellt, die in verschiedenen Projektphasen auftreten können:
  • Daten sind in der Praxis weniger zentral, als die Evangelisten-Folklore behauptet: Das Konzept der Bounded Contexts mit jeweils zugehöriger Ubiquituous Language hat sich im Verbund mit Microservice-Architekturen als mächtige Waffe zur Zähmung des Komplexitätsdämons erwiesen. Seine Wirksamkeit besteht auch darin, dass es sich von einer applikationsweit gültigen Ontologie ver­abschiedet, vom unternehmensweit gültigen Datenmodell ganz zu schweigen, und dass es den Fokus auf das inhaltliche Domänenverständnis legt. Daten folgen hier den Funktionen – anders als in der klassischen Enterprise Application Integration (EAI), die als Erstes die Daten bereinigt und – anders als im «Good E-Government» – das zuerst konsolidierte Datenregister baut.
  • Der Datenwissenschaft sind engere Grenzen gesetzt, als viele meinen: Die Anwendung datenwissenschaft­licher Methoden kann zwar die Datenqualität wesentlich verbessern – und tatsächlich ist das ihr hauptsächlicher Anwendungsbereich –, aber sie funktioniert nur selten ohne inhaltliches Domänenverständnis. Insbesondere kann sie nicht die Summe der Unterschiede der Datenmodelle, wie sie in der Praxis typischerweise anzutreffen ist, auf die Schnelle bewältigen. In der Grundlagenforschung ist demgegenüber die Ausgangslage eine andere: Hier arbeitet man mit Daten, die für die Nutzung gesammelt oder sogar extra dafür gemessen werden.
  • Die Nutzung impliziter Informationen ist schwierig: Eine Definition von Big Data lautet, dass es verborgene Informationen explizit macht. Das impliziert, dass der Nutzungskontext verändert wird. Das wiederum schafft neben der Notwendigkeit der direkten oder indirekten Über­setzung Konflikte mit dem Datenschutz und inhaltliche Verständnisprobleme. Diese können meist nicht ausschliesslich mit Algorithmen gelöst werden.
  • Datenverarbeitungsalgorithmen sind oft richtig, aber nicht passend: Es genügt nicht, korrekte Algorithmen und genügend passende Daten zu nutzen, obwohl an Letzterem bereits viele Vorhaben scheitern. Darüber hinaus müssen die Algorithmen auch stabil und fair sein. Menschliche Lösungen für Fairness – typischerweise das Weglassen von Daten, die Diskriminierung provozieren könnten – funktionieren bei Maschinen nicht. Das Stabilitätsproblem ist beim Maschinenlernen viel weniger gut verstanden als beispielsweise beim Differenzieren von Funktionen in der Numerik. Daneben gibt es verschiedene Dysfunktionalitäten, die man dauerhaft unter Kontrolle halten muss.
  • Datenverarbeitungsalgorithmen sind nur ein kleiner Teil der Lösung: Man kann oft erleben, wie sich selbst Forscher von ihren Messergebnissen hereinlegen lassen. Bei Führungskräften ist dies anreizbedingt noch häufiger. Bei konventioneller Datennutzung hilft Mitdenken. In der modernen Datenwissenschaft ist dies meist nicht mehr möglich. Die einzelnen Komponenten der Lösung müssten für sich und im Zusammenspiel kontrolliert werden. Neben Algorithmen sind dies Bewertungsheuristiken, die Programmierung der Algorithmen, das Design der Mensch- Maschine-Schnittstelle, die Einbettung in die Entscheidungsprozesse und die Programmierung der Applikationslandschaft im Ganzen.
“Daten sind in der Praxis weniger zentral, als häufig behauptet wird„
Reinhard Riedl
  • Das Erkennen von Anwendungsfällen kommt nicht von selbst: Unternehmen haben selten Mitarbeitende, die darauf trainiert sind, mögliche Anwendungen von Big Data und Maschinenlernen zu erkennen. Eine technische Schulung ist notwendig, aber selten hinreichend. Man muss nämlich in aller Regel den Anwendungskontext und die datenwissenschaftlichen Optionen verstehen, um Anwendungsmöglichkeiten zu sehen. Zwar hilft irgendwann die Erfahrung beim Erkennen von Möglichkeiten, doch die ist beim ersten, zweiten oder dritten Projekt noch nicht vorhanden. Deshalb braucht es ein längeres konzeptionelles Experimentieren, bevor in der Praxis die konkreten Möglichkeiten erkannt werden.
  • Das Validieren von nicht trivialen Anwendungsfällen ist aufwendig: Das Finden von vorstellbaren Use Cases für Big Data oder Maschinenlernen führt zur Frage: Ist dieser Use Case tatsächlich hier und jetzt bei uns umsetzbar? Haben wir die passenden Daten? Und vor allem: Ist die Qualität der Anwendungen gut genug für den Nutzungskontext? Es gibt beispielsweise zahllose Laborexperimente zur medizinischen Diagnostik, aber die Qualität variiert sehr stark. Manche Entscheidungsprobleme sind viel besser geeignet für automatisches Entscheiden mit Maschinenintelligenz als andere. In der Praxis hat man es daher oft entweder mit enttäuschend banalen Anwendungen zu tun oder muss aufwendig forschen, um die Machbarkeit abzuklären.
  • Datenschutz ist eine grosse Herausforderung: Zwar verhindert der Datenschutz selten Projekte, er verlangt aber rechtliches Know-how und aufwendige Massnahmen. Für international tätige Unternehmen stellt sich dabei die Herausforderung, dass die Gesetze für die Forschung in Europa national formuliert werden und es deshalb sehr wohl einen grossen Unterschied machen kann, wo in Europa jeweils geforscht wird.
  • Die Umsetzung stösst auf viel Widerstand: Das Beispiel der personalisierten Präzisionsmedizin zeigt, dass einerseits Menschen oft lieber eine schlechtere medizinische Versorgung in Kauf nehmen, als Daten für die Forschung bereitzustellen, und andererseits Fachpersonen häufig die Nutzung datenwissenschaftlicher Anwendungen als Bedrohung für ihre berufliche Existenz wahrnehmen. In zahlreichen Bereichen konnte man schon bei konventioneller Datennutzung, beispielsweise im Umgang mit CRM-Systemen, grosse Widerstände dagegen beobachten. Auch ein funktionierendes und benutzerfreundliches intelligentes Werkzeug wird nicht automatisch akzeptiert.

Quick Wins …

Schnelle Erfolge resultieren typischerweise aus einer offenen Suche. Für datenwissenschaftliche Expertinnen und Experten sind die Resultate oft frustrierend, weil total einfach zu erzielen. Doch für das Unternehmen führen sie ohne grossen Aufwand zu brauchbaren Ergebnissen. Dennoch sollte man gerade bei den ersten Projekten mit einer Umsetzungsdauer von acht bis zwölf Monaten rechnen, auch wenn die Summe der Einzelschritte kürzer scheint. Denn Big Data und Maschinenlernen sind grundsätzlich anders als konventionelle Datennutzungen, beispielsweise für ein zusätzliches Reporting.

… substanzielle Erfolge und Big Wins

Substanzielle Erfolge gelingen typischerweise auf der Basis einer klaren Ausgangshypothese. Sie beinhalten fast immer ein organisationsinternes Forschungsprojekt, um die Machbarkeit zu klären – und das heisst, dass diese Forschungskompetenz vorhanden sein muss, entweder in der Organisation oder bei den Projektpartnern. Eine grosse Herausforderung stellt meist das Einführungsmanagement dar, wobei es auch digitale Werkzeuge gibt, die bei den zukünftigen Nutzern spontane Begeisterung auslösen – und zwar solche mit grossartiger User Experience.
“Big Wins erfordern digitale Kompetenzen, Fachwissen und visionäres Denken„
Reinhard Riedl
Beides, Quick Wins und substanzielle Erfolge bei Datafication-Projekten, basiert in aller Regel auf Automatisierung, Teilautomatisierung oder Unterstützung von Auf­gaben – häufig beim Treffen von Entscheidungen. Die ganz grossen Erfolge, die Big Wins, sind etwas völlig anderes. Sie basieren primär darauf, dass man neue Tätigkeiten überhaupt erst ermöglicht. Die Technologie tritt dabei als Enabler für neues Tun auf und ermöglicht neue Dienst­leistungen. Das setzt voraus, dass eine abstrakte digitale Transformationskompetenz mit fachdisziplinärem visionärem Denken zusammenkommt.
Übersicht
Kritische Phasen von Datafication-Projekten
In der Phase 0 eines Datafication-Projekts geht es um die Identifizierung möglicher Anwendungsfälle für Big Data oder Maschinenlernen. Es gibt drei Arten dieser Anwendungsfälle: Solche, die Aufgaben automatisieren; solche, welche die Ausführung von Aufgaben unterstützen; und solche, die neue Aufgaben ermöglichen.
Viele Projekte kommen nie zustande, weil die Phase 0 nie erfolgreich abgeschlossen wird respektive gar nie ernsthaft angegangen wird. In der Praxis sind zwei Situationen häufig: Entweder ist der Fall von vornherein definiert und muss nur konkretisiert werden (was in einem halbtägigen Workshop möglich ist) oder es braucht mehrere bis zahlreiche Interaktionen zwischen Fachleuten der angewandten Datenwissenschaft und Praktikern, bis ein vielversprechender Anwendungsfall identifiziert werden kann. In letzterem Fall ergibt es Sinn, von Beginn an zwei Monate für Phase 0 einzuplanen.
In der Phase 1 eines Datafication-Projekts geht es um die Modellierung des Use Cases, des Inputs und Outputs der zu entwickelnden Anwendung und ihrer Einbindung in die konkreten Praktiken und Prozesse der Organisation sowie der Klärung, welche Daten zur Verfügung stehen. Dies kann in einigen wenigen kurzen agilen Zyklen durch­geführt werden. Wie viel Zeit Sie hierfür einplanen müssen, hängt vom Anwendungsfall und vom Commitment der Organisation zur Datafication ab. In aller Regel aber kann ab Phase 1 sehr zielgerichtet und deshalb schneller vorgegangen werden.
In der Phase 2 eines Datafication-Projekts geht es um die Sicher­stellung der Gesetzeskonformität, speziell in Bezug auf den Datenschutz. Die Einhaltung ist dann kritisch, wenn besonders schützenswerte Daten genutzt werden sollen, aber in vielen Projekten auch kein Thema, beispielsweise wenn es um die Automatisierung tech­nischer Steuerungsaufgaben oder Qualitätskontrollen geht. Allerdings können in solchen Projekten vor der Umsetzung andere juristische Ab­klärungen, beispielsweise in Bezug auf die Haftung, trotzdem not­wendig sein.
In der Phase 3 eines Datafication-Projekts geht es um die Klärung der Machbarkeit. Je grösser die angestrebte Wirkung, desto anspruchsvoller ist meist das Projekt und desto aufwendiger ist diese Phase. In trivialen Anwendungsfällen ist die Machbarkeit in wenigen Tagen abgeklärt. Wenn es aber darum geht, die Produktivität substanziell zu steigern, so ist meist ein eigenes Forschungsprojekt von zwei bis vier Jahren nötig – mit ungewissem Ausgang. Die Wahrscheinlichkeit ist aber gross, dass in Phase 0 mehrere vielversprechende simple Anwendungsfälle identifiziert werden können, die Nutzen bringen und deren Machbarkeit sich schnell abklären lässt.
In der Phase 4 eines Datafication-Projekts geht es um die Implementierung der Lösung. Diese ist häufig vergleichsweise wenig aufwendig. Allerdings kann das Design der Nutzerschnittstellen durchaus erfolgskritisch sein, beispielsweise in Bezug auf Fehlervermeidung, rechtliche Anforderungen und Nutzerakzeptanz.
In der Phase 5 eines Datafication-Projekts geht es um die erfolgreiche operative Einführung. Diese verlangt eine intensive und adressatenadäquate Kommunikation. Viele gute digitale Werkzeuge kamen in der Vergangenheit nie zum Einsatz, weil sie schlecht eingeführt wurden. Entscheidend ist, dass schnell viele erklären können, was wozu eingesetzt werden soll.
Zum Autor
Reinhard Riedl
beschäftigt sich mit digitalen Ökosystemen und leitet das transdisziplinäre Forschungszentrum «Digital Society» an der Berner Fachhochschule.



Das könnte Sie auch interessieren