Data Mining 16.12.2020, 06:41 Uhr

Wenn Algorithmen entscheiden

Seit mindestens einem Jahrzehnt verzeichnet die ICT-Branche signifikant wachsende Datenmengen. Seit 2016, dem «Big Bang» in Sachen Big Data, ist es ruhiger um dieses Thema geworden. Im Hintergrund werden jedoch weiterhin Daten gespeichert und ausgewertet.

Aus Daten wird Business: Data Mining eröffnet neue Möglichkeiten, mit Daten betriebliche Abläufe zu optimieren und neue Erlösquellen zu erschliessen

(Quelle: Shutterstock/Connect world, GarryKillian)

Das Cloud Computing beschreibt die Bereitstellung von IT-Infrastrukturen wie beispielsweise Speicherplatz, Rechenleistung oder Anwendungs-Software als Dienstleistung über das Internet. Anwendungen werden also zunehmend über ein Rechnernetz «aus der Wolke» zur Verfügung gestellt, ohne dass diese auf dem lokalen Rechner installiert sind. Die Nutzung dieser Cloud-Services erfolgt dabei ausschliesslich über technische Schnittstellen und Protokolle, etwa über gewöhnliche Web-Browser.

Dazu ist ein leistungsfähiger Internet-Anschluss mit hohen symmetrischen Bandbreiten eine wichtige Voraussetzung zur einwandfreien Funktion. Eine tiefe Latenz von wenigen Millisekunden und eine hohe Verfügbarkeit der entsprechenden Server garantieren flüssige Abläufe mit hoher Benutzerakzeptanz. Neben einer unüberschaubaren Wahl von Cloud-Services hat der Anwender die Wahl zwischen Private, Public und Hybrid Cloud, wobei die Letztere in der Schweiz am beliebtesten ist.

Big Data Analytics

Die verschiedenen Clouds wurden dazu geschaffen, Lösungen bereitzustellen und auch um grosse Datenmengen zu speichern – Stichwort Big Data. Dieser Begriff wurde zunächst als Phänomen wahrgenommen und in der jüngeren Vergangenheit entstand ein ähnlicher Hype darüber wie bei der Cloud. Big Data umfasst neben der immer rasanter wachsenden Datenmenge auch neue sowie leistungsstarke IT-Lösungen und -Systeme, mit denen Unternehmen die Informationsflut vorteilhaft verarbeiten können.

Big Data geht mit einer schnell fortschreitenden Digitalisierung einher und umfasst die Sammlung, Nutzung, Verwertung, Vermarktung und vor allem die nachgehende Verarbeitung und Analyse digitaler Daten. Weil Letzteres zum Teil negative Assoziationen hervorruft und zudem einen grundlegenden gesellschaftlichen Wandel einleitet, kam Big Data anfangs in Verruf. Hinzu kamen Big-Data-Projekte von Unternehmen, die in teuren Fehlschlägen endeten.

Unterdessen kann man jedoch ein durchaus positives Fazit ziehen, da man mit der systematischen Datenanalyse (engl. Big Data Analytics) klare Wettbewerbsvorteile generieren kann. Durch die grossen Datenmengen erhalten die Unternehmen ganz neue Einblicke in die Interessen, das Kaufverhalten und auch das Risikopotenzial von Kunden sowie von potenziellen weiteren Interessenten. Unter Zuhilfenahme genauer Datenanalysen werden grosse Datenmengen gefiltert, untersucht, beurteilt und entsprechend interpretiert.

Dabei verbergen sich hinter dem Begriff Big Data Analytics Methoden und Verfahren, um in Datenbergen versteckte Muster, bisher unbekannte Korrelationen und andere nützliche Markt- und Nutzungsinformationen zu entdecken. Praktisch alle Schweizer Grossfirmen nutzen solche Analysemethoden etwa für ein zielgerichteteres und daher effektiveres Marketing. Dazu gehört auch das Benutzerverhalten beim Surfen auf der unternehmenseigenen Homepage. Was interessiert den Surfer, wo verharrt er wie lange, in welche Richtungen bewegt er den Mauscursor und welche Themen sprechen ihn am meisten an?

Besonders interessant wird es natürlich bei Downloads von eingehenderen Informationen wie White Paper oder bei Anmeldungen zu Newslettern. Durch genauere Markt- und Kundenkenntnisse können Unternehmen damit ihren Zielgruppen bessere Angebote unterbreiten oder sogar massgeschneiderte Dienstleitungen auf den Markt bringen, was die Marktakzeptanz und das Unternehmensimage nachhaltig verbessern kann.

Data Mining

Im Vergleich dazu ist das Data Mining wesentlich diffiziler und aufwendiger. Darunter versteht man die systematische Anwendung computergestützter Methoden, um in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu finden. Die zur Wissensentdeckung eingesetzten Algorithmen basieren unter anderem auf Methoden der Statistik, Kombinatorik und Wahrscheinlichkeitsrechnung. Das Data Mining beinhaltet rechnergestützte Analysen von Datenbeständen und nutzt Verfahren der künstlichen Intelligenz (KI), um grosse Datenbestände auf neue Querverbindungen, Trends oder auffällige Muster hin zu untersuchen.

Längst alltäglich: Cloud-Services nutzen und Daten in die Cloud schicken. Wo diese Daten später landen, ist oft unklar

Quelle: Rüdiger Sellin/NMGZ

Data Mining extrahiert die Zusammenhänge automatisch und stellt sie übergeordneten Zielen zur Verfügung. Die erkannten Muster können dazu beitragen, die Entscheidungsfindung bei bestimmten Problemen zu erleichtern. Die Aufgaben des Data Minings umfassen die Einzelbereiche Klassifikation, Segmentierung, Prognose sowie Abhängigkeits- und Abweichungsanalysen.

Die Klassifikation ordnet bestimmte Klassen einzelnen Datenobjekten zu, während die Segmentierung Objekte mit gemeinsamen Merkmalen zu Gruppen zusammenfasst. Dabei sollten alle Objekte einer Gruppe möglichst homogen sein. Als Prognose bezeichnet man die Vorhersage von bisher nicht bekannten Merkmalen auf Basis zuvor gewonnener Erkenntnisse. Mit der Abhängigkeitsanalyse lassen sich Beziehungen zwischen einzelnen Merkmalen eines Objekts oder zwischen verschiedenen Objekten finden. Schliesslich werden bei der Abweichungsanalyse Objekte identifiziert, die den Regeln der Abhängigkeiten anderer Objekte nicht entsprechen, womit sich mögliche Ursachen für die Abweichungen finden lassen.

Von Finance bis Medizin

Das Data Mining kommt im Marketing, im Finanz- und Versicherungswesen, im Online-Handel, in der Verbrechensbekämpfung oder in der Medizin branchenübergreifend zur Anwendung. Banken und Versicherungen nutzen es beispielsweise zur Durchführung von Risikoanalysen und zur entsprechend genaueren Berechnung individueller Prämien. Im Handel dient Data Mining zur Analyse des Kaufverhaltens von Kunden und zur Differenzierung von zahlungsfähigen und zahlungsunfähigen Kunden.

Big Data versus Data Mining

Diese beiden Begriffe werden oft im ähnlichen Kontext verwendet und haben teilweise ähnliche Ziele. Trotzdem sind sie klar voneinander zu trennen:

Big Data befasst sich mit besonders grossen Datenmengen, die sich mit konventionellen Methoden und IT-Werkzeugen weder effizient noch in einem zeitlich vertretbaren Rahmen verarbeiten lassen.
Data Mining beschreibt den eigentlichen Vorgang der Analyse von grossen Datenmengen mit dem Ziel, für den Analysten relevante Zusammenhänge und Erkenntnisse zu erhalten.

Big Data speichert also grosse Datenmengen und stellt geeignete technische Plattformen zur effizienten Verarbeitung zur Verfügung, während das Data Mining die vorliegenden Daten mit der Hilfe von KI-Werkzeugen eingehend analysiert und vom Untersuchenden gewünschte Zusammenhänge bereitstellt.

Immer preiswertere Analysen

Beide Verfahren erwecken den Eindruck, dass sie sehr aufwendig und daher auch mit hohen Kostenfolgen verbunden sind. Jedoch haben die enormen Fortschritte im Bereich der Big-Data-Technologien sowie günstigere und leistungsfähigere Hardware in den Rechenzentren dafür gesorgt, dass sich Aufwand und Ertrag im vertretbaren Rahmen halten. Zudem liefern Big Data und Data Mining bei der Sammlung umfangreicher Datenmengen und der anschliessenden Strukturierung und Analyse dem jeweiligen Unternehmen relevante Ergebnisse.

Data Mining Tools

Ein weitverbreitetes Tool für das Data Mining ist der IBM SPSS Modeler. Die umfassende Predictive-Analytics-Plattform soll eine prädiktive Intelligenz in die Entscheidungen von Einzelpersonen, Gruppen, Systemen und Unternehmen bringen. Der SPSS Modeler nutzt hoch entwickelte Algorithmen und Techniken inklusive Text- und Datenanalysen, Entity Analytics, Decision Management und Optimierungen. Damit kann der Nutzer dieser Plattform wiederkehrende Muster und Trends in strukturierten oder unstrukturierten Daten erkennen und daraus Vorhersagemodelle schnell und intuitiv erstellen, ohne selbst programmieren zu müssen.

Daten sammeln und mit Data Mining zielgerichtet interpretieren

Quelle: Rüdiger Sellin/NMGZ

Ein laufender Data-Mining-Prozess wird über eine intuitive grafische Oberfläche visualisiert. Über diese Schnittstelle kann der Nutzer auf numerische und tabellarische Daten aus einer Vielzahl von Quellen zugreifen, z. B. Text-, Web-2.0- oder Excel-Sheets. Auch Umfragedaten lassen sich zur Modellierung heranziehen, um Geschäftsergebnisse in so unterschiedlichen Bereichen wie CRM, Marketing, Ressourcenplanung, Betrugserkennung, Risikominderung und medizinische Forschung zu verbessern.

Schliesslich kann der Nutzer die Ergebnisse seiner Analyse modellieren und dabei verstehen lernen, welche Faktoren die erhaltenen Aussagen beeinflussen. Das soll ihm dabei helfen, neue Chancen zu nutzen, konsistent die richtigen Entscheidungen zu treffen und Risiken zu mindern. Der Nutzer greift über eine einzige Schnittstelle sowohl auf alle prädiktiven Funktionen des IBM SPSS Modelers sowie auf die Datenumwandlungs-, Hypothesentest- und Berichtsfunktionen von IBM SPSS Statistics zu. IBM SPSS gibt es in vier Versionen: Personal, Professional, Premium und Gold. Der jeweilige Nutzer entscheidet, in welcher Version und mit welchen Auflagen er die einzelnen Pakete nutzt, was den Preis bestimmt.

Verfügt man über genügende Kapazitäten und Know-how im eigenen Unternehmen, liegt es nahe, auf Open Source Data Mining Tools zurückzugreifen. Je nach Fokus stehen verschiedene Tools mit verschiedenen Schwerpunkten zur Verfügung, so zum Beispiel Apache Mahout, DataMelt, ELKI, Knime, Orange oder Rattle. Aber dies ist nur die Spitze des Eisbergs, denn die Auswahl ist riesengross.

Data Mining in der Schweiz

Bei der Zürcher Dynelytics nutzt man den SPSS Modeler unter anderem zur Optimierung von Marketing und Services einer langen Liste von Klienten. Sie umfasst bekannte Firmen aus dem Finanz- und Gesundheitswesen, Detailhandel, ICT, aber auch Bundesämter, Non-Profit-Organisationen, Hochschulen, Marktforschung und weitere.

So wollte die Basler Versicherung mehr über die eigene Kundschaft erfahren und nutzt bereits seit 2004 entsprechende Werkzeuge. Für eine Versicherung ist es essenziell, die Prämien jeweils dem Risiko entsprechend zu berechnen sowie genügend Rücklagen für allfällige Schadensfälle zu bilden. Dank des SPSS Modelers kennt man nun den Wert eines Kunden, etwa wer mehrere Verträge hat und nur wenige Schäden meldet (höchster Kundenwert) und wer – am anderen Ende der Werteskala – häufig oder gar immer dieselben Schadensfälle meldet (unter 1 % der Kunden).

Derartige Daten sind auch für den Aussendienst des Versicherers nützlich, erleichtert es doch das Eingehen auf Kundenbedürfnisse. Neben dem Kundenwert und dem Wechselpotenzial wird auch der Entwicklungswert berechnet, ein Mass für Cross Selling. Data Mining trägt bei der Basler Versicherung zu einer günstigeren Kundenstruktur und mehr Gewinn bei und soll auch im Geschäftskundenbereich zum Einsatz kommen.

Für Geschäftskunden der Helsana-Gruppe, dem grössten Krankenversicherer der Schweiz, entwickelte Dynelytics ein Gesundheitsportal. Darüber initialisiert und verwaltet Helsana statistische Online-Erhebungen in unterschiedlichen Abteilungen und auf diversen Stufen ihrer Geschäftskunden. Nach Schadensabwicklung bei Krankentaggeld- sowie Unfall-Schadenfällen werden über das Portal zudem monatliche Befragungen zur Zufriedenheit der Firmenkunden durchgeführt. Zur Lösung gehört auch ein massgeschneidertes, voll automatisiertes Online-Reporting.

Dynelytics wertete mit dem SPSS Modeler aber auch von ihnen durchgeführte Mitarbeiterbefragungen aus, so bei Coop oder bei der Kantonspolizei Zürich, was für das Management wertvolle Hinweise lieferte. Auch Studenten der Fernuni Schweiz verwenden im Statistikunterricht den SPSS Modeler, um im Fernstudium die Erhebung und systematische Auswertung von Daten zu erlernen.

Infobox

Robotic Process Automation (RPA)

RPA beschreibt die automatisierte Bearbeitung strukturierter Geschäftsprozesse. Software-Roboter (sogenannte RPA Bots) bilden den Kern dieser populären Technologie. Diese verarbeiten regelbasierte, strukturierte Daten in wiederkehrenden Prozessen und Aufgaben. RPA Bots arbeiten auf GUI-Ebene und können nahezu jeden Prozess automatisiert ausführen. Dazu sind weder Prozessänderungen noch spezialisierte Schnittstellen erforderlich. Die RPA Bots übernehmen dabei die Rollen und Aufgaben von Anwendern und interagieren mit anderen Software-Systemen. RPA ist nicht Teil der klassischen Unternehmens-IT und verändert die bestehende Infrastruktur und Systeme nicht. Vielmehr befindet sie sich eine Ebene darüber und ermöglicht eine effiziente Implementierung, ohne bestehende Anwendungen zu verändern oder zu ersetzen. Das geschah – ebenfalls im Kanton Zürich – auch bei der Erfassung der unzähligen Gesuche auf finanzielle Unterstützung der wegen Covid-19 ruhenden Firmen. Die ausgefüllten Formulare wurden elektronisch erfasst und in einer Triage dem jeweiligen Team zugeordnet, um den Ansturm zu bewältigen. Auch wenn RPA bisher nur einfache Daten erfassen und auswerten kann, so ist es doch ein gutes Beispiel für die automatisierte Erfassung und Verarbeitung von Daten.

Software-Roboter

Die grosse Bedeutung verlässlicher Datenauswertungen haben sich seit dem Ausbruch der Covid-19-Pandemie deutlich offenbart. Aktuelle Daten zu deren Auswirkungen gab es anfangs kaum, weshalb sich das Statistische Amt des Kantons Zürich (SAZH) und seine Fach- und Koordinationsstelle Open Government Data (OGD) zum Ziel gesetzt haben, eine für alle verfügbare Datengrundlage zu schaffen. Zwar liefert die öffentliche Statistik meist qualitativ hochstehende, breit abgestützte sowie verlässliche Indikatoren und ermöglicht damit fundierte politische Entscheidungen. Gegenwärtig kommen klassische Indikatorensysteme jedoch an ihre Grenzen, da sich die Zahlen sehr dynamisch entwickeln.

Damit der Bundesrat und die Kantone zielgerichtete Massnahmen treffen können, werden möglichst aktuelle Daten benötigt, etwa zu Fallzahlen, der Spitalauslastung sowie zu den Auswirkungen auf Bevölkerung und Wirtschaft. Vor dem OGD-Hintergrund hat das SAZH drei Projekte lanciert, um verlässliche Datengrundlagen rasch bereitstellen zu können. So konnte man auf GitHub zurückgreifen, eine bereits vor der Krise erprobte Kollaborationslösung. Via GitHub laufen automatisierte Software-Roboter (Webscraper), welche die Fallzahlen aus den Websites der Kantone auslesen und in eine konsolidierte Quelle einfliessen lassen.

Schlüssel zum Erfolg

Für Data Mining und Big Data Analytics entscheidend ist neben den entwickelten Datenmodellen und dem gewählten Werkzeug primär die Art und Weise, wie Erkenntnisse aus der Analyse ins Business einfliessen. Je nach Unternehmensgrösse ist es nämlich ein weiter Weg, die Vorhersagen und Erkenntnisse an Entscheider, Marketing, Mitarbeitende mit Kundenkontakt wie Verkauf, Eventorganisatoren und Service weiterzugeben und in IT-Systeme einzuflechten.

Die technische Entwicklung erlaubt es zunehmend, Big Data Analytics und Data Mining auch mit kleineren Kundenbasen und/oder beschränkten Datenmengen analysieren sowie neue Erkenntnisse und Marktpotenziale daraus ableiten zu können. So wird die Analytik auch für KMU interessanter. Übrigens fehlen in der Schweiz rund 300 Data-Mining-Spezialisten in verschiedenen Branchen – von Finance, ICT-Unternehmen und Dienstleistern über grosse Verlagshäuser bis hin zu Polizeibehörden.

Auf mehreren Seiten lesen

Autor(in) Rüdiger Sellin