11.04.2006, 22:14 Uhr

Die Wiederentdeckung von Tante Emma

Was kann Data Mining für Unternehmen leisten? Tom Khabaza, Manager bei SPSS, erklärt, was der Einsatz heutiger und kommender Analysemethoden bringt.
Tom Khabaza ist einer der «Väter» der Workbench «Clementine», die von SPSS übernommen wurde.
Tom Khabaza ist Mitentwickler der Data-Mining-Workbench Clementine, die zum Portfolio der Statistiksoftwareanbieterin SPSS gehört. Khabazas spezielles Interesse gilt künstlicher Intelligenz und Expertensystemen. Im Interview mit Computerworld Schweiz erklärt der 47-jährige Brite die aktuellen und künftigen Trends im Data Mining.
Computerworld: Herr Khabaza, wozu braucht es überhaupt Data Mining?
Khabaza:Data Mining ermöglicht Unternehmern, ihre Geschäftsaktivitäten intelligenter zu erledigen. Es lässt aus der Vergangenheit in einem Umfang lernen, wie es zuvor nicht möglich war. In gewisser Weise kann ein Grossanbieter wieder das, was jeder Tante-Emma-Laden immer schon konnte: Jeden einzelnen Kunden und seine Vorlieben kennen, wissen, wenn er woanders einkaufen geht, und warum.

Computerworld:Was ist die dringlichste Frage potenzieller Anwender an Data-Mining-Systeme?
Khabaza: Die Unternehmen suchen nach schnellen Lösungen für ihre Probleme. Sie wissen, wenn sie sich viel Zeit nehmen und mit allen möglichen Methoden ihre Datenbanken analysieren, erhalten sie wichtige Informationen. Doch sie wollen rasche Ergebnisse, und sie wollen Return on Investment.
Computerworld: Lässt sich der Return on Investment überhaupt beziffern?
Khabaza: Fast immer. Zum Beispiel, indem Sie die Kosten hochrechnen, die anfallen, um einen neuen Kunden zu gewinnen - erstens über konventionelle Methoden, etwa Werbekampagnen, zweitens, wenn alternativ Data Mining genutzt wird. Ebenso lässt sich ziemlich genau berechnen, was ein verlorener Kunde, der ersetzt werden soll, kostet. Genau das ist ein typisches Einsatzfeld für Data Mining: Zu bestimmen, welche Kunden «Wackelkandidaten» sind, die abspringen könnten, wenn man nichts unternimmt. Kürzlich hat ein grosser Carrier, dessen Name ich hier nicht nennen kann, Rekordumsätze vorgelegt. Der Grund dafür: Der Konzern konnte die Abwanderungsrate massiv senken, weil er dank Data Mining die Zielgruppe genau erfassen konnte.
Computerworld:Beobachten Sie branchenspezifische Unterschiede?
Khabaza: Es gibt unterschiedliche Schwerpunkte. Die Telco-Branche ist besonders wettbewerbsintensiv, bestehende Kunden zu behalten, ist daher ihre Priorität. Hingegen ist in der Finanzbranche eine gewisse Kundenfluktuation normal. Dort geht es eher darum, bestehenden Kunden zusätzliche Produkte zu verkaufen. Seit 1997 betreibt beispielsweise Credit Suisse ein «Loyalty-Based Management» genanntes Program mit dem Ziel, profitable Kunden bei der Stange zu halten. Dafür analysiert ein Data-Mining-Team mit Clementine ein Data Warehouse mit rund 2,5 Millionen Kunden, jeder mit über 400 Attributen. Dabei werden besonders interessante Kunden herausgefiltert und dann mit gezielten Marktingmassnahmen bearbeitet. Im Einzelhandel wiederum geht es neben Kundenpflege um Warenkorbanalysen, um Erkenntnisse wie «Produkt A wird überproportional oft in Kombination mit Produkt B verkauft». Damit erschliessen sich Kundensegmente.
Computerworld: Die Lizenzpreise der «Clemente»-Module beurteilen manche Kritiker als überteuert. Wie viel muss ein typisches Anwenderunternehmen investieren? Wie gross muss ein Unternehmen sein, damit sich die Anschaffung überhaupt lohnt?
Khabaza: Eine typische Unternehmensinstallation besteht aus einem Server plus einer kleineren Anzahl Seats. Der Server kostet rund 100000 Franken, jeder Client etwa 6500 Franken. Bezüglich der Firmengrösse sprechen wir hier in der Schweiz Unternehmen mit einem Jahresumsatz im dreistelligen Millionenbereich an. Zudem ist unsere Data-Mining-Software für manche öffentlichen Institutionen sinnvoll, dies dann allerdings erst auf Bundesebene. In den USA zum Beispiel arbeiten die Steuerämter mit Clementine, in der Schweiz etwa die Kantonalbank Waadt. Es gibt zwei grosse Einsatzbereiche für Data Mining: Erstens jegliche Variante von Kundenpflege und -beziehungsmanagement. Zweitens Risiko- und Sicherheitsmanagement, um Betrug vorzubeugen, beispielsweise Steuerhinterziehung. Damit sind solche Tools auch für Strafverfolgungsbehörden relevant.
Computerworld: Wie trägt Data Mining konkret zur Verbrechensbekämpfung bei?
Khabaza: Wenn zum Beispiel in Grossbritannien ein Schwerverbrechen, etwa ein Mord, passiert, untersucht zunächst die lokale Polizeidienststelle den Fall. Zudem werden die Fakten detailliert in einer nationalen Datenbank eingegeben und dabei automatisch mit ähnlichen Fällen und Täterprofilen abgeglichen. Daraus lassen sich Erkenntnisse ziehen, die der lokalen Polizei verschlossen bleiben würden. In der Vergangenheit fand so etwas, wenn überhaupt, manuell und mit entsprechendem Aufwand statt. Auch bei Einbruchsserien kommt man den Tätern dank Data Mining leichter auf die Spur. Schliesslich sorgt Data Mining sogar prophylaktisch für Verbrechensbekämpfung. Indem etwa potenzielle Krisenherde, wie gefährliche Stadtteile, identifiziert werden, die sodann gezielt überwacht werden. Der US-Bundesstaat Virginia zum Beispiel nutzt diese Option.
Computerworld: Wie ist der Stand der Technik in Bezug auf Text Mining?
Khabaza: Traditionell arbeitet Data Mining mit strukturierten Daten. Text Mining wendet dieselben Analysemethoden auf unstrukturierte Daten an. Das klappt allerdings erst seit ein paar Jahren zuverlässig, davor war es lange nur ein Thema für Hochschulen und Forschungsinstitute. Heute ist die Technologie endlich schnell genug für den praktischen Einsatz. Ausserdem verlangt sie kein spezifisches Customizing für die jeweilige Applikation: Man kann die Text-Mining-Analyse auf quasi jeden beliebigen Rohtext anwenden. Natürlich kann man jedes System noch tunen - aber die Basistechnologie funktioniert immer und überall.
Computerworld: Wie wichtig ist die Qualität der Basisdaten bei unstrukturierten Daten, und wie stellt man diese sicher?
Khabaza: Bei strukturierten Daten ist die Qualität einfach zu bestimmen: Wenn «Pflichtdaten» fehlen, ist das entsprechende Feld in der Datenbank leer. Bei unstrukturierten Daten gibt es viel mehr Probleme, angefangen von Schreibfehlern bis hin zu sehr spezifischem Fachjargon. Die Technologie ist daher einfachen Tippfehlern gegenüber tolerant, und sie arbeitet mit Wörterbüchern. Diesbezüglich sind gegebenenfalls individuelle Terminologiesammlungen erforderlich.
Computerworld: Wo steht die Branche momentan beim Web Mining?
Khabaza: Das ist ein weiterer, aufstrebender Bereich. Web Mining identifiziert das Verhalten der Surfer im Web. Die Quelldaten dazu liefert der Webserver. Aus ihnen lässt sich ableiten, nach welchen Mustern Seiten besucht werden, welche Probleme es dabei gibt, unter Umständen lässt sich das Verhalten sogar prognostizieren. Dies wiederum liefert Input für webbasiertes Marketing und E-Commerce-Werbung. Ein weiterer Bereich ist Survey Data Mining, also die Analyse von Umfragedaten, zum Beispiel über Vorlieben, heutige und künftige Bedürfnisse von Verbrauchern. Kombiniert man diese drei - Text Mining, Web Mining und Survey Mining -, dann zeichnet sich ein sehr viel schärferes, kompletteres Bild vom Kunden ab, als mit bisherigen Methoden je zu zeichnen war.
Computerworld: Was sind momentan die wichtigsten Themen im Data Mining?
Khabaza: Erstens geht der Trend in Richtung so genannter Predictive Applications, die als End-to-End-Lösungen realisiert sind. Zweitens wünscht man sich die Analyseplattformen unternehmensweit zugänglich, also nicht bloss als Stand-alone-Desktop-Tool. Das Ergebnis soll möglichst komlex sein, sozusagen eine 360-Grad-Sicht auf das Analyseobjekt erlauben. Und viertens integrieren die Datenbankanbieterinnen wie Oracle oder Microsoft zunehmend Data-Mining-Funktionen direkt in ihre Produkte. Wir unterstützen in Clementine Algorithmen von Datenbanken, etwa Microsofts SQL Server, nativ. Wir begrüssen diese Integration sehr, denn so lässt sich eine bessere Performance erzielen und es müssen weniger Daten hin- und hergeschaufelt werden.
Computerworld: Wie steht es um die Standardisierung im Data Mining?
Khabaza: Clementine greift auf viele Datenformate direkt zu. Aber der wohl wichtigste und gängigste Standard ist ODBC, damit hat man Zugang zu allen wichtigen Datenbanken.
Computerworld: Wie aufwändig ist Ihrer Erfahrung nach das Customizing einer Installation?
Khabaza: Bei Clementine, der Workbench, fällt keinerlei Customizing an. Manche Anwender wünschen Schulungen für die Anwender. Bei den Prognoseappliaktionen, wie zum Beispiel «Predictive Marketing», die SPSS ebenfalls anbietet, ist jedoch eine starke Anpassung erforderlich. Rund die Hälfte der Investitionskosten entfällt auf die Software selbst, die andere Hälfte auf begleitende Serviceleistungen. Data Mining ist nun mal keine vollautomatische Lösung, bei der Sie oben Daten hinein kippen und unten das fixfertige Ergebnis herausholen.
Computerworld: Wie wichtig ist die grafische Aufbereitung der Analyseergebnisse für die Benutzerschnittstelle?
Khabaza: Extrem wichtig, wenn nicht sogar ausschlaggebend. Die einfache Benutzbarkeit ist eine unabdingbare Voraussetzung dafür, dass die Software akzeptiert wird. Dabei geht es nicht nur um die Visualisierung der Ergebnisse, sondern auch um die grafische Benutzeroberfläche mit Diagrammen, grafischen Objekten und so weiter. Nur so arbeiten die Anwender produktiv. Denn sie wollen sich nicht mit Technik herumschlagen, sondern betriebswirtschaftliche Prozesse erledigen.
Computerworld: Warum sollte ein potenzieller Kunde sich an SPSS wenden, wenn er auch von einer SAP oder Oracle Data-Mining-Tools angeboten bekommt, deren Applikationen er bereits im Unternehmen einsetzt?
Khabaza: Gute Frage... Es gibt die spezifischen Data-Mining-Anbieter wie SPSS und unsere Konkurrenz. Und es gibt die grossen Anbieter, die viele Bereiche abdecken. Unser Vorteil ist, dass wir spezifisches Know-how haben, und dass wir Data-Mining-Installationen in Kombination mit der Software Dritter liefern können. Die Anwender können sich damit die «Best of Breed» aus dem jeweiligen Segment herauspicken und trotzdem zu einer integrierten Analyseplattform kommen. Bei den Grossanbietern geht das nicht. Auch hinsichtlich Skalierbarkeit und Performance bieten wir meiner Ansicht nach die bessere Lösung, weil wir mit der jeweils ideal geeigneten Drittsoftware arbeiten können. Und schliesslich ist SPSS schon sehr lang in diesem Segment tätig - das bedeutet Sicherheit für die Anwender.
Catharina Bujnoch


Das könnte Sie auch interessieren