24.11.2014, 16:22 Uhr

Acht Big-Data-Trends, die es in sich haben

Big-Data-Techniken und –Praktiken verändern und entwickeln sich schnell. Dieser Überblick soll etwas Klarheit schaffen.

Big-Data-Techniken gleichen derzeit einem bewegten Ziel. Was heute noch State-of-the-art war, kann morgen schon überholt und veraltet sein. Abwarten, bis sich Standards herauskristallisieren ist aber oft auch keine Alternative. Denn das Business verlangt oft schon heute statt morgen, dass die Datenberge durchforstet und analysiert werden. Wir haben versucht mit Hilfe von Marktbeobachtern, die wichtigsten Trends aufzuzeigen. Hier ist unsere Liste:

1. Big-Data-Analyse in der Cloud

Hadoop, ein Rahmenwerk und eine Tool-Sammlung, um sehr grosse Datensätze zu verarbeiten, sollte ursprünglich auf ganzen Batterien von physischen Rechnern laufen. «Mittlerweile gibt es eine zunehmende Zahl entsprechender Techniken zur Datenverarbeitung in der Cloud», meint Brian Hopkins, Analyst bei Forrester Research. Als Beispiele gelten das gehostete Business-Intelligence-Data-Warehouse «Redshift» von Amazon, der Daten-Analyse-Dienst BigQuery von Google, die Cloud-Plattform Bluemix von IBM und der Datenverarbeitungsdienst Kinesis von Amazon. «Big Data wird künftig sowohl in-house als auch in der Cloud betrieben werden, ein echte Hybrid-Anwendung also», ergänzt Hopkins.

2. Hadoop wird zum Betriebssystem für Unternehmensdaten

Verteilte Frameworks zur Datenanalyse, wie MapReduce, mausern sich langsam aber sicher zu einer verteilten Ressourcen-Verwaltung und machen aus Hadoop laut Hopkins ein Allzweck-Daten-OS. Mit diesen Systemen kann man diverse Datenbearbeitungen und Analytik-Operationen durchführen, indem man diese mit Hadoop verbindet und dieses als verteiltes Dateispeichersystem verwendet», ergänzt der Forrester-Berater. Was bedeutet das fürs Unternehmen? Während immer mehr Arten von Prozessen wie etwa SQL, MapReduce, In-Memory-Verarbeitung, Stream-Verarbeitung und Graph Analytics auf Hadoop ausgeführt werden können, und zwar mit zufriedenstellender Leistung, werden immer mehr Firmen Hadoop als ihre Drehscheibe für Unternehmensdaten verwenden. «Durch die Möglichkeit, mehrere verschiedene Abfragen und Datenverarbeitungs-Routinen in Hadoop auszuführen, wird das Framework zu einem preisgünstigen, generellen Lagerungsort für allerlei Daten, die man später verarbeiten und analysieren möchte», fasst Hopkins das Phänomen zusammen. Nächste Seite: Big-Data-Seen und SQL in Hadoop

3. Big-Data-Seen

In der klassischen Datenbanklehre heisst es, dass man zuerst den Datensatz definiert, bevor man Daten einfügt. Der Datensee oder die Datendrehscheibe kehrt diese Ordnung auf den Kopf. «Man kann die Datenquellen nehmen und alle in ein riesiges Hadoop-Repository schmeissen, und dies, ohne dass man voher versucht, ein Datenmodell zu designen», kommentiert Chris Curran von PricewaterhouseCoopers die Vorgehensweise. Vielmehr stellt man den Benutzern Datenanalyse-Tools zur Verfügung, zusammen mit einer ausgefeilten Definition über die Daten, die sich im See befinden. «Die Leute bauen sich die Daten-Ansichten nach und nach. Es ist ein sehr organisches Modell, um eine grosse Datenbank aufzubauen», erklärt Curran weiter. Die Vorgehensweise hat allerdings einen entscheidenden Nachteil: die Benutzer müssen wirklich wissen, was sie tun, und gut ausgebildet sein.

4. Bessere Vorhersage der Analysen

Bei Big Data vergrössert sich nicht nur die schiere Datenmenge, sondern auch die Rechenleistung und die Anzahl Attribute, mit denen die Informationen verknüpft werden können. Durch diese Kombination können Analyse-Experten Verhaltensweisen schon während des Tages erkennen und entsprechend reagieren. Hopkins nennt diese Informationen «Sparse Data», also seltene Daten, weil deren Ausfindigmachen der sprichwörtlichen Suche nach der Nadel im Heuhaufen gleicht. «Mit traditionellen KI-Algorithmen dieser Art Daten Herr zu werden, war bislang von der Rechenleistung her unmöglich», sagt Hopkins. «Man formuliert die Fragestellungen komplett anders, wenn Geschwindigkeit und Speicher kein Thema sind», so der Experte. «Jetzt kann man herausfinden, welche Variablen sich am besten für die Analyse eignen, indem riesige Computing-Ressourcen beigeschafft werden.»

5. SQL in Hadoop: Schneller, besser

Als intelligenter Coder und Mathematiker, kann man alles in Hadoop analysieren. Soweit jedenfalls das Versprechen – und das Problem, wie Mark Beyer von Gartner betont. «Ich brauche jemanden, der es mir in ein Format und in eine Sprachstruktur bringt, mit der ich umzugehen weiss», erklärt er. Hier sollen die «SQL für Hadoop»-Produkte weiterhelfen. Tools, die SQL-ähnliche Abfragen erlauben, können von Business-Anwender ohne grossen Lernaufwand verwendet werden. Diese «öffnen die Tür für Hadoop im Unternehmen», ist folglich Forrester-Analyst Hopkins überzeugt. Denn die Firmen bräuchten keine High-end-Data-Scientists anzuheuern, welche Scripts in Java, JavaScript und Python schreiben können, etwas, das Hadoop-Anwender bislang können mussten. Nächste Seite: NoSQL, Deep Learning und In-Memory-Techniken

6. Mehr und besseres NoSQL

Alternativen zu traditionellen SQL-basierten relationalen Datenbanken, so gegenannte NoSQL-Datenbanken (das Kürzel steht übrigens für «Not Only SQL»), gewinnen laufend an Popularität. Sie finden laut Curran von PricewaterhouseCoopers als Tools für spezielle analytische Aufgaben Verwendung, Tendenz steigend. Er schätzt, dass es derzeit zwischen 15 und 20 NoSQL-Datenbanken auf Open-Source-Basis gibt. Ein Beispiel ist ArangoDB mit welche Daten als mehrdimensionale Graphs ablegt. Damit können das Verbindungsgeflecht zwischen Kunden und Verkäufern schneller und direkter analysiert werden als mit einer traditionellen SQL-Datenbank.

7. Deep Learning

Deep Learning umfasst eine Anzahl Verfahren aus dem Bereich des maschinellen Lernens, die auf neuronalen Netzen basieren. Laut Hopkins von Forrester ist die Technik noch in der Entwicklung, birgt aber ein grosses Potenzial. «Deep Learning erlaubt es Computern, sowohl Interessantes in riesigen Mengen von unstrukturierten Daten zu erkennen als auch dieses zu deren Verbindungen aufzudecken, und das ohne spezielle Modelle oder Programmierbefehle», erklärt er. In einem Beispiel hat ein Deep-Learning-Algorithmen Daten aus Wikipedia analysiert und konnte dabei selbstständig erlernen, dass Kalifornien und Texas beides Staaten der USA sind. «Es muss nicht so modelliert werden, um den Unterschied zwischen Bundesstaat und Land zu erkennen, ein riesiger Unterschied zu älteren Verfahren des maschinellen Lernens», weiss Hopkins.

8. In-Memory-Analyse

Die Verwendung von In-Memory-Datenbanken, um Analysen schneller durchführen zu können, wird laut Gartner-Analyst Beyer populärer und bringt viel, wenn richtig angewendet. Viele Firmen würden schon HTAP (Hybrid Transaction/Analytical Processing) einsetzen. Dadurch würden Transaktionen und Analysen in derselben In-Memory-Datenbank abgelegt. Allerdings würden einige HTAP auch zu oft bemühen, wenn es eigentlich gar nicht nötig sei, so Beyer. «In Systemen, bei denen der User dieselben Daten in derselben Weise mehrmals täglich abfragen muss, wobei sich die Informationen nicht sonderlich ändern, ist In-Memory herausgeworfenes Geld», urteilt er. Zudem müssten alle Transaktionen in einer einzigen Datenbank stecken, um von der Analyse-Power des In-Memory zu profitieren. «Die meisten Analyse-Vorhaben heute beruhen aber darauf, dass Transaktionen von diversen Systemne zusammengezogen werden müssen», wendet Beyer ein. Um HTAP anzuwenden müssten also erst einmal die verschiedenen Daten integriert werden.

Autor(in) Jens Stark