20.04.2015, 15:35 Uhr

Hadoop erhält Konkurrenz

Mit Apache Spark erhält die Big-Data-Technik Hadoop ernstzunehmende Konkurrenz. Spark soll mehr Analyse-Performance an den Tag legen und sich auch zur Analyse von Streaming-Daten eignen.
Ausführliche, leistungsstarke und zeitnahe Analysen: Das sind die Spazialitäten von Apache Spark. Die Technik tritt damit im Big-Data-Umfeld in Konkurrenz zu Hadoop. Seine besondere Leistungsbereitschaft hat Spark bereits im sogenannten Daytona-GreySort-Test unter Beweis stellen können. Dabei müssen 100 Terabyte an Daten auf die Reihe gebracht werden. Den Sortier-Rekord hielt bis anhin eine Hadoop-Installation von Yahoo mit 72 Minuten. Spark stellte diesen mit 23 Minuten ziemlich deutlich in den Schatten.

Komplexere Analysen möglich

Spark kann zudem komplexer rechnen als Hadoop. Hadoops Analyse-Engine MapReduce ist hauptsächlich im Stande eine Art Problem zu lösen, in dem Daten über mehrere Server hinweg gefiltert und sortiert (das sogenannte mapping) und die Resultate danach zusammengefasst werden (reduce). Spark wurde aber dahingehend entwickelt, komplexere Aufgaben zu lösen. Dabei wird stark auf maschinelles Lernen gesetzt. Schliesslich können mit Spark sehr zeitnahe Auswertungen durchgeführt werden. Webseiten könnten etwa aufgrund der letzten drei Clicks des Anwenders Werbung schalten. Einer der ersten Anwender von Spark ist denn auch der Musik-Streaming-Dienst Spotify. Hier werden Musiktitellisten des Anwenders erstellt, indem mit bestimmten KI-Algorithmen der Geschmack des Users ermittelt wird.
Bleibt also Hadoop künftig auf der Strecke? Möglich ist es, zumal bereits Hadoop-Anwender auf Spark schielen. So hat der Hadoop-Distributor Cloudera auch Spark in den Release gepackt und die Technik bereits eigenen Angaben zufolge bei 60 Unternehmenskunden im Einsatz. Auch andere Hadoop-Distributoren wie Hortonworks und MapR offerieren mittlerweile Spark als Teil ihrer Distributionen. Das Spark-Projekt wurde 2008 am AMPLab (Algorithms, Machine, People) der Universität Kaliforniens in Berkeley gestartet. Heute ist das Vorhaben unter den Fittichen der Apache Software Foundation und erhält derzeit mehr Kontributionen als jedes andere Apache-Projekt. Am meisten Input liefert derzeit Intel, Yahoo, Groupon, Alibab und Mint.


Das könnte Sie auch interessieren