Experte rät 26.08.2015, 08:30 Uhr

Löschen Sie Ihre Daten!

Eine der Herausforderungen von Big Data ist, die vorhandenen Unternehmensdaten sinnvoll für das Geschäft zu nutzen. Ein Anfang ist das Löschen, sagen Experten.
Jedes Unternehmen besitzt heute Daten seiner Kunden und Partner, die längst verjährt sind und auch von Rechts wegen gelöscht werden könnten. Trotzdem werden die Dokumente und Inhalte oftmals aufbewahrt ? tiefe Speicherpreise und die verlockenden Versprechen von Big-Data-Projekten erleichtern den Entscheid. Daran ändert nichts, dass täglich massenweise neue Daten hinzukommen. Der Marktforschungskonzern IDC sagt voraus, dass allein in diesem Jahr 8591 Exabyte generiert werden. Zum Vergleich: 2010 waren es noch 1227 Exabyte, 2020 sollen es schon 40'026 Exabyte sein (1 Exabyte sind 1 Million Terabyte).

Redundante und mobile Daten

Sowohl die «Altlasten» als auch die «neuen» Daten haben diverse Merkmale, anhand derer sie durchaus kritisch betrachtet werden sollten, sagt Ton Engbersen von IBM Research Zurich der Computerworld. Als ein Beispiel nennt er das Internet of Things. «60 Prozent der Sensordaten verlieren ihren Wert innerhalb von Millisekunden», so Engbersen. In einem vernetzten Haus sei es nicht sinnvoll, wenn der Temperaturfühler im Wohnzimmer jede Sekunde immer den gleichen Messwert speichert. Solche Daten können getrost sofort gelöscht werden. Erst wenn sich die Temperatur signifikant verändert, lohnt es sich, die Messwerte abzuspeichern, um allenfalls die Ursache zu ermitteln und gegenzusteuern. Die Redundanz ist ein Merkmal, anhand dem Daten klassifiziert werden können, sagt der Experte. Dabei sei das Löschpotenzial noch gross, glaubt er: «90 Prozent der in den letzten zehn Jahren produzierten Daten würden und werden auch wohl kaum je analysiert.»
Ein weiteres kritisches Merkmal der Daten ist die Mobilität. IBM Research sagt voraus, dass 2017 alle Smartphones zusammen mehr Speicherkapazität haben werden als sämtliche Server. Wenn Unternehmen diese dezentral gespeicherten Informationen für das Geschäft nutzen wollen, müssen sie Programme (Apps) entwickeln, die nahe bei den Daten arbeiten. «Die Daten bleiben in Zukunft vermehrt an ihrem Ursprungsort, während die Software zu diesen Speichern wandert», beschreibt Engbersen. Wenn die Programme dann nur noch das Resultat einer Kalkulation der Rohdaten übermitteln, können Unternehmensserver dem Kunden viel schneller beispielsweise massgeschneiderte Offerten aufs Handy schicken (anstatt die Daten erst komplett hochzuladen und auszuwerten).

Anziehungskraft von Daten

Mit der Mobilität einher geht das Merkmal der Gravitation von Daten: Durch den automatischen Upload von Fotos unter Android oder iOS oder Windows hat der Benutzer alle Bilder bei einem Anbieter. Das erschwert den Plattformwechsel, denn der Download ist schwierig und dauert oftmals lange. Wie Engbersen sagt, ist die Anziehungskraft von Daten aber nicht nur auf Mobilgeräte beschränkt: Auch Cloud-Anbieter würden daraus Kapital schlagen. So legen schon heute Amazon, Google, IBM oder Microsoft fest, wie die Konditionen für die Datennutzung sowie Up- und Download sind. Oftmals unterschätzt würden die Transferraten. Hat ein Unternehmen 1 Petabyte in der Cloud abgelegt, müssen die Verantwortlichen mit folgenden Geschwindigkeiten rechnen: bei einer Leitung mit 100 Gigabit/s dauert der Download rund 16 Stunden, bei einer 1-Gigabit/s-Leitung schon über 3 Monate und bei heute gängigen 100 Megabit/s sogar mehr als 2,5 Jahre. Handelt es sich bei den Daten um geschäftskritische Informationen, die quasi stündlich verfügbar sein müssen, hat das Unternehmen keine andere Wahl als dem Cloud-Provider treu zu bleiben (und jeden Preis zu zahlen, den der Anbieter verlangt). Der IBM-Experte rät dazu, genau zu prüfen, welche Daten wo gespeichert sein müssen oder können. Unbedingt lohne es sich, vor einem Upload auch Daten zu prüfen und allenfalls zu löschen. Nächste Seite: Blick in die Vergangenheit In Extremanwendungen wie dem Dome-Projekt sind mehrere Merkmale von Daten vereint: Redundanz, Mobilität und Gravitation. Eine Forschergemeinschaft ? darunter auch das niederländische Radioastronomie-Institut Astron ? will mit zusammengeschalteten Teleskopen in die Tiefen des Weltalls schauen, und so auch einen Blick in die Vergangenheit werfen. Geplant ist der Aufbau von Tausenden Einzelteleskopen mit einer wirksamen Fläche von einem Quadratkilometer. Zusammengeschaltet ergeben die Anlagen das «Square Kilometer Array» (SKA).
Auch hinsichtlich der Datenverarbeitung erreicht das SKA eine neue Grössenordnung. Im «Dome»-Projekt forschen Wissenschaftler von IBM Research Zurich mit Astron gemeinsam an Lösungen. IBM Research Zurich geht davon aus, dass die Anlage 14 Exabyte pro Tag produzieren wird. «Nehmen Sie den täglichen, weltweiten Datenverkehr im Internet und multiplizieren Sie ihn mit zwei, dann erreichen Sie die Grössenordnung an Daten, die das SKA-Teleskop an einem Tag generieren wird», sagt IBM-Experte Engbersen. Die Analyse eines solchen Datenvolumens erfordert Hochleistungssysteme, die autonom arbeiten und wenig Strom verbrauchen. Die Datenmengen könnten vor Ort nicht gespeichert werden und müssten auf geschätzt 1 Petabyte pro Tag reduziert werden. Die für die Datenverarbeitung notwendige Energie sollte von zum Beispiel Solarzellen generiert werden, denn in dem Quadratkilometer-Areal ist nicht überall eine Stromversorgung verfügbar.

Microserver für Supercomputing

IBM Research Zurich entwickelt seit 2010 sparsame Computersysteme für das «Dome»-Projekt. Forscher Ronald Luijten hält mittlerweile einen Prototyp in den Händen: Der «Microserver» basiert auf Standard-Komponenten wie dem T4240-Prozessor von Freescale, Netzwerk- und Speicher-Bauteilen sowie einer Platine kleiner als ein Zehn-Franken-Schein. Wie Luijten sagt, besitzt der Server zwar keine Standard-Architektur, sei aber fähig, unter Linux diverse Anwendungen performant laufen zu lassen. In einem Dauertest habe er etwa DB2 auf dem Microserver installiert und während Monaten laufen lassen.
Der Microserver kostet allerdings nur ein Bruchteil eines herkömmlichen DB2-Systems. Auch mit Standard-Hardware müsse die Entwicklung den Vergleich nicht scheuen: Der Microserver ist 40 Prozent schneller als Energie-optimierte Xeon-Systeme, verbraucht allerdings nur 70 Prozent der Energie. Das IBM-Team plant, die Technologie zu lizensieren. Luijten hofft, dass der Microserver schliesslich auch für das SKA-System ausgewählt wird, wenn in ein paar Jahren der Aufbau beginnt. 



Das könnte Sie auch interessieren