Big Data im Versandhandel: Turbodiät reduziert die Datenmenge in Echtzeit
„Big Data“ ist ein Buzzword, das überall Begehrlichkeiten weckt, auch dabei zu sein. Seine Bedeutung, obwohl inhaltlich häufig unklar, verschafft den IT-Abteilungen eine gewisse Dominanz über die Marketingabteilungen. Die Grundidee von Big Data ist einfach: Es werden Daten analysiert, die man bisher aufgrund der riesigen Menge oder mangelnden Struktur nicht anzufassen wagte. Mag der Erkenntnisgewinn pro Terabyte Rohdaten gering sein, die Masse machtʼs.
Täglich 300.000 Warenkörbe analysieren
Aber wer hat denn überhaupt genügend Input, um in der Liga „Big“ mitzuspielen? Ein Praxisbeispiel ist die Warenkorbanalyse eines großen Onlineshops mit 300.000 Warenkörben pro Tag. Dabei werden alle Aktivitäten (Artikel hinzufügen, Menge ändern, löschen, Auswahl kaufen, Abbruch) in Echtzeit ausgewertet. Dazu braucht es kein Hadoop-Cluster mit 100 Servern. Ein einziger Standard-Server (zum Beispiel Xeon E3-1270, 16 GB RAM) mit konventioneller Software reicht nachweislich nicht nur aus, sondern überschreitet die Marke von fünf Prozent Last nur ganz selten. Doch wie geht das?
Bei Big Data wird die riesige Datenmenge schon in den ersten Verarbeitungsstufen durch Zusammenfassung und Verdichtung drastisch reduziert. Danach ist nichts mehr außergewöhnlich „big“ und altbewährte Analyse-Tools kommen mit der Datenmenge gut zurecht. Das muss auch so sein, denn niemand, der eine auf das Tausendfache angewachsene Rohdatenmenge in die Auswertungsmaschinerie zu kippen plant, will auch einen 1.000-Seiten-Report lesen. Am Ende wollen die Entscheider wie üblich alles Wichtige auf einer Seite zusammengefasst überblicken können. Ist Big Data demnach überflüssig? Nein. Auch Unternehmen, die keine gigantischen Datenmengen nach Spurenelementen durchsuchen müssen, können wertvolle Anregungen aus den Prinzipien von Big Data gewinnen – ohne viel Hardware und ohne reihenweise neue Trendtechnologien einzuführen.
Hier sind die fünf wichtigsten Tipps:
1. Das Streaming-Paradigma
Öffnet man ein Bild in einem Grafikprogramm, dann wird die Bilddatei komplett eingelesen, bevor das Programm das Bild darstellt. Praktisch alle Standardanwendungen, auch Textverarbeitung und Tabellenkalkulation, arbeiten so. Völlig anders die Webbrowser. Getrieben von mitunter langsamen Verbindungen, verarbeiten sie jedes ankommende Datenhäppchen sofort und zeichnen ein anfangs noch schemenhaftes, dann aber immer vollständigeres Bild. Big Data geht ähnlich vor und veröffentlicht lieber frühzeitig Hochrechnungen als spät Endergebnisse. Damit werden steuernde Eingriffe erleichtert. Früher hat die IT gern auf den Tagesschnitt gewartet und in einem nächtlichen Lauf die komplette Tagesproduktion erledigt. Heute kann man eingehende Daten wie am Fließband fortlaufend verarbeiten.
2. Big Data, small history
Ausgerechnet Big Data neigt paradoxerweise zur Datensparsamkeit. Während klassische ERP-Systeme nicht selten die Daten der letzten zehn Jahre vorhalten, beschränkt sich Big Data auf möglichst kurze Rückschaufristen, da Aktualität vor Vergangenheitsbewältigung geht.
3. Organsystem und Blutkreislauf
In der Arbeit mit einem monolithischen Analyseprogramm alter Prägung war es die Aufgabe der Entwickler, den (oft variantenreichen) Fluss der Daten sicherzustellen. Kleine Programme, die wie Organe im Körper auf Einzelaufgaben spezialisiert sind, weisen meist nur einen geradlinigen Weg von Eingang zu Ausgang auf. So wird der Transport der Datenpakete zwischen den einzelnen Programmen zur eigenständigen Aufgabe.
4. Kleine Schritte – große Spuren
Diese kleinen Programme arbeiten nicht mehr komplexe Analysen von Anfang bis Ende komplett ab. Nach jedem Teilschritt werden die Zwischenergebnisse in Dateien gespeichert und aufbewahrt. Das kostet lediglich Speicherplatz und der ist billig. Dadurch muss man bei neuen Anforderungen nicht ganz von vorn bei den Rohdaten beginnen, sondern kann auf Zwischenergebnissen aus einer bereits vorhandenen Datei aufsetzen. Je engmaschiger die Zwischenstände gesichert werden, desto größer ist die Auswahl, von wo aus man weitermachen kann.
5. Keep the pace!
Jeder Prozessschritt strebt danach, die Daten genauso schnell weiterzugeben, wie sie ankommen. Sollte das technisch oder fachlich nicht möglich sein (wenn beispielsweise ein Abgleich mit nur einmal täglich verfügbaren Daten, etwa Devisenkursen, nötig ist), dann ist das auch in Ordnung. Hauptsache, man hat ernsthaft geprüft, ob eine Verzögerung unvermeidlich ist.
Effizienz durch Big Data
Big Data bietet durch den überschaubaren Aufwand auf effiziente Art große Vorteile. Unternehmen können dadurch viel für die Optimierung ihrer Angebote und die Transparenz in ihren Geschäftsprozessen tun.
Täglich 300.000 Warenkörbe analysieren
Aber wer hat denn überhaupt genügend Input, um in der Liga „Big“ mitzuspielen? Ein Praxisbeispiel ist die Warenkorbanalyse eines großen Onlineshops mit 300.000 Warenkörben pro Tag. Dabei werden alle Aktivitäten (Artikel hinzufügen, Menge ändern, löschen, Auswahl kaufen, Abbruch) in Echtzeit ausgewertet. Dazu braucht es kein Hadoop-Cluster mit 100 Servern. Ein einziger Standard-Server (zum Beispiel Xeon E3-1270, 16 GB RAM) mit konventioneller Software reicht nachweislich nicht nur aus, sondern überschreitet die Marke von fünf Prozent Last nur ganz selten. Doch wie geht das?
Bei Big Data wird die riesige Datenmenge schon in den ersten Verarbeitungsstufen durch Zusammenfassung und Verdichtung drastisch reduziert. Danach ist nichts mehr außergewöhnlich „big“ und altbewährte Analyse-Tools kommen mit der Datenmenge gut zurecht. Das muss auch so sein, denn niemand, der eine auf das Tausendfache angewachsene Rohdatenmenge in die Auswertungsmaschinerie zu kippen plant, will auch einen 1.000-Seiten-Report lesen. Am Ende wollen die Entscheider wie üblich alles Wichtige auf einer Seite zusammengefasst überblicken können. Ist Big Data demnach überflüssig? Nein. Auch Unternehmen, die keine gigantischen Datenmengen nach Spurenelementen durchsuchen müssen, können wertvolle Anregungen aus den Prinzipien von Big Data gewinnen – ohne viel Hardware und ohne reihenweise neue Trendtechnologien einzuführen.
Hier sind die fünf wichtigsten Tipps:
1. Das Streaming-Paradigma
Öffnet man ein Bild in einem Grafikprogramm, dann wird die Bilddatei komplett eingelesen, bevor das Programm das Bild darstellt. Praktisch alle Standardanwendungen, auch Textverarbeitung und Tabellenkalkulation, arbeiten so. Völlig anders die Webbrowser. Getrieben von mitunter langsamen Verbindungen, verarbeiten sie jedes ankommende Datenhäppchen sofort und zeichnen ein anfangs noch schemenhaftes, dann aber immer vollständigeres Bild. Big Data geht ähnlich vor und veröffentlicht lieber frühzeitig Hochrechnungen als spät Endergebnisse. Damit werden steuernde Eingriffe erleichtert. Früher hat die IT gern auf den Tagesschnitt gewartet und in einem nächtlichen Lauf die komplette Tagesproduktion erledigt. Heute kann man eingehende Daten wie am Fließband fortlaufend verarbeiten.
2. Big Data, small history
Ausgerechnet Big Data neigt paradoxerweise zur Datensparsamkeit. Während klassische ERP-Systeme nicht selten die Daten der letzten zehn Jahre vorhalten, beschränkt sich Big Data auf möglichst kurze Rückschaufristen, da Aktualität vor Vergangenheitsbewältigung geht.
3. Organsystem und Blutkreislauf
In der Arbeit mit einem monolithischen Analyseprogramm alter Prägung war es die Aufgabe der Entwickler, den (oft variantenreichen) Fluss der Daten sicherzustellen. Kleine Programme, die wie Organe im Körper auf Einzelaufgaben spezialisiert sind, weisen meist nur einen geradlinigen Weg von Eingang zu Ausgang auf. So wird der Transport der Datenpakete zwischen den einzelnen Programmen zur eigenständigen Aufgabe.
4. Kleine Schritte – große Spuren
Diese kleinen Programme arbeiten nicht mehr komplexe Analysen von Anfang bis Ende komplett ab. Nach jedem Teilschritt werden die Zwischenergebnisse in Dateien gespeichert und aufbewahrt. Das kostet lediglich Speicherplatz und der ist billig. Dadurch muss man bei neuen Anforderungen nicht ganz von vorn bei den Rohdaten beginnen, sondern kann auf Zwischenergebnissen aus einer bereits vorhandenen Datei aufsetzen. Je engmaschiger die Zwischenstände gesichert werden, desto größer ist die Auswahl, von wo aus man weitermachen kann.
5. Keep the pace!
Jeder Prozessschritt strebt danach, die Daten genauso schnell weiterzugeben, wie sie ankommen. Sollte das technisch oder fachlich nicht möglich sein (wenn beispielsweise ein Abgleich mit nur einmal täglich verfügbaren Daten, etwa Devisenkursen, nötig ist), dann ist das auch in Ordnung. Hauptsache, man hat ernsthaft geprüft, ob eine Verzögerung unvermeidlich ist.
Effizienz durch Big Data
Big Data bietet durch den überschaubaren Aufwand auf effiziente Art große Vorteile. Unternehmen können dadurch viel für die Optimierung ihrer Angebote und die Transparenz in ihren Geschäftsprozessen tun.