5 Dinge, die Sie über Big Data wissen sollten

Geschrieben von Michael Buckbee | Jul 5, 2012 5:10:00 AM

Big Data ist ein heiß diskutiertes Thema. Nachdem Splunk nach seinem Börsengang kürzlich eine Steigerung wie zu Zeiten der Dotcom-Blase hinlegte, sieht es ganz so aus, als würden derzeit (zu) viele auf diesen Trend aufspringen. Denn unzählige Unternehmen stoßen in den Big-Data-Bereich vor oder kleben einfach einen Big-Data-Aufkleber auf ihre Produkte – ob dies nun der Wahrheit entspricht oder nicht –, nur um auf der Big-Data-Welle mitzuschwimmen.

In diesem Post stelle ich ein paar wichtige Aspekte von Big Data vor (nicht nur Trivialitäten), die Ihnen dabei helfen können, zwischen Innovation und Hype zu unterscheiden.

1. Big Data sind verteilte Daten.

Big Data ist ein schwammiger Begriff mit vielen unterschiedlichen Definitionen. Das Wichtigste ist jedoch, dass es sich bei Big Data heute um verteilte Daten handelt. Das heißt, die Datenmengen sind so massiv, dass sie nicht von einem einzelnen Knoten gespeichert oder verarbeitet werden können.

Die Zeiten, in denen ein einziger großer Server von IBM oder Sun für alle Unternehmensinformationen ausreichte, sind längst vorbei. Google, Amazon, Facebook & Co. haben uns eine schnelle und kostengünstige Skalierungsmethode gezeigt: Die Speicherung und Verarbeitung unserer massiven Datenströme wird mithilfe von Standardhardware auf mehrere Knoten verteilt, wobei je nach Bedarf Knoten entfernt und hinzugefügt werden.

2. „Hadoop“ und „MapReduce“ sind in aller Munde.

Was ist Hadoop eigentlich? Eine Open-Source-Plattform zum Konsolidieren, Kombinieren und Analysieren großer Datenmengen, die es ermöglicht, bessere Geschäftsentscheidungen zu treffen. Viele (aber nicht alle) Big-Data-Analyseinfrastrukturen basieren auf Hadoop.

Hadoop hat zwei Hauptbestandteile:

HDFS (Hadoop Distributed File System) zur Speicherung von Daten über mehrere Knoten hinweg.
MapReduce zur parallelen Verarbeitung von Daten über mehrere Knoten hinweg.

Hadoop ist zwar eine der bekanntesten Lösungen für Big-Data-Prozesse, es gibt jedoch noch viele andere. Big Data lassen sich nicht auf eine bestimmte Technologie festlegen. Das Wichtigste dabei ist, dass Sie in der Lage sind, Erkenntnisse aus großen Datenmengen zu gewinnen – unabhängig von den eingesetzten Technologien.

**3. Sie können MapReduce auch ohne Informatikdiplom verstehen.**

Die anschaulichste und einfachste Erklärung von MapReduce, die ich gefunden habe (zusammengefasst):

Wir möchten alle Bücher in der Bibliothek zählen. Sie zählen Regal Nr. 1, ich Regal Nr. 2. Dies entspricht dem Vorgang „map“ (erfassen). Jetzt addieren wir unsere beiden Zählungen. Dies entspricht dem Vorgang „reduce“ (reduzieren).

Wenn Sie sich genauer informieren möchten, können Sie sich auf Wikipedia einen Überblick verschaffen.

4. Durch die verteilte Datengenerierung wachsen Big Data noch schneller.

Wir verfügen über derart große Datenmengen, dass wir für deren Verarbeitung riesige verteilte Architekturen benötigen. Der Grund dafür ist, dass die Daten auch an verteilten Standorten und in großen Mengen erstellt werden. Die meisten von uns tragen Geräte mit sich herum, die ständig alle möglichen Daten in die Cloud und darüber hinaus übermitteln: Standorte, Fotos, Tweets, Statusaktualisierungen, Verbindungen und sogar unseren Herzschlag.

Den nutzergenerierten Daten werden in der Regel computergenerierte Daten zugeordnet. Und dann gibt es noch Metadaten. Wir haben es also mit einer Fülle äußerst wertvoller Daten zu tun.

5. Maschinelles Lernen ist… toll!

Eines der Hauptmerkmale der Big-Data-Analyse sind die Maschinenlern-Algorithmen, die dazu eingesetzt werden, interessante Fragen zu beantworten und Wert aus den Nullen und Einsen zu schöpfen, die wir ständig generieren und verarbeiten.

Ein paar interessante Beispiele:

Nest – ein Thermostat im ansprechenden Design , der sich merkt, wie kalt oder warm Sie es gerne in Ihrem Haus haben, so dass Sie ihn nie wieder neu anpassen müssen (eigentlich handelt es sich dabei nicht um Big Data, aber es ist trotzdem ein amüsantes Beispiel)
Bayesscher Spamfilter von Gmail – schafft Ihnen E-Mails mit verlockenden Angeboten von lästigen nigerianischen Prinzen vom Hals!
Produktempfehlungen von Amazon – Klar, ich nehme ein Buch über JavaScript, ein Paar Laufschuhe von Asics und die zehnte Staffel von Friends. Woher kennen sie mich nur so gut?!
Empfehlungen für die Zugriffskontrolle von Varonis – helfen Ihnen, die Berechtigungen Ihrer Nutzer mithilfe hochpräziser Analysen einzuschränken.

Wenn Sie noch mehr über Big Data erfahren möchten, dann sehen Sie sich unser englischsprachiges Webinar „Mastering Big Data“ an, das auf unserer Website unter „On Demand Webinars“ abrufbar ist.

Foto: http://fav.me/d4vqn4w

The post 5 Dinge, die Sie über Big Data wissen sollten appeared first on Varonis Deutsch.

Vollständigen Beitrag anzeigen