von Rob Sobers
Big Data ist ein heiß diskutiertes Thema. Nachdem Splunk nach seinem Börsengang kürzlich eine Steigerung wie zu Zeiten der Dotcom-Blase hinlegte, sieht es ganz so aus, als würden derzeit (zu) viele auf diesen Trend aufspringen. Denn unzählige Unternehmen stoßen in den Big-Data-Bereich vor oder kleben einfach einen Big-Data-Aufkleber auf ihre Produkte – ob dies nun der Wahrheit entspricht oder nicht –, nur um auf der Big-Data-Welle mitzuschwimmen.
In diesem Post stelle ich ein paar wichtige Aspekte von Big Data vor (nicht nur Trivialitäten), die Ihnen dabei helfen können, zwischen Innovation und Hype zu unterscheiden.
Big Data ist ein schwammiger Begriff mit vielen unterschiedlichen Definitionen. Das Wichtigste ist jedoch, dass es sich bei Big Data heute um verteilte Daten handelt. Das heißt, die Datenmengen sind so massiv, dass sie nicht von einem einzelnen Knoten gespeichert oder verarbeitet werden können.
Die Zeiten, in denen ein einziger großer Server von IBM oder Sun für alle Unternehmensinformationen ausreichte, sind längst vorbei. Google, Amazon, Facebook & Co. haben uns eine schnelle und kostengünstige Skalierungsmethode gezeigt: Die Speicherung und Verarbeitung unserer massiven Datenströme wird mithilfe von Standardhardware auf mehrere Knoten verteilt, wobei je nach Bedarf Knoten entfernt und hinzugefügt werden.
Was ist Hadoop eigentlich? Eine Open-Source-Plattform zum Konsolidieren, Kombinieren und Analysieren großer Datenmengen, die es ermöglicht, bessere Geschäftsentscheidungen zu treffen. Viele (aber nicht alle) Big-Data-Analyseinfrastrukturen basieren auf Hadoop.
Hadoop hat zwei Hauptbestandteile:
Hadoop ist zwar eine der bekanntesten Lösungen für Big-Data-Prozesse, es gibt jedoch noch viele andere. Big Data lassen sich nicht auf eine bestimmte Technologie festlegen. Das Wichtigste dabei ist, dass Sie in der Lage sind, Erkenntnisse aus großen Datenmengen zu gewinnen – unabhängig von den eingesetzten Technologien.
Die anschaulichste und einfachste Erklärung von MapReduce, die ich gefunden habe (zusammengefasst):
Wir möchten alle Bücher in der Bibliothek zählen. Sie zählen Regal Nr. 1, ich Regal Nr. 2. Dies entspricht dem Vorgang „map“ (erfassen). Jetzt addieren wir unsere beiden Zählungen. Dies entspricht dem Vorgang „reduce“ (reduzieren).
Wenn Sie sich genauer informieren möchten, können Sie sich auf Wikipedia einen Überblick verschaffen.
Wir verfügen über derart große Datenmengen, dass wir für deren Verarbeitung riesige verteilte Architekturen benötigen. Der Grund dafür ist, dass die Daten auch an verteilten Standorten und in großen Mengen erstellt werden. Die meisten von uns tragen Geräte mit sich herum, die ständig alle möglichen Daten in die Cloud und darüber hinaus übermitteln: Standorte, Fotos, Tweets, Statusaktualisierungen, Verbindungen und sogar unseren Herzschlag.
Den nutzergenerierten Daten werden in der Regel computergenerierte Daten zugeordnet. Und dann gibt es noch Metadaten. Wir haben es also mit einer Fülle äußerst wertvoller Daten zu tun.
Eines der Hauptmerkmale der Big-Data-Analyse sind die Maschinenlern-Algorithmen, die dazu eingesetzt werden, interessante Fragen zu beantworten und Wert aus den Nullen und Einsen zu schöpfen, die wir ständig generieren und verarbeiten.
Ein paar interessante Beispiele:
Wenn Sie noch mehr über Big Data erfahren möchten, dann sehen Sie sich unser englischsprachiges Webinar „Mastering Big Data“ an, das auf unserer Website unter „On Demand Webinars“ abrufbar ist.
Foto: http://fav.me/d4vqn4w
The post 5 Dinge, die Sie über Big Data wissen sollten appeared first on Varonis Deutsch.