von Andy Green
Eine meiner Kolleginnen aus dem Vertrieb fragte mich neulich, ob ich ihr nicht ein paar überraschende Fakten zum Nutzerverhalten oder Statistiken zu Netzwerkdateisystemen geben könne. Sie wollte von mir eine gute Anekdote hören, die unsere Kunden dazu bringen würde, konventionelle IT-Weisheiten zu überdenken – und ich denke, ich habe da etwas, bei denen IT-Administratoren große Augen machen werden.
Der Ehrlichkeit halber soll gesagt sein, dass meine Entdeckung schon seit geraumer Zeit die Runde macht. Sie ist sogar ziemlich tief in unserer Kultur verwurzelt! Nein, nein, ich spiele nicht auf das jedem Informatiker wohl vertraute „Murphys Gesetz“ an. Vielmehr beziehe ich mich auf die sogenannte 80-zu-20-Regel, die mir in meiner Anfangszeit als Informatiker ganz nebenbei erklärt wurde. Diese Regel lautet in etwa so: „80 % der Daten lassen sich durch 20 % der Fakten erklären.“
Wie bei vielen Regeln, die sich recht unkompliziert anhören, verbergen sich auch hinter dieser Regel ein paar grundlegende Ideen. Im Prinzip beschreibt sie wichtige Statistiken in komplexen Systemen wie etwa Wirtschaft, Marketing, Soziologie und eine Reihe von Naturwissenschaften. In den vergangenen Jahren wurde zudem herausgefunden, dass die Regel auf eine weitere, sehr wohl bekannte komplexe Kreation zutrifft – das Internet.
Man könnte die 80-zu-20-Regel auch komplizierter erklären und sagen, dass die Verteilung der Daten – ein Graph aus Website-Aufrufen, Weblink-Referenzen und (darauf werden wir aber später noch zurückkommen) Dateigröße – vom sogenannten Potenzgesetz bestimmt wird. Long Tail und Fat Tail sind weitere Begriffe, die beim ThemaWahrscheinlichkeitsverteilungen von Ereignissen am äußersten Ende der Datenkurve verwendet werden; sie stehen im Gegensatz zu den schmaleren Grenzwerten der allseits beliebten Gauß‘schen Glockenkurve.
Es gibt handfeste Beweise, die diese Regel untermauern. Über Fat Tails bei Webstatistiken wurden bereits viele Artikel geschrieben. Wer sich für dieses Thema interessiert, kann seine Neugier – zumindest teilweise – mit den von Quantcast erhobenen Daten zum Web-Traffic stillen. Die Daten zeigen, dass Top-Webseiten wie Facebook, Google, Yahoo, Twitter, MSN.com etc. überdurchschnittlich viele Website-Aufrufe verzeichnen.
Wenn man die Zahlen von Quantcast überschlägt, kommt man zu dem Ergebnis, dass nur 40 der von Quantcast als Top-Sites eingestuften Websites gut 80 % des monatlichen Besucher-Traffics auf sich vereinen. Weltweit gibt es insgesamt fast 400 Millionen Websites, das heißt, dass es sich bei diesen 40 um weit weniger als 1 % handelt. Das 80-zu-20-Prinzip hat sich hier ziemlich verschoben – 80 zu 0,00001 wäre wohl näher dran!
Aber was hat das nun eigentlich mit Dateisystemen zu tun? Vernetzte Dateiserver sind komplexe Systeme mit einer großen Gruppe an Nutzern, die auf immer wieder neue Ressourcen wie Dateien, Verzeichnisse zugreifen, aber auch Zugriffsrechte. Damit haben diese Fileserver das Potenzial in ähnlicher Weise zu agieren wie das Web.
Bei der grafischen Darstellung der Verteilung von Dateigrößen haben Wissenschaftler vor einiger Zeit eine ähnlich verschobene Kurve festgestellt. Zwar handelt es sich hierbei nicht wirklich um ein Potenzgesetz, doch tritt der unverkennbare Fat Tail bei extrem großen Dateien zum Vorschein. Wer hierzu mehr erfahren möchte, sollte sich diese Studie von Microsoft Research ansehen, in der die Byte-Anzahl für Microsofts Dateisystem grafisch dargestellt wird.
Da ich wissen wollte, wie die Sache bei meinem alten Computer zu Hause, einem 10 Jahre alten Dell-Computer mit Windows XP, aussieht, entschloss ich mich, mir das Histogramm des Dateisystems mit einem kostenlosen Programm anzusehen. Und das kam dabei heraus: Von knapp 70.000 Dateien, die rund 29 GB Speicherplatz belegen, machen gerade einmal 83 Dateien, d. h. etwas mehr als 0,1 %, 26 % der belegten Speicherkapazität aus!
Obwohl ich mit den Studien hierzu vertraut bin, hat es mich dennoch vom Sockel gehauen, die Fat-Tail-Verteilung so in voller Pracht auf meinem eigenen PC zu sehen. Übrigens: .pst-Dateien von Microsoft Outlook® können enorme Größen annehmen!
Wie lassen sich diese verräterischen Fat Tails in den Filesytemen von Unternehmen erklären?
Eine der vorgeschlagenen Ideen ist, dass wir als Nutzer der Dateien bestehende Dateien kopieren und sie dann bearbeiten, also etwas hinzufügen oder löschen, damit sie dann von der nächsten, übernächsten, überübernächsten Person usw. bearbeitet werden. Im Prinzip heißt das nichts anderes, als dass eine Datei von den Nutzern peu à peu um einen unbestimmten Faktor vergrößert wird, und das führt erwiesenermaßen zu den Fat-Tailed-Verteilungskurven bei der Dateigröße.
Das laufende Kopieren kann dabei auch mit einem gewissen Herdentrieb einhergehen: Wir tendieren dazu, solche Dateien zu bearbeiten, die ohnehin schon häufiger kopiert oder aufgerufen wurden. Die Vorliebe für häufig genutzte Dateien – oder Websites und soziale Netzwerke – führen bekanntermaßen auch zu Fat-Tailed-Verteilungen.
Wenn ich mir meine eigene Erfahrung als Nutzer in Erinnerung rufe, so erkläre ich mich hiermit nicht nur der Veränderung und Vergrößerung bestehender Dateien schuldig, sondern auch der Übernahme von Dateiberechtigungen. Beim Lesen, Schreiben oder Ausführen von Metadaten oder wenn ich Ihnen Zugriffsrechte zugerodnet habe, war ich definitiv Teil der Herde. Ich tat das, was alle tun – bis ich zu Varonis kam.
Hinter all dem steckt eine klare IT-Botschaft: Ihre Nutzer-Community propagiert die Gruppe „Jeder“ oder andere gefährliche Zugriffsberechtigungen und trägt somit unwissendlich dazu bei, die Dateien in den roten Bereich der Dateigrößenkurve zu befördern.
Um die Netzwerkdateisysteme Ihres Unternehmens richtig zu verstehen und zu verwalten (und auch, um sich dem Herdenzwang zu entziehen), würde ich die Varonis-Software DatAdvantage verwenden. Ein Dateisystem und seine Nutzer bilden eine Art soziales Netzwerk, in dem es relativ einfach ist, schlechte Gewohnheiten zu übernehmen.
Die Varonis-Software ermittelt diese Verhaltensmuster automatisch, sodass Sie direkt steuern können, welche Form das Profil Ihres Filesystems annehmen soll.
The post Erstaunliche Fakten zum Filesystem appeared first on Varonis Deutsch.