Par Rob Sobers
De nombreuses entreprises entrent dans le monde des Big Data ou accolent le label Big Data à leurs produits dans le seul but de surfer sur la vague, que ce soit justifié ou non. Cet article a pour but d’éclaircir le concept des Big Data et, surtout, faire la part des choses entre la substance et le battage publicitaire.
1. Les Big Data sont des données distribuées
Le terme Big Data connait de nombreuses définitions. L’essentiel est de retenir que, de nos jours, les Big Data sont des données distribuées. Cela signifie que les données sont si grosses qu’elles ne peuvent pas être stockées ou traitées sur un seul nœud.
Il est loin le temps où une entreprise achetait un seul gros serveur chez IBM ou Sun pour répondre à l’ensemble de ses besoins. Il a été démontré par Google, Amazon, Facebook ou d’autres entreprises que la façon de s’adapter rapidement et à moindre coût est d’utiliser du matériel basique afin de repartir le stockage et le traitement des flux de données massifs sur plusieurs nœuds, en ajoutant et supprimant des nœuds en fonction des besoins.
2. Vous allez entendre parler de « Hadoop » et « MapReduce »
Qu’est-ce que Hadoop? Il s’agit d’une plate-forme open source pour la consolidation, la combinaison et la compréhension de données à grande échelle afin de prendre de meilleures décisions. Hadoop est la technologie utilisée par de nombreuses infrastructures d’analyse des Big Data (mais pas toutes).
Il y a 2 éléments essentiels dans Hadoop:
- HDFS (Hadoop Distributed File System) qui vous permet de stocker des données sur plusieurs nœuds.
- MapReduce qui vous permet de traiter les données en parallèle sur plusieurs nœuds.
Bien que Hadoop soit la solution la plus populaire pour analyser les Big Data, il en existe d’autres. Les Big Data ne peuvent pas se résumer à une technologie. La caractéristique importante est de pouvoir tirer des enseignements à partir d’une grande quantité de données, indépendamment de la technologie utilisée.
3. Vous pouvez comprendre MapReduce sans diplôme de Harvard
Voici une explication claire de MapReduce :
Nous souhaitons compter l’ensemble des livres d’une bibliothèque. Vous comptez ceux de l’étagère 1, je compte ceux de l’étagère 2. C’est la fonction Map. Nous rassemblons ensuite nos résultats. C’est l’opération Reduce.
Pour une meilleure compréhension, Wikipedia est un bon endroit pour commencer.
4. La création de données distribuées alimente la croissance des Big Data
La raison pour laquelle nous avons besoin d’architectures informatiques distribuées à grande échelle vient du fait que les données sont elles aussi distribuées et à grande échelle. Nous transportons de nombreux appareils qui diffusent en continue diverse sortes de données sur le cloud et au delà – nos photos, nos tweets, nos statuts, nos connexions et même notre rythme cardiaque.
Pour chaque donnée générée par l’utilisateur, l’ordinateur créée d’autres données. Et puis il y a les métadonnées. Ces données sont nombreuses et peuvent s’avérer très utiles.
5. Le Machine Learning est…impressionnant!
L’un des principaux points de comparaison entre les différents outils d’analyse des Big Data est l’algorithme d’apprentissage automatique utilisé pour répondre aux questions intéressantes et tirer parti des 0 et des 1 que nous mâchons et recrachons.
Quelques exemples plutôt sympas :
- Nest – Le thermostat intelligent qui détermine votre température idéale en enregistrant intelligemment vos réglages.
- L’anti-spam Bayésien de Gmail – Il combine des observations en petit nombre pour en déduire que certains emails sont des spams. Plus d’emails tentant de prince nigérian !
- Les recommandations Amazon – Bien sûr, je vais prendre un livre sur le JavaScript, une paire d’Asics, et la saison 1 de Game of Thrones. Comment peuvent-ils me connaitre si bien!
- Les recommandations Varonis sur les contrôles d’accès – réduisez les accès en fonction d’analyses très précises sur l’utilisation des données.
Si vous souhaitez en apprendre davantage au sujet des Big Data, n’hésitez pas à parcourir notre blog.
The post 5 Choses A Savoir Sur Les Big Data appeared first on Varonis Français.
Que dois-je faire maintenant ?
Vous trouverez ci-dessous trois solutions pour poursuivre vos efforts visant à réduire les risques liés aux données dans votre entreprise:
Planifiez une démonstration avec nous pour voir Varonis en action. Nous personnaliserons la session en fonction des besoins de votre organisation en matière de sécurité des données et répondrons à vos questions.
Consultez un exemple de notre évaluation des risques liés aux données et découvrez les risques qui pourraient subsister dans votre environnement. Cette évaluation est gratuite et vous montre clairement comment procéder à une remédiation automatisée.
Suivez-nous sur LinkedIn, YouTube et X (Twitter) for pour obtenir des informations sur tous les aspects de la sécurité des données, y compris la DSPM, la détection des menaces, la sécurité de l’IA et plus encore.