Recherche en entreprise : les Big Data ne sont pas forcément là où vous le pensiez.

Comme beaucoup d’autres, j’imagine les Big Data comme d’énormes ensembles de données dignes d’un traitement distribué à l’échelle de plusieurs pétaoctets. Pour ceux qui ont besoin d’un bref rappel, un...
David Gibson
5 minute de lecture
Dernière mise à jour 29 octobre 2021

Comme beaucoup d’autres, j’imagine les Big Data comme d’énormes ensembles de données dignes d’un traitement distribué à l’échelle de plusieurs pétaoctets. Pour ceux qui ont besoin d’un bref rappel, un pétaoctet représente plus d’un million de gigaoctets, soit un entrepôt rempli de clés USB. En règle générale, les entreprises entrent dans la zone des Big Data en recueillant des données transactionnelles issues de dizaines de millions de clients. Ou si vous êtes une société de médias sociaux, en stockant les messages des statuts/discussions, les images et les vidéos d’un nombre énorme d’utilisateurs.

Mais il existe une autre façon de franchir le seuil des Big Data, et il se trouve juste sous notre nez. Les systèmes de fichiers internes aux grandes entreprises peuvent facilement passer au-dessus de la barre du pétaoctet. Nous avons récemment discuté avec un responsable informatique qui gère un système de fichiers de 1,5 pétaoctet constitué uniquement des données d’origine humaine produites par les 40 000 employés de l’entreprise. Le système de fichiers de votre entreprise n’est peut-être pas aussi volumineux, mais si celle-ci appartient à la catégorie des grandes entreprises (plus de 1 000 employés), vous disposez probablement d’un espace de stockage de plusieurs téraoctets ou davantage. C’est moins qu’un pétaoctet, mais c’est déjà très significatif.

La recherche en entreprise appartient-elle au domaine des Big Data ?
La problématique des Big Data est un peu floue, et aucun consensus n’existe sur un grand nombre de paramètres. Cependant, d’autres considérations permettent de décider si quelque chose relève ou non du domaine des Big Data : la complexité des calculs couplée à de hautes performances. Si vous devez effectuer des calculs difficiles ou si vous utilisez des algorithmes qui doivent être rapidement exécutés sur un grand nombre de données, vous êtes déjà dans la zone des Big Data.

Quel type de problème Big Data ai-je à l’esprit en ce qui concerne les systèmes de fichiers internes ? De manière similaire à la recherche sur le Web, la recherche SI (Système d’Information) de l’entreprise permet aux employés d’interroger les systèmes de fichiers internes, en générant des résultats de type Google tels que des listes ordonnées par degré de pertinence et prenant en compte les permissions d’accès relatives aux fichiers. Cette dernière exigence signifie que, contrairement à la recherche sur le Web, l’application doit déterminer si les utilisateurs sont autorisés à voir les résultats de la recherche en fonction des permissions (listes de contrôle d’accès) relatives aux contenus concernés.

De plus, une application de recherche en entreprise doit renvoyer les résultats à la vitesse de l’éclair, tout comme les moteurs de recherche du Web, mais en consommant beaucoup moins de ressources de calcul.

À tout prendre, la recherche en entreprise commence à se montrer digne de l’appellation Big Data. Et au cas où vous vous poseriez la question, il existe un lien entre la recherche Web et la recherche en entreprise au niveau des métadonnées.

Classement des résultats
Si nous nous penchons un peu plus sur la recherche en entreprise, nous pouvons avoir une idée de son ampleur et de la raison pour laquelle les métadonnées y jouent un rôle important. Tout comme dans le monde de la recherche grand public, les résultats de la première page sont en principe les plus pertinents. Fondamentalement, c’est le problème connu du classement. Et il a été radicalement résolu par les fondateurs de Google qui ont développé l’algorithme PageRank. Alors que Google est depuis longtemps passé à d’autres façons de calculer ses classements, son idée sous-jacente est instructive : PageRank utilise essentiellement des métadonnées de base en guise de « votes », dans ce cas, les liens entrants vers une page Web.

En d’autres termes, les pages les plus populaires (celles qui apparaissent plus haut dans la liste classée des pages correspondant au mot clé recherché) contiennent plus de liens entrants. Pour les passionnés, le document original de Sergey et Larry se trouve ici. Par ailleurs, il existe d’autres algorithmes dans le domaine du classement, mais ils dépendent généralement de la même notion de vote et d’utilisation des métadonnées relatives au nombre de liens.

La grande question qui se pose est la suivante : existe-t-il un équivalent de la métaphore des métadonnées de vote pour la recherche en entreprise, avec tri des résultats correspondant à un mot clé selon une métrique de popularité ?

Recherche sociale et recherche en entreprise
Il s’avère qu’il existe une belle analogie au vote par liens. On peut penser aux métadonnées d’accès, le nombre d’utilisateurs consultant ou modifiant un fichier servant d’indicateur de popularité. Comme dans le cas de la recherche sur Internet, les métadonnées supplémentaires constituent aussi un avantage pour la recherche en entreprise, et nous pouvons appliquer des algorithmes de popularité similaires à nos bons vieux fichiers. Avec les métadonnées d’activité ajoutées à l’équation, cette histoire prend une envergure Big data à part entière, c’est-à-dire le type de difficulté que votre patron aimerait vraiment voir résolu.

Il existe beaucoup de façons de décomposer le problème, mais il y a quelque temps, l’un de mes confrères a rédigé un billet expliquant le principe du « qui se ressemble s’assemble ». Celui-ci dit que si nous sommes tous les deux attirés par la même catégorie de choses, nous sommes susceptibles d’avoir d’autres choses en commun et que j’aime ce que vous aimez. Il est également possible de décrire cela comme un comportement grégaire : nous nous suivons l’un l’autre. Ce phénomène est exploité dans le domaine de la recherche sociale par la plupart des suspects habituels du monde des réseaux sociaux. Voyez la manière dont le Graph Search de Facebook fonctionne pour plus d’informations.

Nous pouvons faire quelque chose de similaire pour la recherche en entreprise, en peaufinant le vote. Par exemple, supposons qu’un utilisateur A accède à un fichier nommé « Stratégie de développement marketing du produit X », également consulté par l’utilisateur B. L’utilisateur B a également accédé à un fichier nommé « Données de vente du produit X », non consulté par A. En vertu du principe du « qui se ressemble s’assemble », vous pourriez vouloir allouer une petite fraction du vote de A au fichier des données de vente, même s’il n’a pas été directement consulté. Supposons que l’utilisateur A ait effectué des recherches sur certains mots clés utilisés dans le fichier des « Données de vente du produit X », « logiciel de métadonnées » par exemple. En raison de sa pondération SAN, le fichier apparaîtrait plus haut dans la liste des résultats que si A et B n’avaient pas été liés par le principe du « qui se ressemble s’assemble ».

Les SAN en bref
Non, ce ne sont pas des réseaux de stockage SAN (Storage Area Networks). Je viens de décrire un modèle de classement plus formellement connu sous le nom de réseau social-attribut (Social-Attribute Network, SAN). Celui-ci prend en compte deux types de métadonnées : d’une part, les utilisateurs, l’aspect social et leurs relations, d’autre part, les données réelles et leurs relations. Contrairement à un SAN, PageRank ne tient pas directement compte des métadonnées sociales, car son algorithme de classement est uniquement basé sur les données ou les relations entre les contenus.

Il existe quelques excellentes enquêtes sur les SAN, mais tous les chemins mènent au parrain de ces modèles et inventeur d’un algorithme de classement ayant précédé PageRank, l’étonnant Jon Kleinberg de l’université Cornell.

Le calcul réel d’un classement SAN pour la recherche en entreprise (et je promets d’être bref) implique souvent un tableau géant, qui est d’ailleurs également utilisé dans PageRank. Imaginez que chaque ligne représente un fichier, et chaque colonne, un utilisateur. L’entrée initiale indique si un utilisateur accède au fichier, au moyen d’un 1 par exemple. L’algorithme SAN est itératif et ajuste les votes en suivant une chaîne de « J’aime ». Finalement, vous obtenez un nombre. Techniquement, c’est une probabilité, mais peu importe, cela permet de hiérarchiser la pertinence d’un fichier pour chaque utilisateur. En d’autres termes, à la différence de PageRank, le SAN offre des classements spécifiques à chaque utilisateur.

Ce tableau est gigantestque et comprend peut-être plusieurs milliers d’utilisateurs croisés avec une centaine de milliers de fichiers. Les calculs sont complexes et doivent être effectués jusqu’à convergence des classements par vote.

La recherche en entreprise est un vaste sujet, en particulier si l’on considère ses aspects sociaux. C’est pourquoi il nécessite plus qu’un simple article. Je reviendrais prochainement plus en détail sur la recherche de fichiers et de son caractère globalement Big Data.

The post Recherche en entreprise : les Big Data ne sont pas forcément là où vous le pensiez. appeared first on Varonis Français.

Que dois-je faire maintenant ?

Vous trouverez ci-dessous trois solutions pour poursuivre vos efforts visant à réduire les risques liés aux données dans votre entreprise:

1

Planifiez une démonstration avec nous pour voir Varonis en action. Nous personnaliserons la session en fonction des besoins de votre organisation en matière de sécurité des données et répondrons à vos questions.

2

Consultez un exemple de notre évaluation des risques liés aux données et découvrez les risques qui pourraient subsister dans votre environnement. Cette évaluation est gratuite et vous montre clairement comment procéder à une remédiation automatisée.

3

Suivez-nous sur LinkedIn, YouTube et X (Twitter) for pour obtenir des informations sur tous les aspects de la sécurité des données, y compris la DSPM, la détection des menaces, la sécurité de l’IA et plus encore.

Essayez Varonis gratuitement.

Obtenez un rapport détaillé sur les risques liés aux données basé sur les données de votre entreprise.
Se déploie en quelques minutes.

Keep reading

Varonis tackles hundreds of use cases, making it the ultimate platform to stop data breaches and ensure compliance.

les-5-choses-que-les-départements-informatiques-devraient-faire,-et-qu’ils-ne-font-pas
Les 5 choses que les départements informatiques devraient faire, et qu’ils ne font pas
  Un chemin direct vers une gouvernance des données efficaces. 1. Auditer l’accès aux données La gestion efficace d’un ensemble de données est impossible si l’on ne dispose pas d’un enregistrement...
la-chaîne-cybercriminelle-en-8-étapes
La chaîne cybercriminelle en 8 étapes
Comme dans tout bon vieux « casse », il y a plusieurs phases dans le déroulement d’une cyberattaque. Lockheed Martin a dérivé le concept de la chaîne criminelle d’un modèle...
le-nouvel-environnement-de-la-confidentialité-:-l’union-européenne-en-pointe-sur-la-protection-des-données-personnelles
Le nouvel environnement de la confidentialité : l’Union européenne en pointe sur la protection des données personnelles
d’Andy Green Nous comprenons tous les risques associés à la divulgation accidentelle d’un numéro de sécurité sociale. Mais existe-t-il d’autres éléments d’informations moins personnels ou même anonymes qui, utilisés conjointement,...
l’essentiel-de-la-sécurité-dans-le-cloud :-arguments-en-faveur-d’une-dspm
L’essentiel de la sécurité dans le cloud : arguments en faveur d’une DSPM
La gestion de la posture de sécurité des données (DSPM) s’est imposée comme une norme en matière de sécurisation des données sensibles dans le cloud et dans d’autres environnements. Toutefois, elle ne peut pas fonctionner sans un processus automatisé. En effet, il s’agit d’un enjeu clé pour surmonter les défis de la sécurisation des données dans le cloud.