Vous êtes ici

« Big data » is watching you…

Avec une production de plus en plus importante d’informations, les données sont devenues un champ de recherche avec de forts enjeux. Le LINA en a fait un de ces principaux axes de travail.

Le 5 mars 1981, l’entreprise d’informatique anglaise Sinclair lançait le ZX 81. Un minuscule ordinateur personnel sur lequel la programmation se faisait en langage basic. On regardait alors avec émotion le carré blanc du curseur clignoter sur l’écran, comme le nouveau cœur qui bat d’une révolution se mettant gentiment en marche. Plus de trente ans après, le monde numérique est partout dans nos vies. Difficile même d’imaginer comment c’était avant... ? Les lignes de basic ont laissé la place à internet et à des ordinateurs toujours plus performants qui puisent au quotidien une multitude d’informations dans de gigantesques banques de données. C’est l’une des notions fondamentales du numérique : la création d’informations - les big data en anglais - dans tous les domaines. Certains chercheurs estiment que le volume de données sur internet double tous les 18 mois en moyenne. Le domaine de la recherche scientifique est lui-même devenu “big data-dépendant". Climatologie, santé, bio-ingénierie, archéologie, etc. Presque tous les domaines de la recherche ont désormais un versant « big data ». En 2012, on estime que plus de mille milliards de recherches (exactement 1,2 trilliard) ont été effectuées par les internautes du monde entier, et cela, uniquement sur le site de Google, le géant américain...

Science des données

Dans cette nouvelle ère numérique, la problématique de l’exploitation des données est devenue centrale. Elle est même devenue un champ de recherche à part entière : la science des données. Les questions sont nombreuses : comment trouver une information dans un océan de données ? Comment les classer  ? Leur donner un sens ? De quelle manière envisager leur exploitation commerciale ? Comment ne pas oublier que l’internaute doit toujours rester au centre de la réflexion ? Et l’anonymat ?...
Prenons un exemple que des millions d’internautes vivent tous les jours avec Google, qui reproduit sur ses propres serveurs l’intégralité des pages du web. Près de 97 % des revenus dégagés par cette firme proviennent de la publicité. Ce sont les fameuses petites réclames placées la plupart du temps à droite de l’écran et qui passent souvent inaperçues… Elles ont une particularité : elles sont ciblées et ne s’adressent qu’à vous ! Si vous aimez les chiens et que vous en parlez souvent dans vos échanges mails, il y a de fortes chances que vous vous retrouviez avec des réclames pour de la nourriture canine ou des annonces de promotions pour des salons de toilettage ! Pourquoi ? Parce que le géant numérique de Mountain View sait mieux que personne exploiter les données personnelles contenues dans les mails à des fins économiques.

DUKe

Le LINA, le Laboratoire Informatique de Nantes Atlantique travaille sur ces problématiques de l’exploitation des données. Philippe Leray, enseignant-chercheur en informatique est responsable de l’équipe de recherche DUKe, pour Data User Knowledge (en français, Donnée, Utilisateur, Connaissances). “C’est un fait, les grandes firmes comme Google exploitent des données pour générer de l’argent, analyse le chercheur. Il y a un fort mouvement pour la mise à disposition des informations. Mais il y a aussi une nécessité de protection de certaines données. Ce sont deux impératifs contradictoires. Comment jongler ? Les données sont trop souvent perçues comme ayant un potentiel uniquement économique. L’originalité de notre équipe est de ne pas oublier que l’utilisateur est au centre du processus.” En résumé, comment bien exploiter ces bigs datas en évitant que ce soit eux qui nous exploitent… ?

La première étape dans ce travail consiste à définir les données sur lesquelles on va travailler. D’ordinaire, on estime que les données peuvent être caractérisées sous cinq aspects. Leur volume (c’est-à-dire la quantité d’informations) ; la vélocité (a-t-on à faire ou non à un flux continu d’informations ?) ; la variabilité (lorsque les données sont très hétérogènes) ; leur véracité (les informations sont-elles fiables ?) ; et enfin leur valeur économique. Philippe Leray : “Récemment, la manière de visualiser ces données de manière synthétique est aussi devenue un critère. L’idée est de créer des mécanismes d’interaction et d’utilisation. Par exemple, d’imaginer des systèmes où l’utilisateur se balade en 3D immersive dans les données. On y retrouve plus facilement les informations que dans une représentation 2D classique.” Un peu à la manière d’un Tom Cruise dans le film de Steven Spielberg, Minority Report, qui explore les données à travers des écrans virtuels qui flottent devant lui, en les manipulant avec les doigts.

Reste ensuite à dégager des méthodes pour extraire des informations de ces données et ainsi créer une plus-value. Les champs d’utilisation s’articulent toujours autour du même triptyque : manipulation, fouille et interaction. Philippe Leray : « La manipulation, c’est ce que l’on nomme en anglais le data management. Comment utiliser des données sans que cela se fasse à l’insu de l’internaute ? Par exemple, comment rendre les données anonymes ? La fouille revient à extraire des connaissances à partir de données. Pour cela il faut aussi réfléchir à la façon de bien structurer les connaissances, par exemple avec un formalisme comme les ontologies. Enfin l’interaction, c’est la façon de rendre l’utilisateur acteur de cette production de données ou de l’extraction de connaissances. Par exemple en lui demandant de donner une note aux films qu’ils regarde. » Manipulation, fouille, interaction... Des mots qui font un peu peur ? Pas si l’internaute est au centre de la démarche.

L.Salters

Infos complémentaires

Laboratoire Informatique de Nantes Atlantique

Ajouter un commentaire