Les 5 grands défis de la Big Data
Par Emmanuelle Garnaud-Gamache
Prendre la data à bras le corps, c’est comprendre sa raison d’être et maitriser ses arcanes. Et parce que nous n’en sommes qu’à la genèse, il est bon de débuter directement avec les bonnes bases…


























Faire
le ménage,
« nettoyer »
les données
















































Le traitement graphique
demeure artisanal et limite
l’emploi de la datavisualisation
aux grands comptes
Promesse d’un monde meilleur, « smart », efficace, où le hasard n’aurait presque plus sa place pour les uns. Avènement apocalyptique d’un Internet of Everything omniprésent et consommateurs asservis à des données qui leur échappent, pour les autres… Entre ces deux visions fantasmées de la Big Data, une réalité : nous n'en sommes encore qu’aux balbutiements de la discipline, les verrous technologiques bridant encore son potentiel sont multiples et loin d’être anecdotiques ! Au delà du défi des « 4V » (Volume, Variété, Vélocité, Véracité), le monde de la recherche est en pleine effervescence tant les enjeux sont protéiformes et majeurs. Tour d’horizon des champs d’investigation des prochaines années.


Enjeu n°1 : l’hygiène des données

C’est le cauchemar de tous les DSI ou directeurs marketing qui veulent faire du Business Intelligence : réaliser que quel que soit l’outil de traitement, leur vrai problème réside dans la piètre qualité des données elles-mêmes. D’où une première phase éreintante mais indispensable : faire le ménage, « nettoyer » les données. Un vrai marché, souvent oublié, toujours sous-estimé mais immense tant cette pratique n’a rien de naturel dans la pratique actuelle des entreprises.


Enjeu n°2 : le traitement automatisé de données hétérogènes

Comment croiser des données venant de bases éclatées, de fouilles sur le web, dans des formats différents, de manière intelligente ? Comment indexer et agréger des données ouvertes automatiquement ? L’indexation automatisée d’un document simple demeure perfectible. Et même si beaucoup d’expériences avancent sur le sujet de l’indexation vidéo, le chapitrage intelligent d’un film est encore impossible. L’autre grand défi de l’analyse des données, c’est le paramétrage dynamique des algorithmes de fouille. Sur les grandes masses de données, par exemple en génétique, le traitement des données peut prendre des mois : pouvoir figer le processus en cours de route pour repérer les erreurs de paramétrage et les corriger, sans devoir relancer complètement l’algorithme, est un des enjeux majeurs de la recherche actuelle. La notion même d’analyse en temps réel en dépend : on en est loin alors qu’elle est dans certains domaines indispensable.


Enjeu n°3 : transformer l’expérience de la Big Data

Au cœur de l’avenir de la Big Data, la question de la navigation et de la visualisation des données apparait décisive. Compte tenu de la progression exponentielle des volumes de data1, pouvoir naviguer dans les données grâce à de nouveaux terminaux et surtout de nouvelles interfaces devient un enjeu clé pour la qualité des résultats et leur compréhension. Comment en effet imaginer de rester dans le cadre contraint de l’écran d’ordinateur et de la souris quand on manipule de telles masses de données ? Les nouvelles technologies abondent : réalité augmentée (RA), réalité virtuelle, dispositifs immersifs (des masques Oculus aux lunettes de RA en passant par les écrans 3D tactiles). Mais de l’interaction à l’affichage jusqu’à la manière de représenter les données, tout doit être cohérent et optimisé en fonction du public utilisateur (décideur, scientifique, grand public…). Les chercheurs travaillent donc sur des interfaces naturelles, permettant de « jouer » intuitivement avec les données, pour fluidifier la navigation et améliorer l’efficacité des fouilles.

Les outils de visualisation eux mêmes sont un enjeu clé. Comme le révèle une étude nord-américaine récente2, l’adoption des pratiques Big Data en entreprise est cruciale : or, cette adoption ne se fera naturellement dans les organisations que si les outils sont « clairs et bien conçus, avec de fortes qualités visuelles ». Actuellement, au delà de rares algorithmes (l’incontournable Gephi, en open source) réservés aux data scientists et de logiciels comme MATLAB (boîte à outils graphique pour scientifiques et ingénieurs) ou TABLEAU (version améliorée des tableurs dédiés au Business Intelligence), la pauvreté créative des outils de datavisualisation et leur caractère très classique limite totalement la puissance des images obtenues et donc leur impact, notamment dans les outils d’aide à la décision. Certes, les artistes (le précurseur Mark Lombardi ou encore tous les projets qu’on retrouve sous Visual.ly) et les designers graphiques s’attellent depuis longtemps avec enthousiasme au sujet. Ce traitement graphique, s’il révèle bien tout le potentiel des données, demeure encore artisanal et limite l’emploi de la datavisualisation aux grands comptes.

L’ajout d’une dimension (souvent temporelle comme dans le formidable Chronozoom), la « 3D », fait débat. La communauté du dataviz est majoritairement contre. Pourtant, pouvoir interagir naturellement en immersion avec des données sans être limité à 2 dimensions est la prochaine frontière de la Big Data : c’est une voie naturelle pour nos chercheurs tant les bénéfices sont clairs. Au quotidien, nos interactions avec l’environnement utilisent presque toutes trois dimensions ; les recherches sur le cerveau ont par ailleurs démontré que la visualisation en 3D stimule des zones différentes de celles sollicitées par une vision en 2D, accélérant la compréhension et l’assimilation. La question des représentations abstraites est là aussi un frein, mais les verrous pourraient tomber à l’horizon 2020.


Enjeu n°4 : sécurité et anonymisation

La Big Data permet aujourd’hui d’agréger des bribes d’informations minuscules dispersées sur Internet et d’obtenir le portrait et l’adresse d’un individu sans même utiliser les cookies. Avec la généralisation de l’Internet des objets, la sécurité des données s’annonce donc comme la grande question de l’avenir de la Big Data. Si les entreprises en sont de plus en plus conscientes, le consommateur n’a pas encore réalisé la portée des failles de sécurité de tous ces objets qui vont constituer son quotidien. Pourtant, la confiance est au cœur de ces nouveaux marchés. La e-santé est probablement l’exemple le plus frappant de ces enjeux : que ce soit pour l’amélioration de la connaissance médicale ou l’aide au diagnostic, le croisement et donc les échanges de données sont indispensables et nécessitent une encryption et une traçabilité fiables. Par ailleurs, les techniques d’anonymisation sont tout aussi décisives : elles rendent plus acceptables à l’usager l’utilisation de données très personnelles mais plus on pousse l’anonymat, plus on retire des informations riches et porteuses. Anonymiser sans perdre cette richesse devient donc un enjeu de recherche majeur pour que la Big Data médicale soit porteuse de progrès. Paradoxalement, la Big Data peut aussi améliorer la sécurité en permettant d’anticiper les attaques informatiques à partir de comportements isolés…


Le Datatainment, ou comment remettre l’humain au cœur de la Big Data

Pour conclure cette vision plus R&D de la Big Data, une dernière tendance lourde qui déterminera son niveau de réussite : comment l’individu peut-il se réapproprier toutes les données qu’il génère, consciemment ou pas, comment faire rentrer les données dans notre quotidien ? C’est l’enjeu d’une certaine banalisation de la Big Data parfois intitulée le datatainment, vision plus ludique de la Big Data, puisqu’il s’agit notamment d’incarner davantage les données, de les personnifier et de créer de nouveaux modes de représentation pour créer une empathie, voire un lien émotif. Le projet de la FING, abouthedata.com3 ou des expériences plus prospectives comme celles de l’Ecole de Design de Nantes (le dataquarium4), ouvrent la voie à cette étape indispensable pour le succès global de la Big Data : l’effacement de la frontière entre ceux qui génèrent les données et ceux qui les « exploitent ».

Avec la collaboration de Grégoire Cliquet, Gaëtan Le Guelvouit, Yannick Morvan et Jérôme Royan. 15 exaoctets c'est le volume d'information numérisée produite par l'humanité depuis ses débuts jusqu'en 2003. Fin 2011, 5 exaoctets étaient générés en 2 jours. Fin 2013, 5 exaoctets, c'est ce qui est généré en 12 minutes... 2Mc Kinsey Quaterly, printemps mars 2014, Bad Brown, David Court, Tim Mc Guire. 3Projet de la société Acxiom qui permet au consommateur d’accéder, d’éditer et de limiter les données collectées sur lui par les marques. 4Intranet avec datavisualisation dynamique via des avatars, par et pour les étudiants de l’Ecole de Design de Nantes en 2007. L’expérience se prolonge actuellement avec Crystal Campus.
Emmanuelle Garnaud-Gamache
Passionnée de créativité, marques et technologies, elle dirige le développement international et l’intelligence économique de l’Institut de Recherche Technologique b<>com.








































































Les verrous technologiques
bridant encore son potentiel
sont multiples et loin


Cartographie conçue par l'Atelier Iceberg à partir du rapport, commandé par le ministère de l’industrie et réalisé par le cabinet Erdyn, des 85 technologies clés pour 2015




Le véhicule autonome : Clichés cartographiques autour de 481 notices bibliographiques consacrées à la recherche française dans le domaine du véhicule autonome
Réalisation : Franck Ghitalla et l’Atelier Iceberg




La Big Data permet aujourd'hui d'agréger des bribes d'informations minuscules dispersées sur internet
Illustration d'Alex Besikian
9
S'ABONNER À LA REVUE INFLUENCIA

Je peux accéder immédiatement à la revue digitale et recevrai mes revues papier par courrier.

Je pourrai accéder à la revue digitale après réception du paiement et recevrai mes revues papier par courrier.
JE ME CONNECTE OU M'ABONNE POUR ACCÉDER AUX CONTENUS ×
J'AI UN COMPTE (JE SUIS ABONNÉ.E OU J'AI ACHETÉ CE N°)
E-mail

Mot de Passe


JE SOUHAITE M'ABONNER POUR 1 AN OU ACHETER UN/PLUSIEURS N° SPÉCIFIQUE.S DE LA REVUE

Accédez immédiatement à votre Revue en version digitale. Puis recevez la.les Revue(s) papier par courrier (en cas d'achat ou de souscription à l'offre complète Papier + Digital)

JE ME CONNECTE OU M'ABONNE POUR ACCÉDER AUX CONTENUS ×
J'AI OUBLIÉ MON MOT DE PASSE
E-mail


JE M'ABONNE, ME REABONNE OU COMMANDE UN N° ×
OFFRE PRINT + DIGITALE + AUDIO

JE M'ABONNE

Vous aurez accès aux numéros 37,38,39,40
de la revue papier et leurs versions digitales.
L’abonnement démarre à réception du paiement.
1 an - Envoi en France - 98 €
1 an - Envoi à l'Étranger - 129 €
1 an - Tarif Étudiant - 78 €
JE COMMANDE UN SEUL N°
Numéros encore disponibles en version papier et digitale.
No37 - Le désir - 29 €
No36 - Mobile - 29 €
No35 - Inspirations 2021 - 29 €
No34 - Le Travail - 29 €
No33 - Le Good - 29 €
No32 - Territoires - 29 €
No31 - Art de Ville - 29 €
No30 - Spécial 15 ans - 29 €
No29 - Sport - 29 €
No28 - Femmes engagées - 29 €
No27 - Les jeunes - 29 €
No26 - I.A. - 29 €
No25 - La pub TV - 29 €
No24 - Le Retail - 29 €
No23 - Les Français - 29 €
No22 - Entertainment - 29 €
No21 - Curiosite - 29 €
No20 - Emotion - 29 €
No19 - Transformation - 29 €
No18 - Inspiration - 29 €
No17 - Anthologie - 29 €
No16 - Vivre connecté - 29 €
No15 - Le Shopper - 29 €
No13 - L'Influence - 29 €
No11 - Le Futur - 29 €
No10 - La Ville - 29 €
No9 - Data - 29 €
No5 - Les Médias - 29 €


Hors-série - Conversation - 29 €
Voir +
OFFRE DIGITALE + AUDIO

JE M'ABONNE

Vous aurez accès aux numéros 37,38,39,40
de la revue en version digitale.
1 an - Version digitale - 79 €
JE COMMANDE UN SEUL N°
Numéros disponibles en version digitale uniquement.
No digital 37 - Le désir - 25 €
No digital 36 - Mobile - 25 €
No digital 35 - Inspirations 2021 - 25 €
No digital 34 - Le Travail - 25 €
No digital 33 - Le Good - 25 €
Voir +
Commande avec obligation de paiement

J'accepte les Conditions Générales de Vente
JE CRÉE MON COMPTE
INFORMATION FACTURATION
Nom*

Prénom*

Société

Activité de l'entreprise

Email envoi de facture*


Adresse*

Code Postal*

Ville*

Pays

Tel

Fax



J'AI DÉJÀ UN COMPTE INFLUENCIA

INFORMATION FACTURATION
Nom*

Prénom*

Société

Activité de l'entreprise

Email envoi de facture*


Adresse*

Code Postal*

Ville*

Pays

Tel

Fax



JE CONSULTE GRATUITEMENT LA REVUE ×


Nom*

Prénom*

Email*

Fonction*

Société

Activité de l'entreprise