Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Publié par Bob Woodward

Le Big Data est-il plus fiable que les sondages ?
Boosté par l’innovation technologique, encouragé – mais aussi déboussolé – par le développement du big data, qui ouvre grand la boîte de Pandore des données numériques personnelles de chacun, le secteur des études de marché et des sondages est en pleine recomposition. Market researchers, instituts d’étude traditionnels, start-up ambitieuses : tous se lancent dans la course aux mégadonnées. Mais le recueil massif de données sur le Web n’est rien sans l’intelligence de leur analyse. Deux compétences pour l’instant dissociées… mais pas pour longtemps. Depuis le Brexit et l'élection de Donald Trump, on avait appris à s'en méfier. Et pourtant, ce coup-ci, les sondages ont bel et bien gagné. Ipsos, par exemple, tablait sur 24 % des suffrages en faveur de Emmanuel Macron et 22 % pour Marine Le Pen.Le big data est-il en train de gagner la bataille de la prédiction ? Personne n’avait vraiment vu venir Donald Trump à la Maison Blanche ni François Fillon au premier tour de la primaire de la droite et du centre. Le big data, si. La boule de cristal des sondages a l’air moins performante depuis le Brexit et l’opinion, de plus en plus volatile, semble difficile à saisir. A l’approche du second tour de la présidentielle, faut-il se tourner vers le big data et abandonner les sondages ? Quand même pas, non.
 
Qui dit « big data », dit flot des données - tweets, commentaires, bots, articles… - qui inondent le Web en continu. Filteris, basée au Canada, ou Linkfluence, en France, ont toutes les deux développé une technologie : des algorithmes capables de récolter l’ensemble de ces contenus publics en temps réel. Un méta-moteur de recherche récupère ces data qui sont ensuite catégorisées. Filteris, par exemple, utilise l’axiologie pour analyser les valeurs, elle regarde à qui sont associés les tweets et commentaires positifs (ou négatifs). Et les résultats sont publiés brut, sans être réajustés. « L’élection de Donald Trump, on l’a annoncée un mois avant. Son poids numérique était supérieur à celui de Hillary Clinton » Et, tenez-vous bien : « On peut être élu parce qu’on est plus visible sur le Web quand bien même on nous critiquerait ». Pour Jérôme Coutard, le président de Filteris, il y a une corrélation entre le poids numérique et le résultat du scrutin.
 
Mais prudence. « Les résultats de la présidentielle ne sont écrits nulle part sur Internet », explique Guilhem Fouetillou, cofondateur de Linkfluence, qui est beaucoup moins affirmatif que son confrère de la Belle Province. « On peut croiser les data dans tous les sens, tout dépend de ce qu’on mesure ». Jean-Luc Mélenchon est en tête du websocial car c’est le candidat qui l’utilise le mieux. Par contre, il se fait écraser par François Fillon si on regarde l’influence des partisans et des soutiens. Et celui qui a le plus gros écho en ligne sans bouger le petit doigt, c’est Emmanuel Macron. Et puis ces data, il faut en tirer quelque chose. C’est là qu’intervient Jean-Daniel Levy. Le directeur du département politique et opinion chez Harris Interactive (hoho, un institution de sondages...) donne un coup de main à Linkfluence pour interpréter avec finesse ces données.
 
Le big data ne mesure pas les intentions de vote, mais offre un nouvel angle de vue. Il donne des tendances, pas un classement d’opinions. « On peut suivre le terrain en temps réel, on arrive à avoir des indicateurs, mais il faut l’utiliser en complément », insiste Guilhem Fouetillou. Dire que les sondages ne voient plus rien, c’est faux. « Ils ont vu François Hollande en 2012, Nicolas Sarkozy en 2007. Aux Etats-Unis, si on s’en tenait au vote populaire, Hillary Clinton gagnait en voix », souligne Bruno Cautrès, directeur de recherche du CNRS au CEVIPOF à Sciences Po. La candidate démocrate a remporté deux millions de voix de plus que son rival. Certes, ils ont de plus en plus de mal à faire des photographies de l’opinion à un temps T et ils reposent sur du déclaratif, leur principale faiblesse. « C’est une bonne chose de comprendre quelles sont les limites de chacun, mais présenter le big data comme un sondage n’est pas exact. Les sondages restent des mesures de l’opinion, mais ils deviennent un outil parmi d’autres », reprend le chercheur.
 
Le big data observe son objet dans son écosystème naturel, mais il faut arrêter, il est loin d’être parfait le bonhomme. « Les algorithmes produisent leurs propres marges d’erreur vu qu’ils ne comprennent pas tout », met en garde Guilhem Fouetillou. Ils peinent à détecter l’ironie, le double-sens. Et surtout, ils n’ont pas accès à l’ensemble de la population de manière représentative. « Sur Twitter, on aura les moins de 35 ans mais pas les autres », note David Chavalarias, directeur de recherche au CNRS au Centre d’analyses de mathématiques sociales. Et si vous ne vous exprimez pas en ligne, votre avis ne sera tout simplement jamais pris en compte.

La limite est surtout éthique. « La méthodologie n’est pas toujours transparente », rappelle David Chavalarias. Et les résultats ont un impact sur le vote. « Si on pense que Fillon a des chances au second tour, il sera renforcé », note le chercheur. « Il va falloir intégrer les données du big data aux sondages », analyse Jérôme Coutard de Filteris. Ce qui commence à être le cas. Les instituts s’y mettent doucement. Loin de mettre une claque aux enquêtes d’opinion, le big data crée une rupture dans les façons de faire. C’est l’avènement d’un système hybride. Et pour savoir qui passe au second tour ? Les électeurs ont choisi...

Le Big Data est-il plus fiable que les sondages ?
Souvent critiqués, parfois blâmés, les sondages ont mauvaise presse mais sont toujours vivement commentés. En donnant le ton des discussions politiques précédant le premier tour de l'élection présidentielle, ils sont des marqueurs de l'opinion publique et offrent des tendances.
 
Ifop, Ipsos, Harris Interactive, Kantar-Sofres, Elabe, CSA... Nombreux ont été les instituts à prévoir qu'Emmanuel Macron et Marine Le Pen s'affronteraient au second tour de la présidentielle française de 2017. Ainsi, le 21 avril, Ipsos révélait 24 % d'intention de vote pour Emmanuel Macron et 22 % pour Marine Le Pen en s'appuant sur un échantilon de 2 048 personnes, dont 1 401 certaines d’aller voter et exprimant une intention de vote, constituant un échantillon national représentatif de la population française âgée de 18 ans et plus. L'institut Elabe, lui, chiffrait dans les mêmes eaux, avec des estimations autour de 24 % pour Emmanuel Macron et 21,5 % cette fois pour Marine Le Pen.
 
Sondages de sorties des urnes, annonces anticipées... Il est toujours tentant de consulter les tendances au cours d'une journée de vote. La loi française a prévu une interdiction de publication de nouveaux sondages entre samedi 22 avril et jusqu'à dimanche 23 avril à 20h00, heure de l'annonce du résultat. L'idée ? Protéger la réflexion politique que chaque citoyen est supposé mener de toute influence de nature à altérer son jugement. Mais cette loi n'est évidemment appliquable qu'en France. Comme à chaque fois, les médias étrangers s'en sont donnés à cœur joie pour publier quelques estimations, notamment consultables sur Twitter sous le hashtag #RadioLondres, entre autres faux diseurs de tendances.
 
Or, "toute information relative aux résultats des candidats à l'élection présidentielle qui circulerait avant 20h00 doit être considérée comme dépourvue de caractère significatif", rappelle la Commission des sondages. "La commission a obtenu des 9 principaux instituts de sondages (BVA, Elabe, Harris Interactive, Ifop, Ipsos, Kantar, Odoxa, OpinionWay, Viavoice) l'assurance qu'aucun d'entre eux ne réalisera le 23 avril de sondages "sortie des urnes". Il en résulte que toute référence, le jour du scrutin, à de tels sondages ne pourra être que le fruit de rumeurs ou de manipulations et partant qu'aucun crédit ne devra leur être accordé", faisait-elle savoir dès le 20 avril.
 
Par ailleurs, "comme toute information chiffrée, les sondages sont d’autant plus susceptibles d’être interprétés de manière trompeuse qu’ils sont partie prenante du débat politique. Face à ce danger, il n’y a pas d’autre recette que la vigilance scientifique. En particulier l’attention à ne pas accorder plus d’importance aux réponses des sondés qu’ils n’y attribuent eux-mêmes. On ne doit jamais oublier que la grande majorité des citoyens sont beaucoup moins politisés que ceux qui rédigent les questions des enquêtes politiques, et que ceux qui les lisent avec le plus d’intérêt", mettait en garde le politologue Pierre Martin dans cet article du Monde Diplomatique.
 
Reste que, malgré quelques défaites de sondages (à l'instar de celui qui donnait Valéry Giscard d’Estaing gagnant face à François Mitterrand lors du scrutin présidentiel de 1981), ceux-ci semblent toujours autant prisés des commentateurs publics. Menée par des étudiants en master big data de l’école d’ingénieurs Télécom ParisTech, une étude prévoyait récemment un duel des droites au second tour, entre François Fillon et Marine Le Pen. En plus des réseaux sociaux, l'algorithme utilisé exploitait également des données publiques au niveau départemental (taux de chômage, couleur politique du président du conseil départemental, densité de population, historique des votes depuis 1981...) Pour le coup, big data versus sondages, ce sont bien ces derniers qui ont remporté le match. Ce que l'Ifop n'a pas manqué de faire remarquer à Filteris, l'entreprise canadienne qui a utilisé des algorithmes pour estimer que François Fillon serait présent au second tour.
Le Big Data est-il plus fiable que les sondages ?

Commenter cet article