Capturés par la toile - Où vont nos données personnelles sur Internet by Raymond Colle

Capturés par la toile Où vont nos données personnelles sur internet Raymond Colle

L'auteur est docteur en Sciences de l'Information, professeur pensionné de l'Université Pontificale Catholique de Santiago du Chili.

Licence Creative Commons

(Reproducción permise seulement dans des textes sans fin de lucre, sans modification et mentionnant la source)

NOTE Le présent texte est la traduction faite par l'auteur d'une première version écrite en espagnol.

Introduction Dans le monde physique, si nous voulons protéger notre intimité, nous fermons la porte et les rideaux. Dans le monde numérique, il n'en n'est pas de même: nous sommes toujours exposés et nos possibilités de contrôle sont assez limitées. Lorsque nous utilisons la toile et les téléphones et téléviseurs “intelligents”, nous donnons des informations sur nous-même, tant si nous le voulons comme si nous en le voulons pas. Nous laisson toujours une trace de notre activité sur internet, que nous utilisions ou non les réseaux sociaux. Et toutes les entreprises qui y sont présentes font leur possible pour capturer cette information, qui est maintenant un produit commercial de valeur. Et cette situation croîtra de façon exponentielle avec les gadgets qui feront partie de l'”Internet des Objets” o IoT (Internet of Things) (Gizmodo, 9/01/2015). Les données personnelles qui peuvent apparaître quand nous utilisons internet sont de quatre types: • privées: celles que nous générons et qui «voyagent» grâce à des moyens directs de personne à personne (comme le courriel et le `chat´); ce peuvent être aussi des documents que nous mettons dans le «nuage» (Dropbox, iCloud, etc.) sans les partager; • publiques: nos publications sur la toile: pages web personnelles, blogs, articles de revues, documents sur services comme ISSUU, Scribd, etc. ; • sociales: qui correspondent à nos activités sur les réseaux sociaux (Messages d'état, photos et vidéos, «likes», etc.); • «traces» (data trail): laissées involontairement par nos activités (p.ex. le type d'appareil utilisé, l'endroit où nous sommes, les hyperliens suivis, etc.). Les données publiques et sociales sont des informations révélées volontairement et nous parlerons dans le deuxième chapitre de ce qui peut leur arriver. Les données privées peuvent être analysées avec ou sans notre consentement si elles ne sont pas encryptées et laissent toujours des traces utilisables par les fournisseurs de services. Elles constituent de l'information que nous appelleront ici «extraite», et nous l'examinerons dans le troisième chapitre. Nous parleons ensuite des principaux problèmes liés à l'utilisation de nos données : propriété, protection du privé, sécurité, conservation, et. La Seconde Partie de ce petit livre aborde plus à fond le thème de la capture et de la gestion de ces données. Nous nous demanderons qu'est-ce qui se fait actuellement et ce qui pourra se faire avec eux dans l'avenir. Ceci, évidemment, dépend du type 3

d'utilisateur et de ses objectifs, et nous ne les oublierons pas. Cela dépend aussi des machines et de leur pouvoir (croissant) de traitement, mais aussi des avancements en matière d'applications (logiciels), ce qui –de son côté– dépend de la connaissance que l'on ait de ce que signifie l'obtention d'informations et le concept que l'on ait de l'intelligence possible dans les machines (sciences cognitives). Nous nous demanderons aussi dans quelle mesure ces technologies sont disponibles pour des particuliers comme prétendent quelques vendeurs d'applications. Et nous essayerons de voir ce que nous dépare l'avenir si, comme certains croient, tout le contenu de notre cerveau pourrait être copié dans le «nuage» numérique.

1. L'environnement des données Bien quel a forme de base de notre cerveau n'a presque pas changé au cours des derniers 40.000 ans, la façon dont nous trouvons, conservons et interprétons l'information, comment nous dirigeons notre attention et employons nos sens, comment nous nous souvenons et comment nous oublions est le produit de milliers d'années d'histoire, avec tous les avatars et changements qui ont modelé ls structure physique et le fonctionnement du cerveau et conditionne notre esprit. Les facteurs les plus décisifs pour l'intellect ont été le développement de l'écriture et, des siècles plus tard, de l'imprimerie. Nous connaissons des tablettes de grès avec des signes graphiques qui datent d'il y a 8.000 ans. L'interprétation de ces signes rendu nécesaire le développement de nouvelles connections neuronales dans le cerveau de leurs utilisateurs, connectant l'écorce visuelle du cerveau à son aire du langage. Des études modernes ont montré que, de ce fait, l'activité mentale est double ou triple dans ces circuits, provoquant une importante évolution culturelle et technologique. Ray Kurzweil en a déduit que nous approchons d'une nouvelle ère, où la technologie s'unira avec l'intelligence humaine, pour mener ensuite –vers la fin de ce siècle– au développement d'un “univers intelligent”.

1.1. Evolution technologique On peut considérer Charles Babbage (Angleterre, 1792–1877) et son amie Augusta Ada Byron (1815–1852) comme les principaux précurseurs de l'informatique vu qu'ils ont conçu un modèle conceptuel de machine appelée “moteur analytique”, qui aurait un “moulin” (“mill”) – qui serait son centre logique (équivalent à l'unité arithmétique des ordinateurs actuels) –, une unité de contrôle et une mémoire, et serait capable de manipuler des symboles en suivant des règles définies. Et ils assuraient qu'il n'y avait aucune raison pour ces symboles en soient que des chiffres et des équations. Cependant, il a fallu attendre la décade de 1930 pour voir la construction des premières machines capables d'opérer réellement de cette façon. Depuis lors, nous sommes passés par plusieurs “générations” d'ordinateurs: les électromécaniques (avec relais électromagnétiques), les électroniques basés sur des tubes à vide (comme les anciennes radios), ceux basés sur des transisteurs individuels, et les “intégrés” (avec des puces réunissant de nombreux transisteurs et autres composants dans une seule pièce de silice) qui ont finalement donné lieu aux ordinateurs personnels. A la vue de ce que nous avons aujourd'hui à notre disposition, il est facile de voir que la technologie a évolué de plus en plus rapidement. Le graphique qui suit montre cette 5

évolution, divisée en cinq générations ou “changements de paradigmes”, et montre en particulier comment a augmenté le pouvoir de calcul. Il faut prêter attention à l'échelle de l'axe vertical, qui est logarithmique, c'est-à-dire que chaque nouvelle frange horizontale est une multiplication de l'antérieure (valeur exponentielle). Le graphique est de Ray Kurzweil (p.74, de sa version en espagnol):

Le titre est allusif à la “loi de Moore”. Au milieu de la décade de 1970, Gordon Moore, un inventeur de circuits intégrés qui fut plus tard président d'Intel, observa comme il arrivait tous les 24 mois que l'on pouvait doubler le nombre de transisteurs mis dans un circuyit intégré. C'est ce phénomène que l'on connait depuis sous le nom de “loi de Moore”. Il a été vérifié depuis jusqu'à présent et pourrait encore l'être de nombreuses années grâce à de nouvelles découvertes en matière de physique des semi-conducteurs. Les processeurs sont aussi devenus mille fois plus rapides au cours des trente dernières années, parce que les électrons ont chaque fois moins de “route” à parcourir. Dans les puces (Kurzweil, p.68). Nous sommes dans unétape où les processeurs ont déjà plusieurs noyaux (qui travaillent en parallèle) et on commence à la situer en couches multiples (passant d'un mode bidimensionnel à un tridimensionnel). Avec cela, “le rythme du changement de 7

paradigme (l'innovation technologique) s'accélère. En ce moment, il se double chaque décade.” (Kurzweil, p.27) Ceci, évidemment, affecte la quantité de données qui peuvent être réunies et traitées, ce qui explique ce qui arrive actuellement sur internet, comme le developpement du “nuage” (cloud) de conservation massive de données, et la capacité d'entreprises comme Google pour conserver et exhiber tout ce qui se publie. 1.2. Internet et la toile La première connexion à distance entre ordinateurs a eu lieu en 1969 et fut l'origine de ARPANET, le réseau d'ordinateurs de l'Agence de Projets de Recherche Avancée de Défense (DARPA) des Etats-Unis, qui unit les quatre premières universités de ce pays: Stanford, UCLA, Santa Bárbara et Utah. En 1972, Ray Tomlinson, de BBN Technologies, créa le premier programme de courrier électronique et utilisa pour la première fois le symbole @ dans une adresse. La difusion internationale du courriel a commencé l'année suivante. En 1981, pour la première fois, des ordinateurs de l'Université de Yale et de l'Université de la Ville de New-York établirent une connexion directe, marquant le départ de ce qui serait le grand réseau académique mondial BITNET (Because It's Time NETwork). On annonça alors l'élection du protocole TCP/IP pour tous les serveurs (hosts) de ARPANET, encore en usage aujourd'hui. Mais il a fallu attendre 1989 pour voir apparaître le lengage HTML et le concept de web1, de Tim Berners–Lee, et jusqu'à 1991 pour voir le premier logiciel permettant unir plusieurs ordinateurs au moyen de la “toile”. La World Wide Web commença en pratique en 1993, quand le CERN rendit officiel dans un document que la technologie qui permettait sa création serait dès lors du domaine public. Et jusqu'en 1995, la toile continua à être un privilège des universités, de leurs professeurs et élèves, avec un quantité de serveurs qui arriva cependant à trois millions. En 2013, il y avait 265 millions de noms de domaines (D.Wallace, 2014) et 1.000 millions de serveurs enregistrés par la Société Internet, bien que seulement 183 millions de sites web se considéraient actifs (Diario TI, 13/05/2014). R. Kurzweil (p.85) montre aussi dans des graphiques comment s'est produite une accélération de la croissance de type exponentiel (voir page suivante). Le taux de pénétration d'internet, fin 2013, atteignait pratiquement 80% dans les pays développés et et 30% dans les sous-développés (El País, 26/11/2013). Le traffic de données sur internet a aussi doublé chaque année, ce qui a rendu nécessaire l'agrandissement de la bande passante, ç.à.d. De la capacité de transmission simultanée.

1 On lui donna le nom de World Wide Web en 1991.

1.3. Les réseaux sociaux et la mobilité On considère généralement qu'avec les réseaux sociaux, aux alentours de 2005, est apparue une nouvelle “génération”: la “Web 2.0”. Sa caractéristique principale est son caractère dynamique, avec la possibilité de participation active de tous les usagers. Mais il ne s'agit pas d'une apparition subite ou spontanée: les réseaux sociaux sont héritiers des “communautés virtuelles”, dont la première fut “Habitat”, qui apparut en19862 et réunit plusireurs milliers d'usagers sur un réseau d'ordinateurs personnels qui utilisait aussi le protocoloe TCP/IP. Apès sont apparues d'autres communautés, quelques unes virtuelles (avec des univers fictifs) et d'autres rélles, comme “The Vancouver Community Network”. Le premier “reseau d'amis”, antécédant Facebook, fut Friendster, en 2002. Facebook s'ouvrit à tous les usagers en 2007, après avoir lancé un premier feed de nouvelles pour amis l'année précédente. En novembre 2007, les réseaux sociaux dépassèrent déjà le courriel en quantité d'heures d'usage. En juillet 2009, ils avaient dejà plus d'utilisateurs que le courriel et en septembre 2010 ils atteignirent 1.000 millions d'utilisateurs, dont la moitié sur Facebook (Castells, 2014, p.143). En plus d'être une nouvelle source de données, les réseaux sociaux ont changé drastiquement la façon dont beaucoup obtiennent leurs informations. Une étude récente de Quantcast a révélé qu'ils génèrent 34% des références du traffic web sur dispositifs mobiles. Il s'agit du double de ce que génèrent les appareils de bureau. Le rapport – réalisé avec des données de tout 2013 – réunit les mesures des 250 principales sources de nouvelles et inclut le traffic au travers des navigateurs et applications internes de réseaux comme Twitter et Facebook (Clases de Periodismo, 16/05/2014). Cette quantité d'accès mobile (par smartphones), causée principalement par les réseaux sociaux, provoque déjà que les transmissions deviennent plus lentes dans certaines zones à cause de la saturation (Wired, 28/11/2014). Elle change aussi les systèmes de marketing et même l'information journalistique. De même, l'omniprésence des appareils mobiles “intelligents” a mené à la formation d'un nouvel environnement, clairement différent de la toile traditionnelle. Comme le montre un étude de Morgan Stanley, les utilisateurs de mobiles dépassèrent ceux d'ordinateurs personnels au début de 2014 (voir graphique), ce qui démontre l'importance que prennent les applications (logiciels) mobiles et la raison qui pousse les grandes entreprises à s'occuper de plus en plus de cette réalité.

2 Crée par Lucasfilm Games en collaboration avec Quantum Computer Services Inc. 10

Source: comScore, 8/04/2014

Pour faciliter l'utilisation de ces appareils, comme aussi pour améliorer la communication avec leurs clients, beaucoup d'entreprises ont abandonné la toile pour créer leurs propres applications (apps) optimisées pour les mobiles. Le développements de ces apps renforce l'usage des mobiles dans de nouveaux secteurs, comme la banque, le commerce, les assurances, les télécommunications, les administrations publiques et même les institutions de santé. Et la conservation de l'information dans les “nuages” de ces entreprises la rend accessible de n'importe où, non sans créer des problèmes liés à la propriété et le caractère privé des données personnelles. Selon l'information de Gartner, en 2014, 90% des organisations déployaient déjà des applications corporatives sur dispositifs mobiles, obtant aussi d'elles de nombreuses données. Avec des services qui, de plus, offrent aux particuliers de créer leurs propres apps, nous sommes face à “un scénario dans lequel tout le monde apporte de l'information, crée un service et le met à disposition de tout le monde” (J. Rifkin). 1.4. L'internet des objets (IoT) Le concept d' “internet des objets” (IoT: Internet of Things) est né en 1999 et est attribué à Auto–ID Center, basé au MIT. L'idée était que si tous les objets (livres, électrodomestiques, parties de véhicules, etc.) étaient équipés de dispositifs 11

d'identification (comme les étiquettes de radio NFC), il n'existerait plus d'objets perdus ni hors de stock, parce que nous suarions toujours où ils sont et aussi ce qui se consomme à chaque endroit. La connexion par internet, cependant, était impossible à cette époque, parce que le protocole d'internet (Ipv4) était au bord de la saruration. Mais le développement du nouveau protocole Ipv6, qui commença à être implanté à la fin de 2012, admite 2128 o 340 sextillons d'adresses, ce qui suffirait pour les 1.000 à 5.000 objets qui – selon les calculs – pourraient entrourer chaque être humain. Tant les capteurs personnels (dans les smartphones et les nouveaux wearables) comme les caméras de surveillance et les capteurs publics de tout type (dans les “villes intelligentes”) recueilleront et enverront des informations. Le plus grand rendez-vous de la technologie, la foire CES de Las vegas, en janvier 2015, a confimé que c'est le pari actuel de tout type de fabriquant. Le graphique de la page suivante illustre les différents types d'objets considérés et commen ils se connecteront. Nous vivrons entourés de produits connectés et même “capables de prendre des décisions” selon ce qu'ils captent. “Notre auto pourra stationner seule, notre maison s'ajustera à la température qu'il nous faut à chaque instant, notre bicyclette sera capable de nous avertir si on la vole” (El Mundo.es, 9/01/2015). On calcule qu'en 2015 se connecteront à internet 25.000 millions de nouveaux dispositifs liés aux “foyers intelligents”. La FTC (Federal Trade Commission) des Etats-Unis a averti pour cela de la possibilité des vols et mavais usages de l'information produite par ces appareils (Gizmodo, 9/01/2015). En 2020, il y aura entre 40 y 50.000 millions d'appareils connectés, depuis les téléphones jusqu'aux lampes des maisons. Il s'agit d'une augmentation de 50.000 fois en moins de trois décades (The Connectivist, via Microsiervos, 13/05/2014). La Corporation EMC a annoncé le 9 avril 2014 les résultats de sa septième étude sur l'univers numérique, la seule étude qui qualifie et pronostique la quantité de données produite annuellement. L'étude, titulée “L'univers numérique des occasions: information de valeur et augmentation de la valeur de l'internet des objets”, avec l'analyse d'IDC, révèle comment l'apparition des technologies sans fil, les “produits intelligents” et les affaires définies para logicial remplissent en rôle fondamental dans la croissance exponentielle des données numériques dans le monde. A cause, en partie, de l'internet des objets, l'univers numérique double son extension tous les deux ans et se multipliera par dix entre 2013 et 2020 (DiarioTI, 09/04/14). Le second des graphiques qui suivent montre cette évolution avec, à nouveau, la courbe exponentielle, ce qui confirme aussi l'hypothèse évolutive de Ray Kurzweil. (Source : The Future of the Internet of Things, Xively.com, 19/03/2014). 12

Source: Infographic Journal, 26/03/2014 (partie extraite de l'originel)

“Ce sera une tendance qui transformera tous les marchés et impactera toutes les industries”, dit José Manuel Petisco, directeur général de Cisco en Espagne. Jorge Lang, directeur d'Innovation et Solutions de Intel pour le sud de l'Europe, ajoutait: “Nous sommes conscients de l'impact qu'aura l'Internet of everything; il sera supéreur à celui de la révolution industrielle su XIXe Siècle”. 1.5. Les “big data” Les données extraites d'internet par les entreprises s'accumulent en grandes bases de données que l'on appelle maintenant “big data”. Nous parlerons tout spécialement de cela dans la Deuxième Partie. Comme référence, il faut tenir compte de ce que signifie un travail important sur la toile aujourd'hui: ainsi, par exemple, Google traite 3.500 millions de requêtes chaque jour et conserve environ 10 exaoctets de données (l'équivalent de 1.600.000.000.000 livres). Il utilise plus d'un million de serveurs. Facebook ajoute 500 teraoctets chaque jour. Amazon conserve les données des achats de 152 millions de clients, qui font environ 1 exaoctet (selon Adeptia, Infographic Journal, 6/03/2015). Si un moyen de communication numérique a une liste de souscripteurs, ce qui constitue seulement une table dans une base de données, il serait difficle de la considerer “big data”. Elle pourrait passer à l'être, à un niveau minimum, s'il enregistre en plus pour chaque souscripteur chaque page lue, avec les données de l'accès (date, heure, appareil utilisé, navigateur ou app, lieu, etc.).

Première Partie: Capturés (La perte du privé)

2. L'identité révélée Il existe des services que nous choisissons et utilisons pour nous faire connaître comme personne, comme professionnel ou comme auteur d'une production intelectuelle ou esthétique. De cette façon nous révélons volontairement une partie de notre identité et, évidemment, nous ne pouvons nous plaindre si les services utilisés conservent cette information. Mais il est plus discutible qu'ils l'utilisent à leurs propres fins, et spécialement de les analyser et vendre à des tiers, bien que cela puisse être, justement, la forme de payement que nous devons accepter quand ce genre de service est gratuit. Nous connaissons évidemment ce que nous publions éventuellement dans des sites web (revues, blogs, etc.) et il n'y a pas grand chose à dire à ce sujet ici. Il est évident que les administrateurs de ces sites ont plein accès à ces contenus et aux données personnelles que nous leur avons fournies. Il extraient probablement aussi d'autres données, moins visibles, mais nous traiterons cet aspect dans la Deuxième Partie. Les informations personnelles les plus communes aujourd'hui, et où les recherches démontre que l'on prend le mois de précautions, sont celles des réseaux sociaux. 2.1. Réseaux sociaux Notre profil et nos envois (posts) sur notre “mur” sont des données que nous publions librement et qui font grossir les bases de données des réseaux auxquels nous participons. Mais, comme nous verrons dans le chapitre suivant, ils obtiennent beaucoup plus d'information sur la base de tous les mouvements que nous effectuons lorsque nous sommes connectés. Nous pouvons avoir un certain contrôle sur ce qui est divulgué au moyen de certaines options que nous offre chaque service. Mais il y a des choses qui échappent à notre contrôle. Pour en savoir un peu plus et prendre des décisions informées, il nous faut lire la 16

politique d'information privée de chaque service, ce qui n'est pas toujours facile et peut prendre du temps: elle occupe parfois plusieurs pages et utilise souvent des termes que seuls comprennent les avocats. Lorrie Faith Cranor, directrice du cyberlaboratoire de sécurité Carnegie Mellon, a calculé que lire toutes les politiques de confidentialité qu'un utilisateur rencontre au cours d'une année prendrait 76 jours! “Les conditions restent inaccessibles, illégibles, pleines d'hyperliens –entre 40 et 100– et dérivent parfois à des pages en anglais” avertit UFC-QueChoisir, la principale association française de défense des consommateurs (El País, 25/03/2014). En tous cas, il convient de voir ces pages et celles relatives }a la sécurité (par exemple “Qui peut se emttre en contact avec moi?” et “Quel messages filtrer” sur Facebook). Il est aussi recommendable de désactiver toujours l'option de géolocalisation (à moins que ce soit essentiel, comme pour se déplacer en automobile suivant une carte), car c'est un moyen puissant pour faire des déductions en croisant statistiquement les données. Les firmes de réseaux sociaux sont, sans aucun doute celles qui se bénéficient le plus de l'analyse de tout ce que nous publions. Ainsi, par exemple, Facebook possède un instrument appelé Facebook Audience Insights dont la finalité est d'évaluer les clients actuels et potentiels pour personnaliser des messages et stratégies de marketing. Il offre à ses clients, sur nous, une information démographique (âge, style de vie, éducation, relations, travail, etc.), pages et messages préférés dans diverses catégories, localisation, langue, activités liées aux achats en ligne et hors de ligne et formes de payement (Wwhat's New, 8/05/2014). L'information dont dispose Facebook sur un de ses utilisateurs puet dépasser 1.200 pages comme a pu constater, Max Scherems, un étudiant de droit autrichien qui en appela en 2011 à la législation européene sur la protection des données pour exiger à Facebook d'être informé de tout ce que l'entreprise savait de lui. Dans ce millier de pages figuraient toutes ses données personnelles divisiées en 57 catégories comme passtemps, goûts, opinion religieuse, etc., ainsi que tout ce qu'il avait publié et “navigué” depuis son inscription, même les chats privés effacés et les demandes d'amitié refusées (L.Zanoni, p.86). Le site Genbeta a dit que “Facebook a un service de messagerie instantanée, et Twitter a étrenné ses messages directs en groupe. Ce sont des formes de communication avec nos amis et connaissances qui ont comme base un réseau social mais qui sont complètement privées” (26/02/2015). Mais je demande pardon à Miguel López, qui a écrit cela, car je en suis pas d'accord: ces communications n'ont RIEN de privées! Elle sont tout au plus cachées à nos autres contacts, mais ces deux firmes en enregistrent les contenus et peuvent les analyser. Il en va de même pour leur conservation des photos, qui pourrait être fermé au public (comme il est aussi possible de le faire dans d'autres ervices) mais peuvent aussi être analysées (comme Facebook le fait pour reconnaître et “étiqueter” les visages). 17

2.2. Connaître ce qui est révélé Nous rappeler ce que publions sur la toile peut être utile dans quelques cas et ce n'est pas toujours facile, surtout quand il en s'agit pas de documents que nous produisons et gardons dans le “nuage” numérique ou que nous publions sans garder copie. Dans le cas de pages web, nous pouvons enregistrer celles qui nous intéressent avec des applications comme Evernote ou en garder les références dans une table Excel (fort utile pour cela est l'extension “Citable” pour le navigateur Chrome). Mais même ainsi, nous n'avions pas, jusqu'il y a peu, de système qui nous permette d'enregistrer notre navigation d'un site web à un autre. C'est l'objectif de Trailblazer (http://www.trailblazer.io/) – une extension pour Chrome –, qui construit une carte des sites visités lorsque nous cliquons sur les liens ou faison une recherche. Sur Facebook, il est possible de savoir ce que nous accumulons en utilisant l'option de Configuration, puis “Décharger une copie de vos données”. Cela mènera à une page qui permet de décharger le fichier qui incluirá les messages, photos, vidéos, conversations, information de profil et quelques autres. Cliquer ensuite sur le bouton “Commencer”, écrire la clé d'accès et attendre. Il est possible de découvrir plus de ce que sait Facebook utilisant Wolfram Alpha (www.wolframalpha.com/facebook) et cliquant sur le bouton “Get Your Report”: on obtiendra là divers graphiques et visualisations qui incluent des informations sur la fréquence de nos publications, les mots les plus souvent écrits, les “Like” envoyés, les photos les plus commentées, les commentaires d'amis, et même un groupement démographique relatif à nos cercles sociaux (PC Magazine, 5/09/2014). Google, pour sa part, réunit notre information personnelle pour créer un profil qui couvre des détails comme notre âge, genre et intérêts personnels, pour déterminer quels annonces publicitaires montrer, en plus des options relatives à l'utilisation de ses sites (configuration) et les opérations réalisées avec son navigateur (Chrome) – si nous avons opté pour celui-çi – et avec les comptes de Gmail et Google+. Les données réunies peuvent être consultées (et changées) – au moins en partie – dans les options de menu “Paramètres”, “Panneau de contrôle” et la page “Ad Settings”. On trouvera aussi “Historique”, qui permet de voir la liste des pages visitées (à moins qu'on ait bloqué cette fonction ou effacé régulièrement son contenu). Tout ce qui est synchronisé peut être vu (et contrôlé) en passant au lien “Google Dashboard”. “Sécurité” (https://security.google.com/settings/security/permissions) permet aussi de voir une liste de toutes les applications web, mobiles et de bureau, qui peuvent accéder à nos informations personnelles. Les données utilisées pour déterminer quelle publicité nous montrer peuvent être vues sur www.google.com/settings/ads/. Toutes les recherches réalisées avec Google Search sont accumulées et peuvent être consultées sur www.google.com/history/ (fonction qui peut être bloquées). Il en est de même pour 18

YouTube, sur www.youtube.com/feed/history/search_history. Si utilisa un dispositif Android, il est probable que sa localisation soit envoyée à Google. On peut vérifier l'historique de localisations sur https://maps.google.com/locationhistory. Sur Yahoo, il n'y a pas de mécanisme pour obtenir une copie des données propres, mais Flickr supporte des applications externes de décharge des photos, comme Bulkr. Sur LinkedIn, il n'est pas plus possible d'obtenir une copie complète de ses données, mais il es possible d'obtenir une copie de la liste de contacts en “Export LinkedIn Connections”. (On peut bien sûr aussi imprimer la page web du profil personnel.) Sur Twitter, à part le profil que l'on peut voir et éditer, nous pouvons obtenir un fichier de tous les twits et RT (une version pour le navigateur et une autre en format CSV, pour une feuille de calcul) dans le menu dépliable de configuration grâce au bouton “Demandez votre fichier”.

3. L'identité extraite Les entreprises – de tout type– se sont rapidement occupées d'essayer de prendre bon parti de toute l'information que nous révélons et aussi des traces que nous laissons sans le savoir. Avec les mobiles et les réseaux sociaux, elles connaissent nos listes d'amis, nos goûts, où nous allons, et plus encore. Et, en analysant ou vendant ces données, elles peuvent obtenir de plus grandes bénéfices grâce à toute cette information. Le développement d'algorithmes d'analyse de la navigation permet aussi de connaître de mieux en mieux ce qui se passe dans la société au point de pouvoir en prédire divers comportements. 3.1. Des équipements “traîtres” Le simple fait de posséder un appareil capable de se connecter à internet implique que le fournisseur du service non seulement peut le connaître mais aussi l'usage que nous lui donnons, et qu'il peut mettre cela en relationa avec les données personnelles que nous lui avons fourni au moment d'engager le service. Évidemment, les compagnies de téléphonie mobile accumulent les informations sur ceux qui font et reçoivent les appels, leur durée et la localisation des clients. El les fournisseurs d'internet saven quel navigateur nous utilisons et peuvent enregistrer tout notre historique de navigation. Si nous utilisons un téléphone “intelligent” ou une tablette, nous devons de plus considérer que le fabricant peut en faire le suivi (ce qui dépend de la marque). De plus, toute application peut accéder au numéro de série de l'appareil, à sa localisation, à la date et heure des connexions. Ce sont là les “metadata”, et elles sont suffisantes pour identifier l'utilisateur. Les apps sont aussi souvent capables de lire la liste des contacts et extraire diverses autres données, ce qui rend conseillable de vérifier toujours les autorisations d'accès qu'elles demandent. Sur Android, on peut voir cette liste au moment d'installer chaque app (et on peut les refuser). Sur iOS, Apple exige maintenant des développeurs qu'ils indiquent clairement dans un message pour quoi ils désirent avoir accès à telle ou telle donnée et qu'ils permettent à l'utilisateur d'accepter ou de refuser. (Dans les deux cas, refuser une autorisation peut cependant empêcher l'installation ou que le logiciel fonctionne pleinement). 3.2. Navigation Depuis que furent créées les pages web, il existe la possibilité d'obtenir l'information des sites que nous visitons, des nouvelles que nous y lisons, de ce nous achetons par elles, de la musique que nous écoutons, des films que nous voyons, etc. Les navigateurs gagnent des millions de dollars grâce à une analyse des habitudes de navigation de leurs 20

utilisateurs, information qu'ils vendent aux annonceurs. Nous pouvons tenter de nous protéger. Il existe pour cela un standard qui devrait permettre d'utiliser la règle “Do Not Track” (“ne pas suivre”) pour que notre comportement ne soit pas enregistré. Mais de grandes entreprises comme Yahoo et Facebook ne suivent pas le standard qui suggère de respecter cette option (qui se trouve dans les paramètres de navigateurs) et beaucoup d'autres sites n'en tiennent pas plus compte. Il existe cependant aussi de bonnes applications, comme Ghostery (www.ghostery.com), qui révèlent qui nous épie et nous permettent de bloquer vraiment l'envoi de ces données. Tous les navigateurs conservent aussi notre historique de navigation, au moins pendant que nous sommes en ligne, ce qui nous permet de retrouner rapidement à une page visitée récemment. Cette liste est normnalement accessible via le menu du navigateur et il y a une option pour l'effacer (Qui peut être automatisée dans certains navigateurs). Google Analytics collecte cette information (les sites y le temps que nous y passons), mais nous pouvons le bloquer à la page https://tools.google.com/dlpage/gaoptout. Le service d'information de Google (Google Now) pour teléphones utilise tout ce qu'il arrive à savoir de nous pour sélectionner les informations qu'il supose “importantes” pour nous en fonction du profil qu'il établit (Il n'y aura rien de vraiment utile si nous bloquons toutes les possibilités de suivi!). 3.3. Réseaux sociaux S'inscrire dans un réseau social en fait pas seulement que notre information publique entre dans ses bases de donnée, elle implique aussi que toutes les opérations que nous réalisons quand nous l'utilisons et tout ce qu'il est possible de savoir au moyen de la connexion (appareil, navigateur, numéro IP, etc.) est aussi enregistré. Dans tous ces services, la “politique de intimité” informe que ces données sont captées – au moins – pour “pourvoir, améliorer, essayer et superviser l'efficacité du service”. Bien qu'il es possible de restreindre d'accès de tiers aux contrôles de confidencialité offerts, il n'y a aucune restriction en relation à ce que la firme enregistre et analyse (et vend!). Le cadre suivant montre les données que capturent quatre des principales entreprises de la toile, les métodes utilisées et quelques emplois.

Comme les mobiles et les réseaux sociaux, les entreprises connaissent nos listes d'amis, nos goûts, où nous avons été, et bien d'autres choses. Et, en analysant et vendant cela, elles peuvent – grâce à nos soins – obtenir de plus grands bénéfices. Pour le démonter, Ubisoft a créé une application qui permet de mesurer “l'ombre numérique” qu'un utilisateur laisse sur Facebook, Twitter et Google+. Ce logiciel considère les profils des messages, les amis, famille, photos, etc., pour mesurer la “valeur” de cette ombre pour un annonceur ou un pirate qui désirerait obtenir le compte. Ici suit un exemple d'une trace sur Facebook selon un test publié par Forbes (25/04/2014).

Facebook apparait fréquemment dans les nouvelles en raison des changements de la politique et contrôles de confidencialité, ce qui est probablement la plus grande source de méfiance face à ce réseau, surtout parce que le niveau de contrôle réel est fort réduit. Les changements constants ont été commenté par de nombreux média et, de ce fait, on a pu observer que 61% de ses utilisateurs ne confient plus aveuglement dans ce système (WebpageFX et The Next Web, novembre 2013). Des chercheurs des universités de Stanford (Etats-Unis) et de Cambridge (Grande Bretaña) ont démontré que, en moyenne, “il suffit de 10 «like» sur Facebook pour que ses algorithmes te connaissent mieux qu'un compagnon de traveil; avec 70 «like» Facebook te connaîtra mieux qu'un ami, avec 150 mieux que ta famille et avec 300 mieux que ta femme ou ton mari” (Gizmodo, 13/01/2015). Facebook utilise tant le profil de chaque membre comme ses envois pour servir ses annonceurs. Si, lorque quelqu'un s'inscrit, il informe de ses films, programmes de télévision ou livres favoris, les annoncuers en seront informés et essayeront d'en tirer profit. Et s'il efface complètement son compte, plus personne en le vera, mais Facebookconservera et utilisera encore ses données. De plus, ils construisent une “mémoire sémantique” du registre historique des activités de chaque utilisateur et réalisent une analyse exhaustive afin de commercialiser ces données. De fait, en avril 2014, ils ont annoncé qu'ils lanceraient leur propre réseau de publicité pour mobiles, dans lequel ils profiteraient de leur base de données pour créer des avis personnalisés, afin de faire la concurrence à Google. En fonction des mouvements et caractéristiques de 23

la navigation des utilisateurs, ils détermineront quels avis publicitaires sont les meilleurs, en fonction aussi des plateformes informatiques (appareils et systèmes d'exploitation) et des applications utilisées dans les mobiles (Noticiasdot.com, 22/04/2014). Une étude commandée et communiquée par la Commission de confidencialité de la Belgique a aussi démontré que Facebook viole les lois européennes dans ce domaine, entr'autres extrayant de l'information sur ses utilisteurs pendant qu'ils naviguent sur la toile même lorsqu'ils ont abandonné le site web du réseau social, grâce à des boutons extra comme les “like” (“J'aime”) et comme les “biscuits” (cookies)3 mis sans autorisation dans l'appareil du lecteur et qui interactuent avec les sites web visités. Ils obtiennent et conservent même des données de personnes qui n'ont pas de compte dans leur réseau, lorsqu'elles sont citées par les membres (Genbeta, 31/03/2015). Facebook a répondu que cela sert seulement à rendfe sa publicité “plus intéressante”, qu'ils respectent les options de ne pas faire de suivi des pages webs visitées et que tout le monde peut désactiver l'option de que les “actions sociales” soient reflétées dans la publicité que reçoivent les amis (Genbeta, 10/04/2015). Selon un étude récente du centre de recherche Pew réalisé aux Etats-Unis, 91% des adultes croient que les consommateurs ont perdu le contrôle sur la façon dont les entreprises obtiennent de l'information sur leurs clients. 61% n'ont plus confiance dans la promesse que font les réseaux sociaux, les moteurs de recherche ou les magasins en ligne de ce que ces données en servent que pour améliorer leur service. Que ces données soinet rendues anonymes (éliminant le nom): “En croisant diférents points, il est facile d'obtenir un profil unique et réel de n'importe quel utilisateur. Ce que nous en racontons pas sur un site, nous le racontons sur un autre. Nous en dison peut-être pas sur le résau social où nous avons dîné, mais la photo du plat principal prise avec le mobile a des coordonnées GPS et en laisse aucun doute” dit le journal espagnol El Mundo (20/11/2014). Si on envoye des vidéos, même sans qu'ils soient géolocalisés, il existe des algorithmes qui peuvent localiser où ils furent pris, au moyen des images et des sons. Le système a été développé par des scientifiques de l'université Ramon Llull de Barcelone, qui publièrent leur étude dans la revue Information Sciences4. Bien qu'il n'était pas encore public, il en se passera pas baucoup de temps pour que n'importe quelle entreprise informatique en fasse de même (Agence SINC, 11/02/2015).

3 Informations invisibles qui sont «collées» dans la machine et peuvent être lues par le navigateur. On peut les voir en clickant sur la petite page en blanc qui apparaît à gauche de l'adresse URL, au haut de la page (tout au moins avec le navigateur Chrome). 4 Xavier Sevillano, Xavier Valero, Francesc Alías. “Look, listen and find: A purely audiovisual approach to online videos geotagging”. Information Sciences 295: 558–572, 2015.

3.4. Téléviseurs intelligents Tant Samsung que LG et d'autres fabriquants ont inclu dans leurs “téléviseurs intelligents” d'importantes fonctions d'espionage des utilisateurs: elles copient l'adresse IP, les identificateurs de dispositifs, les données des transactions réalisées et des applications et services utilisés. En plus, ils répondent à des commandes orales et, au moins dans le cas de Samsung, enregistraient TOUT se qui se disait devant l'appareil, en théorie pour connaître les ordres les plus fréquents et, de cette façon améliorer le système dans des modèles futurs. Vu que des millions de personnes envoyent un ordre que son téléviseur en comprend pas, les envoyer à la firme rendrait possible qu'ils soient compris dans l'avenir. Mais la conversation pourrait aussi être interférée et Samsung, au moins, en avertissait ses usagers dans sa web: “Veuillez tenir compte de ce qui si vos paroles incluent des informations personnelles ou confidentielles, elles feront partie des données capturées et transmises à un tiers lors de votre utilisation de la fonction de reconnaissance de la voix”, un avertissement submergé dans le texte sur la politique de confidencialité d'une extension de 46 pages (Wwwhats´ New, 6/02/2015). Après que cela fut dénoncé publiquement, Samsung répondit qu'ils en conservaient pas les conversations des clients et appliquait “les mesures et pratiques de sécurité standard de l'industrie” pour “protéger l'information personnelle des clients et évitar son obtention ou usage non autorisé”, alores qu'ils envoyent ces données à la firme nordaméricaine Nuance, spécialisée en reconnaissance de la voix qui les assiste dans ce domaine. Ils avertirent finalement qu'ils changeaient leur politique et que “les ordres oraux seront enregistrés seulement quand sera demandée la fonction spécifique au moyen du bouton d'activation sur la commande à distance ou sur l'écran et quand on parlera devant le micro de la commande à distance” (El Mundo.es, 10/02/2015 y ABC.es, 11/02/2015). Mais ceux qui n'acceptent pas cette spécification en peuvent pas utiliser les commandes orales ni accéder à d'autres services additionnels, tant dans les téléviseurs de Samsung comme de Toshiba. Dans ceux de Panasonic, dans ce cas, on ne peut accéder ni aux applications ni au navigateur et avec LG on perd aussi les applications (Xataka, 4/11/2014). Les commandes orales avec Google Chrome, Google Now, Apple Siri, Amazon Echo et les téléphones intelligents sont aussi susceptibles d'êtres écoutées à distance. Bien qu'en général cette fonction peut être désactivée, cela peut aussi causer la perte de divers services. 3.5. L'internet des objets L'“internet des objets” (Internet of Things, IoT, en anglais) introduira probablement beaucoup d'objets pratiques dans notre vie, mais il faudra le payer avec une perte encore 25

plus grande de confidancialité de notre vie privée. “L'ère de l'«internet des objets» se base, précisément, sur cela. Les électrodomestiques apprendront et sauront tout de leurs propriétaires, afin d'améliorer leur vie et faciliter leur tâche. La transparence à l'heure de montrer ce type de pratique et une plus grande conscience de la part des consommateurs se transforment en frontière de convivialité. Les dispositifs «intelligents» amènent à une perte inévitable du privé? Selon les experts, cette situation est «intrinsèque» à ce genre d'appareils.” (ABC.es, 11/02/2015) L'“internet des objets” sera partout, ce qui signifie que quand il se produira un quelconque changement enregistré par l'un de nos appareils connectés, une entreprise en sera informée, reliant cette donnée aux autres qu'elle aura de nous. “Personne en sera capable d'échapper à son impact, parce qu'on n'utilisera pas la IoT: on vivrá dedans toute la journée, tous les jours”, dit Geoff Webb, Directeur de Solution Strategy en NetIQ. “Quand nous vivons dans un monde où il y a un nombre infini de senseurs et objets intelligents autour de nous, tout le temps; quand les vêtements que nous portons, et même des choses à l'intérieur de notre corps, sont intelligents et connectés, alors el concept de «privé» se transforme en quelque chose de beaucoup plus éphémère.” (Wired, 5/02/2015). Ce qui arrive déjà avec les cartes de crédit peut nous donner une idée de ce que cela signifie. Une étude dirigée par Yves-Alexandre de Montjoye, du Media Lab de l'Institut de Technologie du Massachusetts (MIT), et publié dans un volume spécial de la revue Science sur le thème de ls sécurité, permit d'identifier 94% des personnes d'une base de données d'acheteurs utilisant seulement l'information de trois achats faits un jour avec chacune de leurs cartes (sans connaître initialement leur nom). L'analyse permit même de détecter que tant les femmes comme les personnes avec de plus hautes rentrées sont plus faciles à identifier, car leurs patrons d'achats au cours du temps sont beaucoup plus définis que les autres. “Notre travail démontre comme il est difficile de rendre les données anonymes”, dit de Montjoye. (El Mercurio, 30/01/2015). Voyons quelques uns des cas les plus commentés actuellement. 3.5.1. Bracelets de Fitness

Les bracelets destinés a surveiller l'exercice physique sont une excellente source d'information privée qui, dans bien des cas, envoyent ces données à un serveur central. Ceux qui dominent ce marché sont Fitbit, avec 67% de part de marché en 2014, et Jawbone. Fitbit a un programme gratuit pour les entreprises de 1.000 travailleurs aux Etats-Unis (300 en Espagne). On estime qu'en 2013 les ventes de ces calculateurs à des entreprises dans le cadre de leurs programmes de santé furent de 200.000 unités, et pour 2018 cette quantité pourrait 26

arriver à 13 millions de dispositifs. Beaucoup de grandes entreprises ont ce type de programme pour leurs travailleurs (80% de celles qui ont plus de 1.000 employés et 50% de celles qui en ont entre 50 et 999). Selon une étude de la Fondation Kayser Family, ces plans leur permettent d'obtenir une réduction de 35% du coût de leurs assurances médicales. Les assurances assument que si les travailleurs sont plus actifs et dorment mieux, il y aura moins de chances qu'ils utilisent leur assurance (Xataka, 12/02/2015). C'est pouquoi beaucoup de compagnies, comme Google, eBay, BP, Autodesk et presque toutes les grandes assurances et celles du secteur de la santé aux Etats-Unis offrent ces bracelets dans leur programmes de bien-être. Ces firmes installent un serveur spécial qui reçoit les données des bracelets et créent avec elles des statistiques sur les activités physiques et les heures de sommeil des travailleurs. L'administreteur du programme dispose d'un panneau de contrôle où sont reflétés les données des utilisateurs et des dispositifs en opération. Pour leur par, chaque travailleur peut voir ses propres données sur son navigateur web, avec l'indication –par exemple– des jours où il a atteint ses objectifs, la distance parcourrue, le meilleur jour de son histoire, et un graphique qui compare son rendement à la moyenne du groupe.

Un exemple d'écran de visualisation de Fitbit Corporate Fitness (via Xataka) 27

Il y a des entreprises qui vont beaucoup plus loin, contrôlant toutes les activités et déplacements de leurs employés. Ainsi, par exemple, la compagnie de transfert de devises Intermex leur exige de charger dans leurs téléphones mobiles l'application Xora, de “gestion de centres de travail”, qui suit la localisation 24 heures par jour. Et elle a remercié une employée qui l'avait effacée (employée qui réclama devant les tribunaux pour invasion d'intimité et expulsion injustifiée). (The Guardian, 12/05/2015). 3.5.2. Ton auto te dénonce

Les fabricants d'automobiles “connectées” obtiennent des données de leur conduction et fonctionnement, information qui est envoyée aux serveurs tant du fabriquant comme parfois de tiers. BMW elle même a dénoncé que les firmes technologiques et publicitaires désirent obtenir toute cette information, avec aussi celle qui concerne les conducteurs. Et, selon la compagnie allemande, ils pressionnent les fabriquants pour qu'ils y donnent libre accès ou leur vendent ces données. Les entreprises de publicité offrent déjà de les utiliser pour leur “donner plus de valeur” en faisant apparaître sur le navigateur de bord des annonces, par exemple, des restaurants proches où le chauffeur devrait aller prce que l'annonceur saurait qu'il conduit déjà depuis plusieurs heures et auarit besoin d'une pause pour se restaurer. BMW veut pour cela commencer une campagne pour assurer que toute l'information de ses véhicules connectés soit bien protégée et réservée (Xataka, 15/01/2015). Et de 16 fabriquants consultés par le sénateur Edward Markey, du Massachusetts, seulement deux ont assuré être préparés pour détecter et commencer à affronter les problèmes de sécurité associés à cette connectivité. Le client a peu de possibilité de désactiver cette transmission de données sans que cela suppose une importante perte des prestations de l'auto, spécialement de la navigation par GPS. Le sénateur a aussi accusé les fabriquants d'employer ces informations personnelles pour des fins qui en sont pas toujours propres de la sécurité ou de l'expérience à bord. L'agence officielle de la défense, DARPA, a elle-même démontré qu'il est possible de pirater et prendre le contrôle d'un véhicule en moins d'une heure, pouvant contrôler la mise en route, l'accélérateur et le frein (Xataka, 10/02/2015). 3.5.3 Ton lecteur numérique aussi

Les lecteurs de livres numériques, comme le Kindle d'Amazon (et quelques autres aussi), peuvent aussi nous épier et avertir le fabriquant de ce que nous faisonas avec eux si nous les maintenons connectés. Le Kindle offre à ses utilisteurs l'option de marquer les parragraphes préférés et de les garder dans l'équivalent d'un chier de notes. Mais Amazon est mise au courant de ce qui est souligné et, si le lecteur ne prend pas la précaution de refuser l'autorisation correspondante, la firme offrira cette information

dans son “nuage” et, chaque mois, rand public le ranking des citations les plus soulignées (BBC Mundo, 19/11/2014). 3.6. Les grandes données (“Big data”) Toutes les données accesibles sur internet sont réunies para divers acteurs en une masse appelée “big data” conservée dans de grandes bases de données et ensuite analysées pour obtenir une meilleure connaissance de ceux qui les produisent (nous). Il doit être clair maintenant que, s'il est déjà difficile de conserver l'information privée, avec l'Internet des Objets nous devrons oublier définitivement cela. Comme a expliqué W. Ben Hunt sur le site de Forbes, comparer l'analyse de big data avec l'analyse que réalise notre cerveau lorsqu'il considère de nombreuses données serait une grave erreur: “Le cerveau humain en peut pas comprendre facilement l'immensité de TOUTE l'équation ou ce que signifie regarder TOUT de façon simultanée et en parrallèle [comme le fait un puissant ordinateur]. Cela peut paraître de la magie, et à niveau purement symbolique cela peut être décrit comme de la magie. Mais au niveau fondamental, je en comprend pas cette magie et aucun autre être humain ne peut le faire. Ce que je epux dire avec une certitude absolue, cependant, c'est que la magie existe et qu'il y a un tas de mages, avec plus de gradués du MIT, de Harvard et de Stanford chaque année. [Il faut reconnaître] que des intérêts privés puissants nous quittent les clés de notre conduite sous nos yeux et avec notre coopération. Cet acte simple de reconnaissance changera pour toujours notre comportement d'échange de données, et cette bataille ne pourra pas être gagnée si un nombre suffisant d'entre nous ne changent pas leur comportement pour protéger avec zèle leurs clés.” (W. Ben Hunt, Forbes.com, 14/02/2015) Lamentablement, les entitiés de gouvernement qui tentent d'attaquer le problème dans divers pays luttent dans une guerre obsolète au lieu de faire face à celle qui est réellement à la vue de ceux qui connaissent la vraie situation, ajoute Ben Hunt. Pour Hodgson, il s'agirait d'assurer une transparence totale dans les deux sens (nous face aux entreprises et elles face à nous) avec notre plein accès à nos propres données et notre droit clair de propriété (Hodgson, 2014). Nous développons ce thème dans le chapitre suivant. Un autre aspect de l'analyse de big data est que, comme signalé plus haut (étude de Yves-Alexandre de Montjoye au MIT), il n'est plus nécessaire que notre nom soit enregistré dans la base de données – pas d'avantage que notre profil d'utilisateur – pour que nous soyons identifiés. Notre identité peut être déterminée sur la base de notre comportement dans l'utilisation de quelques applications d'achats et payement en ligne, services multimédia et plateformes de communication, même sans notre nom. 29

L'analyse de big data est une ressource importante pour de nombreuses firmes et les “scientifiques de données” capables de réaliser ce travail sont de plus en plus demandés. Nous traiterons cet aspect dans la Deuxième Partie.

4. Protection et cession de données Selon une étude récente du centre de recherche Pew aux Etats-Unis, 91% des adultes croit là que les consommateurs ont perdu le contrôle de la façon dont les entreprises privées réunissent leur information sur leurs clients. 61% se méfient de la promesse que font beaucoup de réseaux sociaux, moteurs de recherche et commerces en ligne de n'utiliser ces données que pour offrir un meilleur service (El Mundo, 20/11/2014). 4.1. Droits Cela met en évidence un problème sérieux: celui de la propriété et confidencialité des données réunies au moyen des “données sociales5” et “traces” laissées par les internautes sur la toile. S'il existe dans bien de cas une cession volontaire de données personnelles (généralement comme une façon de rétribuer un service “gratuit”), celle-çi en peut être indiscriminée et en devrait pas surgir sans le consentement des intéressés. La principlae association française de défense des consommateurs, UFC-Que Choisir, a dénoncé devant les Tribunaux de Justice Twitter, Facebook et Google+ pour leurs normes d'utilisation de données personnelles de leurs abonnés, considérées “illicites” et “abusives”. “Les conditions continuent à être souvent inaccesibles, illégibles, pleines d'hyperliens – entre 40 et 100 liens d'hypertexte – et dérivent parfois à des pages en anglais. Pire encore, les réseaux continuent à permettre amplement l'obtention, la modification, la conservation et l'exploitation des données des utilisateurs et même de leur famille. Sans l'accord explicite des utilisateurs, ils donnen une licence mondiale illimitée pour le fonctionnement et la communication de données à des associés d'affaires” ont-ils déclaré (El País, 25/03/2014). Le président Obama lui-même a abordé le thème il y a peu: “Nous croyons que les consommateurs ont le droit de décider quel type d'information personnelle est prise d'eux et comment elle est utilisée, ou savoir que l'information utilisée par une entreprise avec une fin concr}ete n'est pas utilisée par une autre entreprise avec une autre fin” (El Mundo.es, 13/01/2015). La téléphonie mobile, en particulier, a un “côté obscur”, non réglé, qui permet aux porteurs d'enregistrer tous les déplacements de n'importe quel citoyen et ce qu'il fait avec son appareil, p.ex. s'il fait des achats, où, de quel type de produit, etc. (Wired, 6/01/2002). “La confidencialité doit équilibrer le désir du consommateur avec la nécessité de l'organisation” dit Fatemeh Khatibloo, analyste sénior de Forrester. La confidencialité doit être considérée en fonction de cinq aspects: 5 On entend techniquement comme «donnée sociale» l'identification au travers d'un réseau social pour entrer sur un autre site ou service web.

• temporel: quand les données peuvent être obtenues et utilisées; • spatial: où elles peuvent être utilisées; • fonctionnel: comment elles peuvent être obtenues et utilisées; • d'identité: qui interviennent dans la relation; • social: avec qui elles peuvent être partagées (Tierney, 2014). Le débat de fond est sur la quantité de pouvoir que nous avons pour contrôler le flux d'information sur nous-mêmes. Si l'anonymat et le contrôle signifient donner aux gens le droit de cacher ce qu'ils veulent, alors nous avons une bataille difficile à gagner et il pourrait être trop tard selon David Hodgson, de Computer Associates. Si nous allons embrasser la transparence et l'assurer d'être totale dans les deux sens, alors nous pourrions être capables de gagner cette guerre. Cela signifie accepter que notre vie est à découvert, met en exigeant que tous les emplois des données soient aussi à découvert et que tous se bénéficient de leur utilisation. Bien que pour beaucoup cette idée est désagréable, il est possible que ce soit la seule façon de nous assurer de ce que nous avançons vers un futur où la personne en soit pas exploitée (Hodgson, 2014). 4.2. Protection Les citoyens de l'Union Européenne ont – en théorie – la faculté de contrôler leurs données personnelle (soit toute information qui permette de les identifier ou rendre identifiables). L'Agence Espagnole de Protection de Données considère que Google est entre les entreprises “les plus irresponsables” en matière de gestion de la confidencialité, et critique qu'elle profite de tous les “crevasses” légales pour tenter d'éluder ses responsabilités en Europe (El Mundo.es, 26/11/2014). La Comssion Européenne “surveille les grandes entreprises comme Facbook et Google, mais des services plus petits et récents qui deviennent populaires passent sous le radar ou accumulent les données des utilisateurs à l'étranger, où le contrôle est plus difficile. Les applications mobiles supposent un problème supplémentaire. Beaucoup de gratuites le sont parce que les bénéficent proviennent de l'information qu'ils sont capables d'obtenir en arrière plan.” (Ángel Jiménez de Luis, El Mundo, 20/11/2014) Ainsi, il n'est pas facile d'exercer un contrôle, moins encore si les données en sont pas gardées dans des serveurs situés dans les pays de l'UE. Même si l'on obtient que certains contenus disparaissent, généralement ils ne sont plus visibles pour des tiers mais ne sont pas effacés des serveurs. Le “droit à l'oubli” signifie généralement que les hyperliens sont bloqués sur les moteurs de recherche et directoires, mais il est impossible d'assurer 32

que le contenu est réellement éliminé, car il peut avoir aussi été reproduit et conservé ailleurs. Une étude de l'Université de Leuven pour la Commission de Confidencialité belge a constaté aussi que la façon dont Facebook utilise les données de ses membres viole les lois europénnes de confidencialité et de protection des données. Ses politiques relatives à la publicité de tiers “ne respectent pas les exigences requises pour un consentement juridiquement valide” et le réseau social “n'offre pas de mécanismes de contrôle adéquats” en relation à l'emploi des contenus générés par les utilisateurs à fins commerciales, malgré que la compagnie a changé ses politiques en janvier 2015 en réponse aux réclamation de la Commission Européenne. Le rapport signale aussi qu'il impossible d'empêcher Facebook de savoir où se trouve chaque utilisateur au moyen de son application pour téléphones mobiles si ce n'est arrêtant le fonctionnement du système de géolocalisation au niveau du sustème d'exploitation. (The Guardian, 23/02/2015) Aux Etats-Unis, la Maison Blanche, dans l'espoir de ce que le débat national sur la confidencialité dépasse les dénonciations liées aux activités de surveillance de l'Agence de Sécurité Nationale et considère les pratiques de compagnies comme Google et Facebook, publia le 1er mai 2014 un rapport qui recommende l'application par le gouvernement aux entreprises privées de limites à la manière d'utiliser le torrent d'informations qu'elles obtiennent de leurs clients en ligne. John D. Podesta, auteur principal de ce rapport, fait les recommendations suivantes: • approbation d'une loi nationale sur la violation des données, qui exigerait aux entreprises d'informer quand elles souffrent des pertes de données personnelles et de cartes de crédit après des attaques pirates comme celle qui a exposé l' information des cartes de crédit de 70 millions de clients; • une législation qui définisse les droits des consommateurs en relation à l'emploi des données sur leurs activités; • augmentation des protections de intimité pour les individus qui en sont pas citoyens des Etats-Unis; • mesures destinées à garantir que les données obtenues d'étudiants en soient utilisées que pour des fins éducatrices (New York Times, 1/05/2014). Ce rapport signale aussi que la même technologie qui est souvent si utile pour prédire des innondations ou diagnostiquer des maladies de bébés difficiles à découvrir a aussi le “potentiel d'éclipser les protections traditionnelles des droits civils, en utilisant l'information personnelle sur le logement, le crédit, l'emploi, la santé, l'éducation et le marché” (ibidem). Il se centre spécialement sur les “algorithmes d'apprentissage” qui sont utilisés fréquemment pour déterminer le genre de publicité en ligne qui sera montré sur l'écran de l'ordinateur de quelqu'un ou pour baser sa recherche d'une nouvelle auto 33

ou d'un plan de voyage – par exemple – sur ses habitudes d'achats. Ces mêmes algorithmes peuvent créer de lui une “photographie” numérique qui, selon Podesta, permettrait de déduire sa race, son genre ou orientation sexuelle, même si ce n'est pas le propos du logiciel. La Haute Commissaire de l'ONU pour les Droits Humains a publié en juin 2014 un rapport titulé “The right to privacy in the digital age” (Le droit à l'intimité à l'âge numérique), où il est dit: “La surveillance invasive, tout comme la collection et l'enmagasinage de données personnelles dérivées de la communication numérique – si elle fait partie de programmes de surveillance dirigée ou massive – non seulement peut enfreindre le droit à l'intimité mais aussi un certain rang d'autres droits fondamentaux” (Human Rights Council, 30/06/2014). Quel doit être le chemin de l'industrie? “Le paradigme reconnu de consentement informé au sujet des données privées peut encore être très efficace dans le monde des grandes données et leur analyse s'il est combiné avec des communications adéquates, avec una analyse exhaustives des risques et bénéfices pour le consommateur et avec la capacité de suspendre l'abonnement à tout moment. La non-adoption de ce genre de point de vue pourrait donner lieu à une vague de législation nouvelle et de politiques coûteuses, à la condamnation publique et à la rétribution financière. Cela semble être une décision simple et le chemin vers le succès. Un consommateur informé puet décider de participerou non, pour vivre ensuite en fonction de sa décision, soit por recueillir les bénéfices offerts soit pour rencontrer des conséquences imprévues qui peuvent se retourner contre lui pendant des décades.” (R. Lee, 2014). Cela impliquerait d'utiliser le format “opt-in”, selon lequel nous choisirions seulement ce que nous sommes disposés à partager, au lieu du format “opt-out”, où il faut nier manuellement ce que nous en voulons pas partager, ce qui est le mode dominant aujourd'hui. Ceci est particulièrement urgent dans des doamines qui sont enpleine voie de développement: “En matière de protection des données, il y a d'importantes aires encore peu explorées et desquelles l'utilisteurs sait réellement peu ou prou, comme les risques liés à la croissance du «cloud computing» [6]. Il existe aussi peu d'information sur le traitement des données laborales et médicales, et d'autres de type plus personnel, comme les goûts, l'orientation politique ou religieuse... tous lesquels, de façon plus ou moins directe, sont susceptibles d'être employés par les entreprises à des fins publicitaires, donnant lieu ainsi à d'importants débats légaux 6 Traitement dans le nuage numérique.

qui, de plus, génèrent des changements de législation à une vitesse peu habituelle 7 dans le monde juridique mais nécessaire vu leur lien avec le développement technologique.” (TICbeat, 8/02/2015). Au sujet du “nuage”, l'Organisation Internationale pour la Standarisation (ISO) a établi le standard ISO/IEC 27018, développé pour assurer une vision internationale uniforme qui permette de protéger l'intimité et la sécurité des données personnelles conservées dans les “nuages”. Et, en février 2005, Microsoft s'est convertie en premier fournisseur mondial l'ayant adopté (Diario TI, 19/02/2015). Pour terminer ce sujet, n'oublions pas que nous devons aussi nous occuper personnellement de prendre des mesures de protection, vérifiant et ajustant les options correspondantes qui existent dans les services que nous utilisons. 4.3. Droit à l'oubli En 2012, la Commission Européenne a annoncé une proposition de loi pour défendre le “droit à l'oubli” des utilisateurs d'internet. Cette loi obligerait les fournisseurs du service à respecter la normative à moins qu'ils ayent un raison “légitime” de en pas le faire. En mai 2014, le Tribunal de Justice de l'Union confirma ce “droit à l'oubli” et dictamina que les moteurs de recherche comme Google doivent retirer les liens aux informations publiées dans le passé s'il est vérifié qu'elles signifient un préjudice pour un citoyen et en sont plus pertinentes. Jusqu'à quel point cela pourrait-il être employé par des politiciens ou des corporations pour éviter que soit diffusée une information d'intérêt public? La justice europénne a été très claire à ce sujet, dit la BBC: “Ce type de demande en sera accpeté quén tenant compte de la nature de l'information en question, de la façon dont elle affectela vie privée de l'utilisateur et l'intérêt public qu'il y aurait à disposer de cette information. D'une certaine façon, avec cette décision, l'Europe dit que la limite de la liberté d'information se trouve définitivement dans toute information qui en concerne personne d'autre que l'utilisateur lui-même” (BBC, 13/05/2014). La décision du Tribunal de Justice provoca pas mal de polémique. D'une part, il y a ceux qui se réjouissent de la décision et ont commencé à demander aux moteurs de recherche de retirer des résultats quelques informations polémiques. D'autre part, il y a ceux qui voient dans ce cas un antécédent dangereux pour l'exercice de la liberté d'opinion dt d'information. Et c'est que dans le thème deu droit à l'oubli convergent la protection des données personnelles, son impact sur l'intimité des utilisateurs d'internet et la liberté d'expression en ligne. Il y a de bons arguments en faveur de chaque élément, mais il est difficile de s'incliner pour privilégier l'un ou l'autre. Cependant, le problème inmédiat le plus important est que cette décision habilite le moteur de recherche pour résoudre les 7 Malgré la vitesse signalée ici, les changements légaux arrivent encore bien souvent avec pas mal de retard!

demandes des personnes qui veulent un “effacement”. Quel critère emploiera-t'il pour décider si une pétition est valide ou non? Cela est opposé à la politique généralement défendue selon laquelle les intermédiaires (fournisseurs d'internet, moteurs de recherche, etc.) en devraient jamais pouvoir décider sur les contenus. 4.4. Se cacher? Pouvons-nous cacher nos données pour nous protéger? Nous avons déjà mentionné quelques unes des mesures que nous pouvons appliquer pour réduire le suivi que réalisent les navigateurs, et aussi l'existence d'applications et d'extensions qui bloquent les suiveurs (“trackers”), comme c'est le cas de l'excellent Ghostery (www.ghostery.com), qui nous révèle qui tente de nous épier et nous permet de bloquer l'envoi de ces données. Il existe aussi des applications de courriel plus privées que les classiques Outlook, Gmail et Yahoo, comme Peerio (www.peerio.com/), une suite de productivité de communications chiffrées qui inclu la messagerie instantanée et le courriel, en plus de l'enmagasinage d'archives dans le “nuage” avec une encryptation d'extrême à extrême où seul le destinataire final peut voir ce qui est envoyé. Pour cacher totalement nos transmissions, ou même paraître être situé dans un autre pays, on peut utiliser un réseau privé virtuel (VPN) qui cache (remplace) notre numéro IP et chiffre les transmissions, comme c'est le cas de Faceless.me. Les contenus en peuvent être interprétés que par l'expéditeur et le destinataire, mais la VPN doit vérifier l'authenticité de l'identité des deux. Nous pouvons aussi obtenir une connexion à internet sûre et anonyme sur des réseaux publics WiFi en utilisant Hotspot Shield (www.hotspotshield.com), qui opère sur un réseau VPN. Pour terminer, nous pouvons “déménager” vers le “réseau profond” (deep net) et utiliser TOR, “The Onion Router” (www.torproject.org/), qui est né au Laboratoire de Recherche Navale des Etats-Unis comme une forme de créer des communications sûres pour les militaires, mais est ouvert à tous parce que sa finalité principale est de faciliter les communications libres dans les régions où elles peuvent être restreintes (par exemple pour les dissidents et journalistes). TOR est structuré en noyaux et couches (son symbole est un oignon), de telle façon que l'utilisateur “saute” de l'une à l'autre, protégé par une couche de chiffrement qui empêche que le serveur final connaisse son numérp IP. En Europe, Tor est employé chaque jour para 80 de chaque 10.000 utilisateurs d'internet, surtout en Italie, qui est le second pays où on l'utilise le plus, après les Etats-Unis (Microsiervos, 24/06/2014). L'organisation Internet Engineering Task Force 36

(IETF) ha proposé de convertir la technologie du réseau Tor en standard d'internet. Si cette proposition prosp}ere, la toile pourrait entrer dans une nouvelle étape de son histoire, où le caractère privé serait propre de l'essence même d'internet (Genbeta, 30/11/2013). 4.5. (In)Sécurité Le plus grand problème lié aux grandes données (big data), à part la perte d'intimité, est la pauvre sécurité de ces bases de données, comme il a été révélé par une enquête réalisée par Unisphere Research et patrocinée par Oracle 8. Le quart seulement des personnes consultées a indiqué qu'ils chiffraient toutes les donnée et 56% chiffrent ua moins une partie des copies de sécurité. 81% citent les erreurs humaines comme leur principale préoccupation, suivie en 65% par les possibles ataques internes, et 54% sont préoccupés par l'abus de privilèges d'accès de leur propre personnel. 51% reconaissent qu'ils n'ont pas de garanties et 21% en savent pas s'ils ont des garanties pour prévenir qu'un administrateur ou développeur puisse éliminer accidentellement une table ou provoquer intentionnellement des dommages à des bases de données critiques (Hispasec, 18/11/2014). Il faut aussi tenir compte de ce que le réseau public d'aujourd'hui n'est pas fiable pour offrir un niveau consistent de service, fiabilité, sécurité et flexibilité pour les communications de machine à machine, comme dans le cas de l'internet des objets. On a proposé pour celui-çi divers protocoles mais il n'existe pas encore de standard commun malgré que croît de plus en plus la demande pour une connectivité plus sûre (DiarioTI, 1/12/2014). La police britanique a averti que des milliers d'hyperliens à des images de caméras de vidéo, de surveillance et même de moniteurs de bébés, dans des dizaines de pays et territoires, sont apparus sur un site web administré en Russie. Ce sont 4.591 caméras aux Etats-Unis, 2.059 en France, 1.576 en Hollande, 500 en Grande-Bretagne et 378 en Espagne. Et ces liens sont classés par pays et par marque de la caméra (El Mundo.es, 20/11/2014). Il faut aussi tenir compte de ce que les pirates (hackers) tendent à abandonner les attaques individuelles (comme par courriel), préférant attaquer directement les serveurs d'entreprises –spécialement du domaine financier– pour voler las bases de données complètes. Ainsi par exemple, dans l'“Opération High Roller”, 60 entités financières du monde entier ont été affectées, victimes d'une cyberattaque qui en a extrait 60 millions d'euros (El Mundo, 21/06/2014). Kaspersky Lab a aussi découvert comment plus de 100 banques de 30 pays furent affectés par un vol électronqiue massif au moyen d'une opération sophistiquée en plusieurs étapes. Les pirates arrivèrent à s'introduire dans les 8 “DBA – Security Superhero: 2014 IOUG Enterprise Data Security Survey”

ordinateurs d'employés de banque en Russie, Suisse, Japon, Hollande et Etats-Unis, observer leur façon de travailler et ensuite imiterles patrons de leurs transactions pour tranférer de l'argent à de faux comptes aux Etats-Unis et en Chine, et même faire que des distributeurs de billets en dispensent aux complices qui y attendaient (The NewYork Times, 15/02/2015). Les histoires médicales semblent aussi un matériel intéresant }a voler: près de 80 millions, de citoyens du monde entier, ont été volés d'une importante compagnie d'assurances (Hipertextual, 5/02/2015).

Deuxième Partie: Espions (Que font-ils avec nos données et comment)

5. Qui nous épie Les capteurs de données personnelle, dans le monde d'internet, en sont pas tous équivalents et n'ont pas les mêmes objectifs. Les entreprises peuvent informer sur ellesmêmes, leurs activités, produits ou services sur la toile, et presque toutes essayent d'utiliser les contacts obtenus sur la toile ou leurs apps pour miuex connaître leurs possibles clients et rentabiliser la relation. Les gouvernements offrent et captent des informations pour orienter leur gestion et améliorer leurs services... et réalisent des activités d'espionage pour protéger leur sécurité. Les politiciens sont intéressés par l'opinion publique en tentent de l'influencer. Et n'oublions pas les pirates (hackers) qui essayent d'accéder à des informations réservées, services financiers, infrastructure, etc. avec les intentions les plus obscures. Les institutions académiques, en plus de se faire connaître, offrent de plus en plus souvent des alternatives d'enseignement à distance et publient les résultats de leurs projets de recherche mais, dans ce sens, elles peuvent être considérées dans la même catégorie que les autres entreprises qui tentent de mieux connaître leur public-objectif. 5.1. Les entreprises On en conçoit aujourd'hui aucune entreprise qui en soit presente sur le net, au moins au moyen d'une page web. Dans ce sens, toute affaire est –au moins en principe– un “émetteur” de données, au moins avec de l'information sur elle-même mais, surtout, comme un important canal de vente, comme découvrirent rapidement celles qui “entrèrent” à la toile quand elle s'ouvrit au commerce en 1995. Elle permettait non seulement offrir produits et services et établir des contacts avec des clients: el permettait que les ventes se fassent aussi directement “en ligne”, ce qui pouvait transformer le commerce local en commerce mondial. Elle permettait aussi d'offrir une plus grande diversité de produits et obtenir des bénéfices de produits vendus en moindre quantité (le phénomène de la “longue queue” décrit par Chris Anderson). Ainsi est né le commerce électronique ou e-commerce, qui a crû de 400% entre 1999 et 2009. Et il a continué à croître, comme montre le dernier rapport de la Internet Society:

Une étude récente a découvert que 27% des consommateurs ont fait leur dernier achar en ligne. Bien que le dernier recensement des Etats-Unis a montré que 5,8% seulemement des ventes au détail se fait électroniquement, une étude de McKinsey a déterminé que ses marges opératives pourraient augmenter de cette façon de 60% (Forbes, 5/04/2014). Opérations en ligne détectées en 60 secondes par Ever Merchant

Source: Ever Merchant.com, 10/07/2014, 18h30 (registre d'1 minute en temp real) 40

L'avenir de beaucoup d'entreprises dépend de ce qu'elles se rendent compte de ce que le client est maintenant le principal protagoniste et se concentrent sur sa satisfaction. Le plus important pour elles est d'offrir au client une expérience agréable, pour qu'il la fasse connaître à son réseau de contacts. Et cela implique aussi prendre conscience de l'importance des réseaux sociaux. 75% du commerce électronique reposait sur les réseaux sociaux (en particulier Facebook, Twitter et Pinterest) en 2013 y 74% des acheteurs se basent sur les opinions données sur ces réseaux selon Forrester Research et Business Insider (Socialmedia Today, 11/04/2014). Alors qu'Amazon est devenu leader de commerce électronique, facturand plus de 67.000 millions de dollars en 2013 (Applesfera, 7/05/2014), un autre secteur a vu naître des firmes spécialisées dans l'utilisation du réseau. A part Amazon, celles qui dominent sont principalement Facebook, Google, Yahoo, Twitter et eBay. Facebook, Google et Yahoo sont celles qui accumulèrent le plus de bénéfices en 2013 selon Business Insider. Google representait 25% de tout le traffic d'internet en 2013 (PC World, 22/07/2013). Evidemment, les réseaus sociaux sont les “grands” de la toile. Mais ils en sont pas en soi des générateurs de données: ce sont essentiellement des moyens de diffusion personnalisés... et des “requins” qui dévorent d'énormes quantités de données secondaires associées aux activités de leurs utilisateurs. Facebook, Google+, Twitter et Youtube sont les plateformes les plus utilisées, avec 77% de l'audience active en ligne, et les deux tiers de ceux-çi se connectent avec des mobiles, selon le rapport “Social Media 2014” de la Online Business School (El Mercurio, 12/05/2014). Il n'existe rien de comparable aux bases de données de Google, Facebook, Amazon et eBay dans l'histoire du commerce traditionnel non numérique (Xataka, 9/01/2015). “Pour Facebook, cela se traduit en ce que chaque utilisateur du réseau social a une valeur de 1,60 euros par trimestre. Twitter peut arriver à extraire des centaines d'euros par an en valeur de ses profils les plus actifs. Ce en sont pas des quantités surprenantes, mais en les multipliant par les centaines de millions d'utilisateurs de ces services, les comptes sont ronds.” (Ángel Jiménez de Luís, El Mundo.es, 20/11/2014) La possibilité de réaliser des opérations financières en ligne, après avoir intéressé les banques, a aussi amené de nouveaux “joueurs”, dédiés à s'offrir comme intermédiaires pour réaliser es payements, comme PayPal, née en 1998. Avec l'apparition des téléphones “intelligents”, ce type d'opération s'étend et l'on progresse vers la généralisation des “payements mobiles”, généralement administrés par de grandes entreprises déj}a établies sur la toile (Apple Pay, Google Wallet, Amazon Coin, etc.). Selon l'étude “Mobile Payment Strategies: Remote, Contactless & Money Transfer 2014-2018”, de la firme Jupiter Research, en 2014 le marché des payements mobiles aurait pu croître de 40% en relation à l'année antérieure, arrivant à un montant de 41

507.000 millions de dollars (El Mercurio, 28/04/2014). “Les banques qui en seront pas préparées pour de nouveaux concurrents comme Google, Facebook ou Amazon devront faire face à mort sûre” écrivit dans le Financial Times Francisco González, conseiller délégué de la BBVA (The Next Web, 14/04/2014). 5.2. Les gouvernements Les organismes internationaux et les gouvernements n'ont pas tardé à se rendre compte de l'intérêt qu'ils auraient à opérer de façon intégrée avec les grandes quantités de données qu'ils peuvent accumuler. La quantité des applications et emplois possibles n'a pas laissé indifférente la Commission Européenne. Elle a demandé aux gouvernements nationaux d'”ouvrir les yeux face à la révolution des Big Data” et, en plus d'établir une série de superordinateurs et de créer une incubatrice de données ouvertes, a proposé de réaliser une cartographie de normes sur les données, identifiant les possibles lacunes et proposant de nouvelles règles au sujet de la “propriété des données” et de la responsabilité de leur offre (TICbeat, 5/07/2014). Comme le signalent les analystes de l'Union Internationale des Télécommunications: “Les «big data» renferment de grandes possibilités de contribuer à générer une information nouvelle et révélatrice, et il existe un débat de plus en plus intense sur la façon dont les entreprises, les gouvernements et les citoyens peuvent maximiser les bénéfices qu'elles apportent. Si le secteur privé fut le premier à employer les «big data» pour améliorer son efficience et augmenter ses revenus, la pratique s'est étendue à la communanuté statistique mondiale. La Commission de Statistiques des Nations Unies et les bureaux nationaux de statistiques analysent des façons d'utiliser les sources de «big data» pour élaborer des statistiques officielles et accomplir au mieuxleur mandat e faciliter ponctuellement les prueves qui soutiennent la formulation des politiques publiques. Les inquiétudes les plus urgentes sont en relation à la normalisation et l'interfonctionnement des analyses de «big data», et aussi avec l'intimité, la sécurité et la continuité. Il est fondamental de résoudre les problèmes relatifs à l'échange et l'utilisation des données et, de ce fait, il est important que les créateurs et utilisateurs de «big data» coopèrent étroitement dans ce domaine, entr'autres faisant connaître l'importance et les perspectives de nouvelles réflexions en créant des associations publiques-privées pour profiter pleinement des possibilités qu'offrent les«big data» en faveur du développement.” (UIT, 2014b, p.40)

Cités intelligentes

La croissance des villes fait surgir de plus en plus de problèmes et de conflits complexes, l'administration devenant un défi énorme pour les gouvernements, surtout pour les services de transport,la sécurité, l'éducation, les communications et les espaces publics, les solutions devant compter sur la participation du secteur privé et des citoyens. La technologie des détecteurs et de l'analyse de big data se présente, maintenant, comme une alliée fondamentale et indispensable pour trouver ces solutions. De cette façon, on peut développer des “cités intelligentes” (Smart Cities). “Une ville intelligente est la gestion créative des villes avec la dernière technologie tant dans le design et la planification comme dans l'optimisation de tout le processus pour les rendre plus productives et écologiques”, explique Anthony Townsend, spécialiste de planification urbaine et directeur de recherche de l'Institute for the Future (L.Zanoni, p.130). Selon le rapport “Smart Cities: Estrategias, energía, emisiones y ahorro de costes 20142019”, publié par Juniper, les systèmes de gestion intelligente du traffic réduiront les bouchons et les émissions correspondantes de pollution par les véhicules. La réduction totalle d'émission de CO2 pourrait atteindre 164 millions de tonnes en 2019. L'illumination des voies publiques, la distribution de l'energie et les services de transport en commun pourraient être radicalement améliorés selon les experts de la firme (PCWorld.es, 15/01/2015). A la fin de 2015, les villes intelligentes auront utilisé 1.100 millions d'objets connectés et, cinq ans plus tard, ce chiffre atteindrait 9.700 millions (TICbeat, 20/03/2015). Selon le IV Rapport sur l'IoT (Internet des Objets) de l'Institut VINT de Sogeti (nov.2014): “Les Smart Cities supposeront un investissement de 87.000 millions d'euros entre 201 et 2020. L'évolution rapide des villes intelligentes est poussée par le fait de ce que, si la moitié de la population mondiale vit actuellement dans des villes, en 2050 cette proportion sera de 75%. D'autre part, actuellement, 80% des émissions de CO2 et 75% de la consommation d'énergie se produit dans les villes et elles génèrent 80% de la richesse économique.” (NetworkWorld, 9/12/2014). Le gouvernement de Paris, par exemple, a approuvé le projet “Paris Smart City 2050”, à charge de la la firme d'ingénieurs Setec Bâtiment y de l'architecte Vincent Callebaut. Son principal objectif esra de transformer la capitale française en “ville verte” et réduire les émissions polluantes jusqu'à 75% pour cette date. Le projet intégre des éléments qui transformeront fortement le paysage urbain, avec –par exemple– de grandes tours résidencielles capables de produire leur propre électricité grâce à leurs cellules solaires et boucliers thermiques (Xataka, 21/01/2015). 43

Paris 2050. Source: vincent.callebaut.org

New York, pour sa part, prétend transformer la Rue 42, une des plus utilisées de Manhattan, en incorporant un système de transport électrique, des dispositifs de récolection de la pluie, le recyclage des résidus életroniques, des cellules photovoltaiques, des points WiFi, des jeux pour enfants et un parc dont la communauté locale serait responsable (Xataka, 20/01/2015).

Nueva York. Fuente: Xataka, janvier 2015 44

5.3. Les politiciens Si grâce à l'analyse de données les entreprises peuvent obtenir des informations utiles sur leur public objetif, les politiciens peuvent aussi utiliser ces instruments pour connaître les comportements, goûts et préférences de leurs électeurs et planifier leurs campagnes politiques. “De cette façon l'a compris l'équipe de campagne de Barack Obama pour utiliser les Big Data en bénéfice du candidat démocrate, qui arriva à la présidence des Etats-Unis en 2008. La stratégie, expliquée avec le maximum de détail par l'espagnol Diego Beas dans le livre «La reinvención de la política», a consisté en réunir la plus grande quantité possible d'utilisteurs, de croiser les bases de données, extraire toute l'information possible et l'employer pour maintenir le contact avec l'électorat de chaque Etat, acheter de la publicvité dans les réseaux sociaux et, fondamentalement, réunir des fonds. «Nous mesurerons tout», a dit le chef de campagne, Jim Messina, qui forma une équipe dédie seulement à la data analytics.” (L.Zanoni, pp.83-84) 5.4. Les pirates (hackers) Les cyberdélinquants migrent aussi vers l'obtention et l'analyse des grandes données (Big Data) et ont développé de nouvelles capacités pour tenter de voler du matériel sensible de façon massive. Les gouvernements, les cartes de crédit, les donnée médiclaes et les appareils de l'Internet des Objets seront le centre principal de leur attention en 2015, dit le journal ABC (ABC.es, 9/01/2015). Les dispositifs mobiles seront aussi de plus en plus objets d'attaques pour en voler l'identification et clé d'accès, qui seront utilisés comme porte d'entrée aux applications et données des entreprises basées dans le “nuage” (cloud computing). Le président Obama a rappelé que “dans les cyberattaques récentes, plus de 100 millions de nordaméricains ont vu compromise leur information personnelle, comme celle de leurs cartes de crédit” et a annoncé une loi qui obligera les banques à avertir leurs clients si les données de leur carte de crédit ont été volées. D'autres msures seraient dirtigées à pénaliser la vente de logiciels d'espionnage et les réseaux “zombis” ou “botnets” utilisés pour voler de l'information financière, transmettre des messages de publicité non désirée et mener des attaques de dénégation de service contre des sites web (El Mundo.es, 13/01/2015). A mesure que croîtra l'Internet des Objets (IoT, Internet of Things), elle sera une autre source apétécible d'information, laquelle – pour le moment – est très mal protégée. Et tous ces objets peuvent être la porte d'entrée pour “pirater” les maisons et les véhicules ou, au travers d'eux, pénétrer les systèmes des entreprises qui leur prètent service. 45

Un autre secteur qui intéressera de plus en plus les criminels sera celui de la santé. “Probablement, 2015 sera l'année où nous verrons apparaître les attaques aux compagnies de santé et à celles qui enregistrent las données médicales de leurs affiliés”, assurent les experts. Et la raison en est que les histoires médicales contiennent une grande quantité d'information personnelle qui peut être utilisée dans une multitude d'attaques et de types de fraudes(ABC.es, 9/01/2015). “Avec la prolifération des dispositifs connectés à internet dans les hôpitaux, le risque de ce que les informations qui y sont contenues dispparaissent est chaque fois plus grand”, avertit McAfee dans un rapport de sécurité. Ces données “ont plus de valeur que celle des cartes de crédit” aux yeux des pirates informatiques, estime cette firma spécialisée (DePerú.com, 9/12/2014).

6. Pour quoi? 6.1. Le marketing Dans l'emploi, chaque fois plus intensif, de l'information numérique, la plupart des entreprises se limite à l'information relative à ses propres processus y les données appelées “structurelles”, relatives à leur personnel et leurs clients, ç-à-d. les données typiques d'identification (noms, adresse, fonction), les produits acquis, les payements, etc. qui s'obtiennent facilement et directement au moyen de formulaires web. Mais, comme nous le savons, chaue contact électronique génère un autre type de données, qui ne sont pas toujours colectées et analysées, auxquelles on peut encore ajouter les informations publiques et privées que les clients ont publié sur la toile et les réseaux sociaux. Et tout cela peut être accumulé de façon structurée (en fonction de variables prédéfinies) ou non-structurée (comme les commentaires, les “changements d'état” dans les réseaux sociaux, et les listes de “suiveurs”), formant ainsi les big data. Dans le monde corporatif, on estime que près de 80% des données disponibles sont ces nonstructurées, qui rendent nécessaires des technqiues d'analyse complexes. Selon TICbeat, “Il y a peu d'exemples d'entreprises qui mettent complètement en marche aujourd'hui des projets de Big Data et il y en a encore moins qui en voient la valeur. De fait, dans un rapport de Gartnet, seulement 8% des entreprises enquêtées ont développé un projet de Big Data en 2014 et 57% d'elles reconnaissent n'être encore qu'aux étapes de recherche et planification” (TICbeat, 14/01/2015). Le principal probl}eme est le manque de professionnels adéquatement préparés: les “scientifiques de données”. Selon un étude divulguée par Diario TI, 86% des directeurs considèrent même que pour profiter vraiment des données dont ils disposent, il serait nécessaire que tout leur personnel soit capable de les gestionner, mais 91% que les meilleures analyses sont celles faites par des scientifiques de donnéesspécialement formés (DiarioTI, 5/11/2014). Connaissant comme il le font l'avantage de compter avec les meilleures analyses pour prendre des décisions et augmenter l'efficience de leurs entreprises, il sont à la recherche tant de spécialistes comme de solutions informatiques d'application plus facile. Queles sont les usages que les entreprises donnent aux instrments d'analyse de données ? Principalement (48%) l'analyse du comportement des consommateurs (Betanews, 21/11/2014).

Source: Datameer (nov.2014, vía Betanews)

La prédiction de ce comportement est un des domaines qui inéresse le plus et on esp}ere que le marketing prédictif personnalisé, sur la base des réseaux sociaux, soit un des domaines des affaires qui profitera le plus des analyses de big data dans les années à venir, malgré que 71% des directeurs de marketing du monde entier disent que leur organisation n'est pas préparée pour faire face à cette explosion de données dans les prochaines trois à cinq années (Business Insider, 12/05/2014). Et c'est qu'analyser ces montagnes d'informations de telle façon que l'on en obtienne quelque chose d'utile n'est pas une tâche facile, comme le montre le fait de ce que les grands “collecteurs” comme Facebook, Google, Twitter, LinkedIn et quelques autres ont recours à l'intelligence artificielle et ses techniques d'“apprentissage profond” pour explorer les données qu'ils accumulent sur leurs réseaux, depuis les conversations jusqu'à la reconnaissance des faces sur les photos et les actions réalisées au cours des jeux vidéo. Ainsi, ils ont le potentiel de personnaliser beaucoup plus leurs services. Et ils font émerger de nouveaux domaines de margeting: le groupement d'audience (clustering), le marketing prédictif et l'analyse des sentiments face aux marques. Mais l'intelligence artificielle n'est pas toujours nécessaire: des entreprises comme Netflix9 peuvent extraire les tendences et offrir des contenus proche des intérêts de leurs clients (comme peut le faire aussi la presse, mais où c'est encore extrêmement rare), sans nécessité d'intelligence artificielle: un bon système de classification et un logiciel élémentaire de satistiques suffisent.

9 Le canal de télevision sur internet.

6.2. Le commerce de données Si bien Google, Facebook et Twitter déclarent utiliser les “traces” que nous laissons avec nos activités chez eux pour “améliorer leur service”, ils le font aussi pour obtenir des rentrées extra grâce }a la vente de ces informations. Ainsi, “Au lieu de lancer un message en se basant sur des estimations d'audience, les annonceurs peuvent maintenant segmenter leurs communications à un niveau de détail imprensable il y a seulement une décade. Si, par exemple, je désire que mon annonce arrive seulement à des jeunes célibataires du quartier de Salamanca à Madrid, je peux maintenant le faire. Si je préfère des femmes de plus de 60 ans avec des petits-enfants à Bilbao, aussi. Mon restaurant peut montrer de la publicité sur la navigateurs de ceux qui se ont des codes postaux proches ou mon magasin de vêtements peut annoncer les dernières nouveautés à côté des résultats de recherche aux foyers qui ont une rente de plus de 80.000 euros. Pour Facebook, cela se traduit en ce que chaque utilisateur de ce réseau social à une valeur proche de 1,60 euros par trimestre. Twitter peut arriver à exprimer des centaines d'euros par an en valeur de ses perfils les plus actifs. Ce en sont pas des valeurs surprenantes, mais en les multipliant par les centaines de millions d' utilisateurs de ces services, les comptes sont ronds.” (El Mundo.es, 20/11/2014) Si bien ces données, en général, sont rendues anonymes, nous savons qu'il est facile de croiser diverses sources pour obtenir un profil unique et réel (qui en serait plus anonyme) de n'importe quel utilisateur. Il n'y a pas le moindre moyen de nous caccher, } a part abandonner les communications numériques. C'est pourquoi notre identité et nos données sont le prix que nous devons payer pour les utiliser:

“Le prix, c'est toi-même.”

Les réseaux sociaux ne sont pas les seuls à coleccioner et vendre nos données. Toutes les applications (“apps”) que nous déchargeons et installons sur nos mobiles demandent des autorisations pour utiliser diverses ressources du système d'exploitation “pour fonctionner correctement” et ainsi exécuter les tâches propres de leur fonctionnement (A côté, le cas de Facebook). Mais pas toutes sont “propres”. Dans le cas d'Android, chaque app signale avant de s'installer les autorisations qu'elle désire obtenir (on peut aussi les consulter sur le menu Ajustes/Applications)10. Dans le cas du iPhone et du iPad, il n'y a pas de demande avant l'installation mais bien après (aussi visible sur le menu d' Ajustes). Quelques exemples sont la possibilité de lire l'état du téléphone, modifier le stockage, accéder à la localisation, lire et modifier(!) la liste de contacts, lire le registre des appels et prendre des photos. Bien de ces cas ne se justifient aucunement mais, en cas de refus, le logiciel en fonctionnera pas. Un des thèmes les plus délicats est celui des informations médicales, un problème qui croît en même temps que se multiplient les apps relatives à l'état physique (fitness) et l'usage des moteurs de recherche par les patients qui veulent en savoir plus sur leurs malaises. A ce sujet, un cherceur de Pennsylvanie, Tim Libert, a créé un logiciel pour analyser les pages web en vue de savoir vers où allaient les recherches et l'a appliqué à la médecine. Il découvrit que 91% des pages faisient des appels (et envois de données) à des tiers lorsqu'on faisait une demande. C'est-à-dire que lorsqu'on cherchait une information sur une maladie et on clicquait sur un lien, il était très probable que l'information de ce fait soit communiqué à une autre entreprise. Selon Libert, la firme Experian (de commerce de données), par exemple, est présente dans 5% des pages 10 Avec la nouvelle version M de Android, il serait posible d'administrer ces autorisations de façon individuelle.

relatives à la médecine mais personne en sait quelles donnés elle conserve ni comment elle le fait (Xataka, 24/02/2015). Il y a deux ans, un canadien s'est surpris quand il commença à recevoir de la publicité sur des appareils de ventilation continue durant le sommeil, après avoir cherché de l'information sur les appareils pour traiter l'apnée du sommeil. L'enquête révéla que sa recherche avait provoqué l'installation sur son ordinateur d'un “biscuit” (cookie11) qui provoquait cette sélection de publicité chaque fois qu'il visitait des sites web abonnés au service de publicité de Google. Le régulateur public canadien a averti Google de l'illégalité de ce procédé et la firme a répondu que cela était contraire à sa politique mais que quelques annonceurs en suivaient pas la règle. Une supervision plus rigoureuse lui fut recommendée (Commissariat à la Protection de la Vie Privée du Canadá, 15/01/2014). Une multitude d'éditeurs et annonceurs contineunt à gagner des millions de dollars (ou euros) grâce à l'analyse des coutumes de navigation des utilisateurs. Il existe de plus, souvent, un interconnection de données entre associés, ce qui peut mener à un désordre total, faisant que notre information termine en des lieux que nous ne désirons pas du tout. Ainsi, par exemple, Instagram envoye à trois associés l'information sur la marque et modèle du mobile, le pays, la résolution de l'image, la version d'Android, le nom de l'utilisateur et sa clé d'accès (qui, de plus, n'est pas chiffrée pour la transmission, ce qui extrêmement périlleux). Et un jeux comme Angry Bird va beaucoup plus loin: il informe du navigateur prédeterminé, du type de connection lorsqu'on joue, de l'opérateur mobile, la liste des capteurs, la version d'Android, la marque et le modèle du téléphone, son identification de fabrication, le type d'audio, le pays, le numéro IP, le type d'alimentation électrique, la résolution d'écran et autres données techniques de l'appareil, le tout étant envoyé à sept sites différents sans aucune protection de sécurité (Xataka, 3/04/2014). Pour comble, il existe des entreprises, comme l'italienne Hacking Team, qui ont développé des “solutions” supposées légales qui permettraient de contrôler depuis les appels téléphoniques jusqu'aux messages de Viber, Whatsapp ou Skype (ABC.es, 7/07/2014). Et pour les éditeurs de média est apparu Reverb Insights, qui offre d'analyser les intérêts de chaque lecteur et les comparer à ceux des autres, pour rendre compte de leurs intérêts et permettre l'offre “d'autres textes qui pourraient les intéresser” (TechCrunch, 24/02/2015). Une autre startup, Crystal, analyse à la demande toute l'information disponible sur une personne sur le réseau mondial et la synthétise pour déterminer le type de personnalité (elle en en a défini 54 types) et conseiller ensuite sur 11 La plupart des sites web commerciaux installent ces petits blocs d'information dans la mémoire des ordinateurs pour «suivre la piste» de leurs visteurs. Les navigateurs ont généralement une option de leurs «Préférences» pour les bloquer, mais quelques sites refusent de se montrer sion les bloque.

la meilleure façon de rédiger un courriel dirigé à cette personne (pour lui offrir quoi que ce soit). 6.3. Études sociales Facebook profite aussi de ses millions de membres et des données qu'ils accumulent pour faire des études sur leur comportement sans les en avertir. En mars 2014, la revue Proceedings of the National Academy of Sciences (PNAS) a publié une de ces études, réalisée en 2012 avec la participation de sociologues de l'Université de Cornell. Ils analysèrent comment se produit la contagion des émotions en fonction de mots positifs ou négatifs contenus dans les notes de nouvelles (feeds) de 689.003 membres du réseau élus au hasard. Le plus questionnable fut qu'ils implantèrent un algorithme qui omettait le contenu positif ou negatif des feeds pour étudier la contagion émotionnelle du type de contenu, observant qu'à peu de mots positifs les interlocuteurs recourraient à plus de mots négatifs et, à peu de mots négatifs, répondaient avec plus de mots positifs. Mais les messages réels étaient ainsi changés sans que les “enquêtés” le savaient, altérant leurs relations! Légalement, Facebook a droit de réaliser ce type d'étude depuis qu'un utilisateur crée son compte, car il l'accepte dans les conditions d'usage qui lui sont signalées. Mais faire des expériences sans en informer les utilisateurs n'est près éthique. Et ce cas est un clair appel d'attention sur la manipulation dont n'importe qui peut être objet sur les réseaux et communautés numériques (BBC Mundo, 30/06/2014).

7. Comment on nous étudie

7.1. La science des données La “science des données” (data science) se diférencie de la science statistique traditionnelle en particulier par la considération de grandes quantité de données nonstructurées, ce qui implique la nécessité de dominer de nouveaux instruments informatiques en plus des connaissances traditionnelles. Un “scientifique de données” doit dominer le calcul multivariable, l'algèbre linéal y matriciel, la programmation en Python et R et les méthodes de vidualisation de données (graphique). Au moyen de la “minerie de données” (data mining), avec les instruments adéquats, peut découvrir des patrons de grande valeur cachés dans la masse des données et, à partir d'eux, formuler une ou plusieurs hypothèses utiles pour les opérations de son entreprise et la mettre à l'épreuve. Ensuite ou en parallèle, il utilise des instruments analytiques qui opèrent sur l'ensemble des données pour obtenir une nouvelle information (“données agrégées”) plus significative que si on considère ces données de façon séparée. Ainsi, par exemple, on peut définir de nouvelles catégories de clients, “croiser” celles-çi avec leur géolocalisation -obtenue de leur téléphone mobile- et, de cette façon, segmenter la publicité mobile selon le type de client et l'endroit où ils se trouvent. On peut mieux connaître ce que désirent les clients, obtenant que leur expérience s'améliore en leur offrant ce qui les attire. L'industrie du tourisme utilise ce système “pour former une carte avec photos selon les iamges que prennent les touristes avec leurs smartphones, en déterminant l'endroit. Si nous entrons à Google Mas, par exemple, nous verons à Paris des centaines de photos différentes de la Tour Eiffel prises par des personnes que nous ne connaissons pas” (Zanoni, p.69). Toutes les données ne sont pas équivalentes et n'ont pas la même valeur ou la même qualité, et l'entreprise doit définir celles qui peuvent lui être utiles. Cela significe aussi que le scientifique de données doit très bien connaître l'entreprise et ses fins, et travailler en étroite collaboration avec ceua qui définissent les objectifs des divers projets. Certaines données peuvent être utiles pour un projet déterminé mais être inutiles pour un autre. Ainsi, les opérations d'analyse peuvent aussi varier selon les objectifs. Les variables de base que considère la science des données sont le volume de celles-çi, la vitesse d'analyse requise (en “temps réel” ou en différé), la variété (type de fichiers et de contenus), la valeur et la véracité de l'information. Cela implique, comme déjà signalé, différentes méthodes de traitement et différentes interfaces (visualisation). (UIT, 2014b, p.39). Un des principaux objectifs de la science des données est de prédire le résultat de 53

certaines actions ou situations et offrir d'avance des suggestions sur ce qui peut être fait dans chaque cas. “Il ne s'agit pas uniquement de prendre de meilleures décisions sinon aussi de réduire la charge du travail nécessaire pour prendre ces décisions. Ces capacités reconnaissent la complexité inhérente à l'analyse Big Data mais font que les solutions soient accesibles aux utilisateurs. Cela s'obtient en analysant les données avec un point de vue scientifique rigoureux et offre aux utilisateurs une explication de la raison pour laquelle une décision est plus recommendable dans des termes qui peuvent être universellement compris. Il est vital que la solution soit intuitive et accessible. Sinon, on ne l'utilisera pas. La data science doit tenir compte, de plus, de ce que la solution finale nécessite évoluer. C'est-à-dire que, non seulement, elle doit avoir une valeur mesurable (et reportable) pour l'affaire, mais aussi avoir des métriques internes qui servent comme source d'information pour l'autoamélioration. Sinon, même la meilleure solution finira par être obsolète.” (Juan Miró, TICbeat, 15/01/2015) Le logiciel adéquat peut faciliter une augmentation significative de la vitesse d'obtention des résultats. Ainsi, par exemple, “une compagnie globale de produits de consommation peut réduire l'obtention de rapports de 6 minutes à 736 microsecondes en temps réel; une entreprise de fabrication peut réduire la présentation de rapports aux clients de plusieurs jours }a quelques secondes; et une entreprise financière a réduit les calculs d'un modèle de vente de 45 minutes à 5 secondes” (Schoenborn, p.9). Il existe quatre types d'analyse de données: • descriptif: “Utilise une statistique de base ou visualisation pour caractériser un ensemble de donnée. Les résultats peuvent montrer des moyennes, totaux, fréquences et peut-être aussi une relation causale. La majorité de l'analytique faite aujourd'hui tombre dans cette catégorie.” • prédictif: Aide à voir ce que peur déparer l'avenir. On employe des modèles statistiques pour pronostiquer une condition comme les rentrées, bénéfices, quote de marché ou résultat opérationnel. L'analyse prédictive se base sur une raltion modelée entre un ensemble de variables indépendantes et s'utilise souvent pour la planification. • prescriptif: Porte l'analyse prédictive à un nouveau niveau au moyen de l'optimisation des meilleurs résultats d'une prédiction. Il tient compte des nouvelles entrées ou restrictions spécifiques d'une situation donnée. • cognitif: Utilise des technqiues et une infrastruture de haut rendement pour extraire les relations entre divers ensembles de données. (Schoenborn, p.8)

Les scientifiques de données peuvent utiliser l'analyse de sept façons différentes selon William Chen: 1. pour préparer et interpréter des expériences pour informer de décisions sur des produits 2. pour construire des modèles qui prédisent un signal et non un bruit 3. pour transformer les big data en une grande image (visualisation) 4. pour comprendre la participation des utilisateurs, la rétention, la conversion et les clients potentiels 5. pour donner à leurs utilisateurs ce qu'ils désirent 6. pour faire des estimations intelligentes 7. pour raconter l'histoire avec des données. (Dataconomy.com, 28/11/2014) Le plan de l'analyse doit pointer vers: • l'habilitation d'un accès partagé et sûr à une information riche et fiable, capable d'absorber des volumes croissants de données, plus variés et à plus grande échelle • construire de l'intelligence dans les transactions opératives au moyen d'analyses rapides et de l'optimisatio de la pile de solutions pour différentes charges de trvail d'analyse • maximiser la disponibilité et les connaissances au moment adéquat pour faire front à plus d'utilisateurs et plus de concurrence, au changement de la demande et à la capacité de récupération au point d'impact. (Schoenborn, p.13) 7.2. Machines et applications 7.2.1. Ordinateurs

A moins que l'on ait recours à un service en ligne (“dans le nuage”), il faut une imporante infrastructure pour pouvoir conserver les données (disques de mémoire) et les traiter avec rapididté (processeurs). L'infrastructure doit être construite spécialement pour obtenir de nouveaux niveaux de connaissance à partir de l'exploitation de toutes les données disponibles. La plateforme requise doit être fluide pour tous les types de fichiers, données et analyses. Elle doit être escalable et hautement flexible, toujours ouverte au grand milieu de données d'aujourd'hui et capable de tirer parti de l'intégration des technologies sociales, mobiles et en “nuage” (Schoenborn, p.13). La capacité d'un système est escalable lorsqu'il peut réaliser una quantité toujours croissante de travail. “Bien pensée, il sera relativement facile d'ajouter de la puissance de processeur et de conservation. Les besoins de machinerie se dérivent des nombres 55

relatifs à l'utilisation actuelle de données, leur croissance prévue, la complexité des analyses et algorithmes sous-jacents, et les objectifs de l'affaire.” (Schoenborn, p.17). Il existe divers moyens d'analyse qui peuvent aider à prédire l'équipement qui pourra répondre à ces exigences. Quelques exemples sont les “System X” et “System Z” d'IBM, qui sont basés sur les processeurs de noyaux multiples IBM NextGeneration POWER8, optimisés pour manier des applications frientes de données. Les System Z offrent un écosystème de type ouvert (open server) qui permet d'opérer avec les système d'exploitation Linux standard ou avecAIX UNIX, alors que les System X supportent Red Hat Linux ou Windows Server. Ces plateformes permettent de choisir l'apparence pour satisfaire une grande gamme de nécessités des centres de données. Mais les applications et les dépôts de données s'offrent aussi de plus en plus souvent comme service “dans le nuage” (cloud computing), ce qui peut être pluséconomique dans bien des cas. Amazon, Microsoft et Google, entre autres, offrent ce type de service. 7.3.2. Applications (Logiciels)

Il existe de multiples alternatives d'applications spécialisées, de divers niveaux de complexité, tant instalables dans des serveurs propres comme opérant “dans le nuage”, Certaines sont de code ouvert (open source) et beaucoup fonctionnent sur des ordinateurs avec système Linux et serveur web Apache. C'est le cas de Hadoop, qui est sans aucun doute le système le plus courant. Hadoop a été créé par Yahoo avec la finalité de faire fonctionner des programmes d'analyse simultanément sur de grands ensembles d'ordinateurs. Comme son code est ouvert, n'importe quel programmateur peut le modifier et développer un code-source propre, ce qui a assuré l'existence d'une communauté de développeurs qui le perfectionnent et partagent constamment. Il a rapidement été adopté comme une des solutions préférées en matière d'“intelligende d'affaires” basée sur l'analyse de big data. Il se compose d'un système d'archive (dépôt de données) auto-organisé, distribué et redondant, et d'un système de traitement distibué qui peut opérer avec des données structurées et non-structurées. Les utilisateurs peuvent introduire les données à partir de multiples sources (blogs, mails, réseaux sociaux, etc.) et ensuite effectuer des consultations (obtenir des résultats d'analyse)au moyen d'une application cliente (cfr. R.Peglar -dans la bibliographie finale- pour plus de détails). Dans la majorité des cas, l'utilisteur doit recourrir à la ligne de commande, une chose que seuls les programmeurs dominent. Peu à peu, cependant, apparaissent des interfaces graphiques qui rendent le système plus “aimable”. Ainsi, Amazon a créé une interface graphique appelée Hue, basée sur le navigateur, mais introduit -semble-t'il- un problème de sécurité (Gigaom, 7/12/2014). IBM a aussi abordé ce probl}eme et offre Alteryx 56

Designer Desktop, un système avec interface de bureau très intuitive, dessinée pour faciliter le travail de l'analyste sans nécessité de dominer des habilités informatiques avancées. Microsoft, dans sa plateforma Azure, offre aussi Stream Analytics et Machine Learning, un moteur d'analyse avancé avec plus de 200 algorithmes. Pour des entreprises moyennes, il y a de multiples applications alternatives d'“intelligence d'affaires” sur internet, entre lesquelles Pentaho, SiSense, RJMetrics, Board, et Looker, avec différentes possibilités de maniement des données (Small Business Trends, 18/03/2015). (Nous n'avons pas vérifé leur adéquation pour une analyse réelle de big data et il est possible qu'ils soient inférieurs à ce qu'offrent IBM et Microsoft). Nous devons rappeler que les grands du réseau, comme Google, Facebook, Twitter et d'autres, commencent à utiliser des techniques d'intelligence artificielle pour développer leur capacité d'apprentissage “profond” à partir des données qu'ils accumulent de leurs connexions, depuis les conversations jusqu'à la reconnaissance des visages sur les photos et les activités de jeux. Ainsi, l'intelligence artificielle sera de plus en plus partie intégrante des systèmes d'analyse de big data. IBM investit des billions de dollars dans sa division dédiée à ce qu'ils appellent “computation cognitive”, un terme que la compagnie utilise pour désigner les techniques d'intelligence artificielle qui opèrenta avec son ordinateur Watson et qu'ils mettent aussi à disposition des grandes entreprises et des gouvernement qui désirent analyser leurs big data pour prendre de meilleures décisions.

8. Notre avenir

8.1. Big data pour tous? Quelques publications d'affaires sur la toile recommandent d'utiliser les big data dans n'importe quelle antreprise. Face à l'excès de données numériques, qui peuvent s'accumuler et sont diffcile d'interpréter, elles prétendent que la solution est simplement de visualiser (graphiquer) et “historier” (storify, donner forme de conte). Mais cela ne vaut généralement que pour la présentation des résultats d'une analyse : il n'est pas possible de manipuler visuellement toutes les données (surtout parce que se mélangent des structurées et non-structurées). Un bon outil de visualisation n'élimine nullement la nécessité de scientifiques de données pour les analyser correctement et générer les résultats. Malgré que ces publications tentent parfois de nous convaincre de ce que ces experts ne sont pas nécessaires, après de nombreuses lectures et après avoir expérimenté avec la minerie de données (data mining) il y a une décade12, nous sommes arrivés à la conviction de ce qu'il n'est pas possible aujourd'hui à quiconque de réaliser une analyse de big data comme il se doit. Dominer les statistiques tout comme la programmation et un système comme Hadoop est indispensable. Alors, il n'est pas possible de travailler sans des scientifiques de données? Pour des entreprises qui ne sont pas en condition de financer une telle équipe de spécialistes et l'infrastructure requise, il est nécessaire, sans auncun doute, de penser à engager une firme qui offre ce type de service, et celles-çi commencent }a se multiplier sur internet. Quelques unes offrent un “paquet” de base gratuit – à décharger ou sur le nuage, avec interface web –, utile pour de petites entreprises (qui comptent au moins avec un professionnel qui comprenne le sujet) et ensuite divers tarifs selon la quantité de contenus et usage de leur nuage. (Seulement à titre d'exemple et sans que ce soit une recommendation, nous pouvons signaler RapidMiner et Rhiza, bien qu'il serait convenable d'évaluer d'abord Alteryx, l'offre d'IBM). Et évaluer ces offres n'est pas facile non plus, car il est généralement difficle de savoir si elles sont à jour et incluent, par exemple, l'apprentissage de machine. L'“état de l'art” dans ce domaine évolue très rapidement. Pour un média qui désirerait prioriser le “journalisme de données” ou voudrait analyser le comportement de son audience en ligne, il faudra sans doute recourrir à ce genre de service. Il est possible que les chercheurs universitaires, avec l'appui de leurs institutions, doivent faire de même, à moins qu'ils ne comptent avec un puissant laboratoire d'informatique. Et les experts signalent aussi qu'il convient aujourd'hui de 12 Cfr. Colle, R (2002).: Explotar la información noticiosa – Data mining aplicado a la documentación periodística. Université Complutense de Madrid.

former les futurs professionnels en matière de concepts et utilisations de ces outils, au moins pour en connaître l'utilité et savoir comment faire des consultations pour obtenir des résultats intéressants (cfr. S.C. Lewis). Alos, comment commencer? Que peut faire pour son compte un professionnel? Nous en parlons à continuation en pensany surtout aux journalistes. 8.2. Big data pour professionnels “Commencer en grand c'est commencer la maison par le toit” nous dit Matti Keltanen, un expert en planification de services numériques. Il faut d'abord savoir quels sont les données importantes à accumuler, étudier les outils adéquats pour leur analyses, réunir une première quantité – suffianste pour una première analyse – et tirer une leçon de l'expérience. Il est essentiel de savoir si l'on va travailler avec des données structurées (comme les bases de données relationnelles) ou non-structurées. Le graphique qui suit montre en première file (en orange) des exemples typiques de données structurées, et ensuite (en bleur) de données non-structurées. Les application pour big data se justifiente seulement si le second cas doit être inclus.

Le plus probable est que l'on dispose déjà d'instruments adéquats (par exemple pour classer des nouvelles accumulées dans une base de données et extraire des statistiques). “Le petit secret du Big data est qu'aucun algotithme ne peut te dire ce qui est important ou te révéler son sens. Les données se convertissent alors en un autre problème qu'il faut résoudre. Partir abordant peu de données (Lean Data) suppose commencer avec des questions relevantes pour l'affaire et trouver la façon de leur répondre au moyen des données, au lieu de passer notre temps à criber d'incomptables ensembles de données” ajoute Keltanen (TicBeat, 19 de mayo 2013). Les journalistes, comme aussi la majorité des enseignants du domaine des 59

communications sociales, peuvent travailler avec certaines quantités de données qu'ils obtiennent soit de sources externes soit de leurs propres recherches. Souvent ces données peuvent être inclues et traitées sur des tables Excel. De plus, Microsoft offre un plugin pour Excel 2010 appelé PowerPivot, qui permet de traiter plus efficacement des ensembles massifs de données (des millions de files). Si l'on a besoin de fonctions statistiques plus avancées (Régression, fonctions non-linéales, séries temporelles, simulations, etc.), on peut utiliser le SPSS de IBM, qui a maintenant un excellent moteur graphique. Evidemment, plus on saura de statistiques, meilleur pourra être l'analyse. Mais l'époque est déjà passée où cela était suffisant pour réaliser une véritable analyse de big data, spécialement parce que le big est beaucoup plus grand et complexe qu'il y a cinq ans (ce qui ne veut pas dire qu'une analyse plus simple ne puisse pas avoir de valeur). Pour la visualisation des résultats, bien l'on recommande le langage R pour manipuler les bases de données afin de les graphiquer et les feuilles d'Excel et SPSS peuvent êtres passées au format requis par R, si toutes les données sont en Excel il n'y a aucune nécessité de connaître et utiliser R. Pour obtenir des graphiques supérieurs à ceux d'Excel, on peut utiliser Tableau, qui a une version libre(Tableau Public: https://public.tableau.com/s/) et même un app pour tablettes qui rend les images tactiles et interactives: Elastic (http://www.tableau.com/be-elastic). 8.3. Vivre dans le nuage D'une certaine façon, nous sommes en train de créer un double de notre mémoire dans le nuage digital: “Nous enmagasinons nos mémoires dans les énigmatiques serveurs d'internet. Il y a la chronologie de Facebook qui enregistre les moments les plus significatifs de notre vie, le compte d'Instagram où nous gardonsnos portraits, le plateau d'entrée de Gmail qui documente nos conversations et le canal de Youtube qui transmet comment nous nous mouvons, parlons ou chantons. Nous coleccionnons et conservons nos souvenirs de façon beaucoup plus exhaustive qu'auparavent, tentant d'obtenir dans chaque cas une certaine forme d'immortalité.” (BBC Mundo, 8/02/2015) Si nous utilisons le nuage pour garder aussi nos fichiers – ce qui peut être une bonne mesure de sécurité mais très mauvaise du point de vue de l'intimité si nous en les chifrrons pas –, nous agrandissons encore plus ce “double” de notre histoire personnelle. Et si cela en nous parait pas suffisant, on a créé un nouveau service d'internet – appelé Eterni.me – qui prétend assurer que les souvenirs d'une personne soient conservés en ligne après sa mort. Dans ce cas, il faut autoriser en vie le service pour qu'il aie acc}es aux comptes personnels de Twitter, Facebook et courriel, copie des photos, données de 60

géolocalisation et même enregistrements faits avec les lunettes Google Glass. Ces données, filtrées et analysées, sont transférées à un avatar d'intelligence artificielle qui essaye d'émuler l'apparence et la personnalité du client. “Il s'agit de créer un légat interactif, une forme d'éviter d'être complètement oublié dans l'avenir”, dit Marius Ursache, un des créateurs d'Eterni.me. “Tes arrière-arrières enfants utiliserons cela au lieu du moteur de recherche ou une chronologie pour accéder à l'information sur toi, depuis les photos d'événememts familiers jusqu'à tes opinions sur certains thèmes, en pássant par les chansons que tu as écrites et n'as jamais fait connaîtres”, ajoute-t'il (BBC Mundo, 8/02/2015). Quelle manière de renoncer à l'intimité! 8.4. La Cinquième Ere Ray Kurzweil nous avertit que la technologie avance à un rythme croissant, car le changement technologique est exponentiel. La “Cinquième Ere” de l'évolution universelle commencera quand la technologie prendra le contrôle de sa propre progression, ce qui – selon son calcul – aura lieu au cours de siècle actuel. La cinquième ère “Sera la résultat de la fusion entre l'énorme connaissance logée dans nos cerveaux et la capacité énormement supérieure, la vitesse et l'agilité pour partager l'information de notre technologie. La cinquième ère permettra que notre civilisation humaine-machine transcende les limitations des seulement cent billions de connexions extrêmement lentes du cerveau humain.” (p.22) Cela ser le produit des avancements dans trois domaines: en biologie (spécialement l'étude du cerveau), la nanotehcnologie et la robotique. Nous voyons déjà comment les téléphones et les bracelets “intellugents”, les processeurs et les détecteurs commencent à entrer dans nos vêtements. ET la médecine commence à les implanter dans le cerveau pour solutionner des problèmes graves d'épilepsie et de Parkinson. Elle aborde aussi le cas de l'Alzheimer, une voie qui pourrait nous ouvrir à l'ampliation de notre mémoire de façon artificielle au moyen d'implants de puces de mémoire. En même temps, nous voyons comment avancent les systèmes qui permettent non seulement le contrôle mental par le cerveau de nouvelles prothèses et même la communication de cerveau à cerveau. EN mars de 2014, une équipe de scientifiques a obtenu que deux personnes communiquent mentalement avec un “hello” et un “ciao” à plus de 7.000 kilomètres de distance, entre la France et l'Inde. Cela fut possible grâce à un bonnet de dernière génération qui lisait l'activité cérébrale du seujet indien et envoya ces mots à un récepteur français qui avait d'un dispositif de neurostimulation (Transcraneal Magnetic Stimulation; grafique suivant).13 13 Plos One, "Conscious Brain-to-Brain Communication in Humans Using Non-Invasive Technologies", 19/08/2014

Source: Plos One, 19/08/2014

Mais, selon Kurzweil, la cinquième ère ´va encore plus loin. Durant la décade de 2020, nous pourrions commencer à disposer de machines capables de conserver une copie du contenu de faire un duplicatat complet de notre cerveau. En 2045, nous serions capables de garder cette copie dans le nuage d'internet. “Il y a déjà des ingénieurs qui travaillent à la technologie qui permettra de créer des copies complètes de notre esprit et des souvenirs qui persisteront après que nos corps soient enterrés ou brûlés” nous avertit la BBC (BBC Mundo, 8/02/2015). Et l'union de ce type de progrès avec ceux de la nanotechnologie et de la robotique feront que le cerveau humain multiplie des milliers ou millions de fois sa capacité et même qui soit reproduit dans les clones artificiels. “Des nanorobots plus sophistiqués serviront d'interfaces avec nos neurones biologiques pour améliorer nos sens, apportant ainsi une réalité virtuelle et augmentée provenant de l'intérieur du système nerveu. Ils aideront aussi notre mémoire et réaliseront d'autres tâches routinières. Nous serona alors des cyborgs, et à aprtir de ce point d'appui à l'intérieur de nos cerveaux, la partie non biologique de notre intelligence étendra exponentiellement ses capacités. En dernier terme, les humains basés sur du logiciel dépasseront amplement les limitations humaines telles que nous les connaissons aujourd'hui. Ils viviront dans la toile, projetant leurs corps quand ils le désirent ou nécessitent, ce qui incluira 62

des corps virtuels dans différents domaines de réalité virtuelle, des corps projetés holographiquement, des corps projetés au moyen de foglets14 et des corps physiques qui contiendront des essaims de nanorobots et d'autres formes de nanotechnologie. Au milieu du XXIe siècle, les humains pourront étendre leur pensée sans limite.” (Kurzweil, p.372) A moins que l'on n'arrive à un certain moment à créer un double artificiel complet (clone), l'identité en changera pas. Ce double serait évidemment un autre être, qui se modifiera progressivement selon ses patrons. Sera-ce alors aussi un être humain, un robot ou un autre type d'entité intelligente? Voilà une question pour le moment sans réponse. Mais s'il était totalement numérique, ce serait une réalité virtuelle qu'il serait difficile de considérer humaine. 8.5. Questions de sécurité L'“explosion” de données qui se transmettront avec les “vestibles” et autres appareils de l'internet des objets, ajoutées aux données et traces que nous laissons déjà en utilisant nos téléphones “intelligents” pose d'importants problèmes de sécurité, en plus de ceux relatifs à la confidentialité et propriété des données personnelles. Ce qu'oublient les optimistes comme Kurzweil c'est que tout ce qui est connecté et sujet au risque de l'intervention de tiers non autorisés. Nous avons mentionné que les pirates ou hackers sont très intéressés par les données personnelles et trouvent des avantages là où nous pensons le moins, comme l'accès aux fiches médicales, et trouveront aussi comment tirer profit des connexions de innombrables objets de l'internet des objets (IoT). Il n'est pas facile d'être optimiste quean on a lu que, depuis 2012, une erreur dans le protocole de sécurité OpenSSL (le HTTPS visible dans la barre d'adresse du navigateur) permettait à n'importe quel pirate d'accéder à la mémoire d'un serveur et obtenir les données de ses utilisateurs, ce qui incluait leurs noms et clés d'accès, mais qu'aucune compagnie importante n'a pris le problème en compte avant que la situation en soit rendue publique sur la toile au début de 2014(ABC, 9/04/2014). Il est facile d'imaginer les dommages qu'il serait possible de causer en accédant directement à des cerveaux – tant naturels qu'artificiels – qui soient unis à internet, si l'on en prend pas de mesures de sécurité beaucoup plus puissantes que les actuelles. Voici un nouveau domaine où beaucoup plus de recherche et de développement est nécessaire avant de se risquer à connecter des cerveaux humains. Et il faut aussi des campagnes beaucoup plus puissantes de sensibilisation des utilisateurs en matière de protection de leurs données et équipement personnels.

14 Ensembles de nanorobots qui s'unissent comme un nuage (fog).

Conclusion “Il y a les optimistes sur le thème, qui croient que grâce à la récolte et à l'analyse des données la société obtiendra une amélioration substancielle de sa capacité de faire des diagnostics et des pronostics confiables dans de multiples domaines de nos vies. Cette amélioration se traduit, soutiennent-ils, en un monde meilleur, plus efficient et avec ses problèmes résolus. Duncan Watts, scientifique de Microsoft Research et auteur du livre «Everything is Obvious», croit que la `datification´ est très utile pour prendrede meilleures décisions. Son opinion est que«Si nous devions choisir entre un monde dans lequel tout ce que nous faisons se base sur des instincts, traditions, ou une certaine sagesse vague, ou faire quelque chose sur la base d'évidences, je dirais que le second chemin est le meilleur». […] Mais sur le trottoir d'en face sont assis les pessimistes ou, pour mieux dire, les méfiants. Ce groupe suppose, en grandes lignes, que l'usage massif de donnés et d'information apporte }a la fois des dangers dont les conséquences peuvent résulter très graves pour tous.” (L.Zanoni, p.98) Nous croyons qu'il n'est pas possible d'être optimiste aujourd'hui quando on observe ce qui est fait – de façon supposée légale – avec nos données sans notre consentement et ce qui arrive dans le camp illégal (L'entreprise Sophos a détecté plus de 250.000 menaces uniques chaque jour, selon ce qu'à informé son conseiller délégué, Kris Hagerman, au journal El Mundo.es le 25/05/2014). La protection des données n'est pas seulement un problème légal, ce l'est aussi de technologie. Les risques à futur sont trop grands pour laisser tout se poursuivre comme aujourd'hui15. Mais, comme avertit la revue Wired, la rébellion des consommateurs a commencé: 76% des utilisteurs (nordaméricains) vérifie les sceaux de confidentialité en ligne, et 89% renonce à opérer avec une compagnie qui en protège pas bien leur intimité (Wired, 23/03/2015). La recommendation pour les utilisteurs est celle-çi: vérifier les autorisations qu'on leur demande et refuser les services qui en justifient pas bien celles qu'ils demandent. Pour les entreprises, elles doivent les justifier clairement, collecter seulement les données indispensables et en pas les vendre à des tiers. Si nous en cherchons pas “l'immortalité numérique”, réduisons à un minimum 15 Et ils pourraient même augmenter si les Etats-Unis réussissent à signer un nouvea traité de coopération avec l'Union Européenne qui éliminera les restrictions sur la communication des données personnelles que celle-çi maintient pour le moment.

indispensable ce que nous révélons sur nous-même, déchargeons les fichiers que nous avons mis dans le nuage (Dropbox et autres) – ou, au moins, encryptons-les – et effaçons tout ce qui n'est pas utile (comme les vieux messages de e-mail, que beaucoup conservent sans aucune nécessité).

Bibliographie Anderson, Ch. (2007): La economía Long Tail, Barcelona, Urano. Bengio, Y. (2009): "Learning Deep Architectures for AI", en Foundations and Trends in Machine Learning, Vol. 2, No. 1 (2009) 1–127. Descargado el 8/01/2015 de http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf Brownlee, J. (2014): How to Become a Data Scientist, Machine Learning Mastery, descargado el 18/11/2014 de http://machinelearningmastery.com/become-data-scientist/ Burrus, D. (2014): The Internet of Things Is Far Bigger Than Anyone Realizes, en Wired, 26/11/2014, descargado ese día de http://www.wired.com/2014/11/the-internetof-things-bigger/ y http://www.wired.com/2014/11/iot-bigger-than-anyone-realizes-part2 Castells, M. (2014): El impacto de internet en la sociedad, en BBVA, “C@mbio. Cómo internet está cambiando nuestras vidas”, Madrid, OpenMind BBVA Colle, R. (2002): Explotar la información noticiosa – Data mining aplicado a la documentación periodística, Madrid, Depto. De Biblioteconomía y Documentación, Universidad Complutense. Visible en http://issuu.com/raymondcolle/docs/librodmdp - (2013): “Prensa y Big Data: El desafío de la acumulación y análisis de datos”, Revista Mediterránea de Comunicación, vol. 4, nº 1. http://www.mediterraneacomunicacion.org/Mediterranea/article/view/65/133 - (2014): Internet ayer, hoy y mañana, auto-edición, en ISSUU: http://issuu.com/raymondcolle/docs/universointernet -(2015): ¿Ser digital o ser humano?, (en preparación) Dull, T. (2015): “A Big Data Cheat Sheet: What Executives Want to Know”, Social Media Today 25/05/2015, http://www.socialmediatoday.com/technologydata/tamaradull/2015-05-25/big-data-cheat-sheet-what-executives-want-know Fisher, D. (2015): Why exploring big data is hard, OpenVisConf 2015, 65

https://youtu.be/UP5412nU2lI Haikus, E. (2014): Informe sobre Medición de la Sociedad de la Información Resumen Ejecutivo, IUT, En línea en http://www.slideshare.net/eraser/informe-sobre-medicin-dela-sociedad-de-la-informacin-resumen-ejecutivo Hodgson, D. (2014): “The Internet of Things — Total Transparency or Total Control?”, blog Computer Associated, descargado el 28/04/2014 de http://blogs.ca.com/mainframevoice/2014/04/23/the-internet-of-things-total-transparency-or-total-control/ Hope, B. (2014): "A la caza de los datos que valen millones", en Economía y Negocios, El Mercurio, 28/11/2014. Jaokar, A. (2014): Implementing Tim Berners-Lee’s vision of Rich Data vs. Big Data, descargado el 9/12/2014 de http://www.opengardensblog.futuretext.com/archives/2014/12/implementing-timberners-lees-vision-of-rich-data-vs-big-data.html Jiménez de Luís, A. (2014): “Internet nos ha convertido en la generación transparente”, El Mundo.es, Descargado el 21/11/2014, de http://www.elmundo.es/tecnologia/2014/11/20/546dfb Kihn, M. (2014): “What do marketers need to know about Hadoop?”, FirstBiz, 29/11/2014, descargado el 2/12/2014 de http://firstbiz.firstpost.com/biztech/marketersneed-know-hadoop-110723.html Kurzweil, R. (2012): La singularidad está cerca, Lola Books (Original: The Singularity is Near, Viking Press, 2005) Lee, R. (2014): “Privacy, big data and analytics: A perfect storm”, IBM Big Data & Analytics Hub, 6/06/2014, descargado el 18/06/2014 de http://www.ibmbigdatahub.com/blog/privacy-big-data-and-analytics-perfect-storm Lewis, Seth C. (2014): “Journalism in an era of big data: Cases, concepts, and critiques”, en Franklin, B. & col.: Digital Journalism, Londres, Routledge, descargado el 16/12/2014 de http://culturedigitally.org/2014/12/journalism-in-an-era-of-big-data-casesconcepts-and-critiques/ Mortier, R. & col. (2014): Human-Data Interaction: The Human Face of the Data-Driven Society, Cornell University Library, descargado el 6/02/2015 de http://arxiv.org/pdf/1412.6159v1.pdf Nielsen, M. (2013): “Big data: ¿a quién pertenece?”, en C@mbio: Cómo Internet está cambiando nuestras vidas, OpenMind BBVA, pp.83-102. Peglar, R. (2012): Introduction to Analytics and Big Data - Hadoops, Education SNIA, descargado el 5/02/2015 de 66

http://www.snia.org/sites/default/files2/ABDS2012/Tutorials/RobPeglar_Introduction_A nalytics%20_Big%20Data_Hadoop.pdf Rifkin, J. (2014): La sociedad de coste marginal cero, Paidós. Schoenborn, B. (2014): Big Data Analytics Infrastructure For Dummies, IBM Limited Edition, John Wiley & Sons, disponible en http://newsroom.roularta.be/static/19092014/XBM03004USEN-%20BD&%20A%20for %20dummies.pdf Tierney, J. (2014): “Customer Data Privacy has Become an Everyman Problem”, Loyalty36org, 14/03/2014, descargado ese día de http://loyalty36.org/resources/article/customer-data-privacy-has-become-an-everymanproblem UIT (2014a): The World in 2014. Facts and figures, Ginebra, UIT, descargado el 25/11/2014 de http://www.itu.int/go/mis2014 UIT (2014b): Informe sobre Medición de la Sociedad de la Información 2014 - Resumen Ejecutivo, Ginebra, UIT, descargado el 1/12/2014. de http://www.itu.int/en/ITUD/Statistics/Documents/publications/mis2014/MIS_2014_Exec-sum-S.pdf Wessler, M. (2013): Big Data Analytics For Dummies, Alteryx Special Edition, John Wiley & Sons, disponible en http://www.mosaic.geo-strategies.com/wpcontent/uploads/2013/10/Big-Data-for-Dummies.pdf Zanoni, L. (2014): Futuro inteligente, Autoedición, descargado el 13/01/2015 de http://www.futurointeligente.com.ar/ (Disponible en varios formatos)

Table des matières Introduction p.3 1. L'environnement des données 1.1. Evolution technologique p.5 1.2. Internet et la toile p.8 1.3. Les réseaux sociaux et la mobilité p.10 1.4. L'internet des objets (IoT) p.11 1.5. Les “big data” p.15 Première Partie 2. L'identité révélée 2.1. Réseaux sociaux 2.2. Connaître ce qui est révélé

p.16 p.18

3. L'identité extraite 3.1. Des équipements “traîtres” p.20 3.2. Navigation p.20 3.3. Réseaux sociaux p.21 3.4. Téléviseurs intelligents p.25 3.5. L'internet des objets p.25 3.6. Les grandes données (“Big data”) p.29 4. Protection et cession de données 4.1. Droits 4.2. Protection 4.3. Droit à l'oubli 4.4. Se cacher? 4.5. (In)Sécurité

p.31 p.32 p.35 p.36 p.37

Deuxième Partie 5. Qui nous épie 5.1. Les entreprises 5.2. Les gouvernements 5.3. Les politiciens 5.4. Les pirates (hackers)

p.39 p.42 p.45 p.45 68

6. Pour quoi? 6.1. Le marketing 6.2. Le commerce de données 6.3. Études sociales

p.47 p.49 p.52

7. Comment on nous étudie 7.1. La science des données 7.2. Machines et applications

p.53 p.55

8. Notre avenir 8.1. Big data pour tous? 8.2. Big data pour professionnels 8.3. Vivre dans le nuage 8.4. La Cinquième Ere 8.5. Questions de sécurité

p.58 p.59 p.60 p.61 p.63

Conclusion Bibliographie

p.64 p.65