Le débat sur les données personnelles

Analyse des propositions de Génération Libre

2019-05-03

J’ai récemment lu un article très intéressant au sujet des données personnelles et j'ai téléchargé le dossier complet. Je l'ai lu avec beaucoup d'intérêt car ce sujet me concerne et me passionne.

Cependant, étant donné que je suis un ingénieur, je ne peux pas m'empêcher de voir le monde par le côté pratique et je ne redoute jamais plus que les conclusions yakafokon.

Toute critique devant être suivie de propositions, je me permets ici de livrer mon analyse, fondée bien évidemment sur mon point de vue et n'engageant que moi.

Remarques techniques

La donnée personnelle est diffuse et distribuée

Dans le rapport, il est fait allusion à la donnée personnelle. Si des exemples sont donnés, aucune définition claire n’est réellement avancée. Et pour cause : la donnée personnelle est diffuse.

D'un point de vue technique, il faut distinguer la donnée personnelle de la donnée nominative. Lorsqu’on peut déterminer l’identité de la personne du simple fait qu’elle nous a fourni son nom, alors la donnée est nominative. Et, dans le contexte du rapport, il m’a semblé que c’était à la donnée nominative qu’on faisait référence, notamment lorsqu’il s’agissait de faire intervenir des tiers de confiance.

Mais une donnée personnelle n’est pas, ou très rarement nominative.

Prenons un exemple.

Lorsque je suis chez moi, je suis connecté à mon compte Google de façon à disposer des services associés (Gmail, YouTube, etc.). Et Google sait qui je suis et peut associer mes traces de navigation laissées sur ses services à mon nom. Les données sont ici nominatives. Monsieur X.

Lorsque je suis sur mon lieu de travail, je ne me connecte pas à mon compte Google et donc je reste anonyme. Cependant, derrière le clavier, je suis la même personne, avec les mêmes centres d’intérêts. Et donc, au fur et à mesure de mes recherches, Google va déduire que le monsieur Y anonyme qui passe par ses services a des centres d’intérêts similaires à monsieur X. Chemin faisant, au bout d’un certain temps – 2 ou 3 semaines, en fonction du volume de traces qu'il aura accumulées – il commencera à me présenter les mêmes propositions et les mêmes publicités que celles que j’ai lorsque je suis chez moi en tant que X.

Sans savoir qui je suis, il a juste identifié deux profils de comportements semblables. Le but étant de proposer des contenus qui provoqueront des actes d’achats, si X a un comportement identifié, il y a de fortes chances que Y, qui lui ressemble beaucoup, ait les mêmes comportements.

Et si, par le plus grand des hasards, Google avait accès aux données GPS de mon ordinateur de poche motorisé par Android sur lequel je suis identifié et connecté en tant que monsieur X, et que les traces GPS conduisaient temporellement de l’appartement de X au lieu de travail de Y, que les mêmes types de requêtes correspondaient – comme par hasard – aux horaires où X arrive dans le bâtiment et s’interrompaient au moment où il le quitte, il ne faudrait pas longtemps pour déduire que X et Y sont la même personne. C'est en recoupant les données distribuées entre ses services et mon positionnement GPS qu'il peut en déduire qui je suis – et il à fort à parier que dans cet exemple, sans les données GPS, sa déduction aurait été moins précise.

À aucun moment Y n'a donné son identité à Google, mais l’accumulation de comportements similaires et de recoupements de données font qu’il est peu probable que Y soit une autre personne que X.

Notons que la déduction similaire est – par exemple – appliquée à la preuve ADN : parce que la probabilité qu’une personne ayant un profil ADN similaire à l'échantillon de référence est rare qu’on peut en déduire qu’il ne peut y avoir qu’une et une seule personne qui corresponde à ce profil.

Au départ la donnée – au sens de l'ensemble des traces laissées – était anonyme mais, du simple fait d’accumuler les données et de les recouper, elle permet finalement d’identifier une personne de façon quasi certaine.

À quel moment la donnée devient-elle personnelle ? Quelle quantité d’information faut-il pour arriver à identifier une personne ? Il n’y a pas de réponse à cette question et il ne peut pas y en avoir. Tout dépend du type d’informations et de la capacité des traitements à faire les recoupements, les inférences et les reconnaissances de motifs.

Au sens large et par défaut, toute information générée par le comportement d’un individu est donc – potentiellement – une donnée personnelle et devrait être considérée comme tel.

La double comptabilité de la communication

Internet est avant tout un système de communication. Il y a donc au moins toujours 2 intervenants : un client – internaute – et un serveur – service.

Lorsque je navigue sur la Toile, mon navigateur enregistre ma navigation. Il sait où je suis allé – c'est le fameux historique de navigation qu'il est conseillé de vider régulièrement. Mais le service que j’ai visité sait également que je suis venu. Il ne sait pas forcément qui je suis, mais il sait que telle personne, avec telle adresse IP, ayant une machine de tel type, tel système d’exploitation et telle version de navigateur, est venue ici, sur cet article bien précis.

Le client et le serveur disposent donc de – grosso modo – la même information brute.

Cependant, le serveur possède une information que le client n’a pas : le contenu affiché.

Si le service affiche une publicité, il sait laquelle et il peut noter ma façon de réagir. Il peut savoir qu’une personne ayant un matériel Apple récent aura plutôt tendance à cliquer sur les publicités de tel type, alors que la personne qui navigue sur un vieux PC sous Windows aura plutôt tendance à cliquer sur telle autre, alors que l’internaute qui est sur un site, lui, ne connaît pas la mécanique d’affichage des publicités; pour ce dernier, c'est juste une publicité. Cependant, sa façon de cliquer dessus – ou pas – est enregistrée et sert à alimenter des profils. Il se rend juste compte que son comportement est suivi à la loupe lorsque les publicités qui s'affichent sont associées «comme par hasard» à un sujet précédemment consulté.

Les traces de navigation apparaissaient forcément de chaque côté de la communication, il est donc illusoire de penser qu’on peut contenir exclusivement les données « personnelles » chez le client ou un tiers de confiance qui s’occupera de monnayer son exploitation puisque le service consulté possède aussi tout ce qu’il lui faut, exception faite éventuellement du nom de la personne, mais ce n’est pas très important car ce qui compte n’est pas vraiment qui elle est, mais comment elle agit et réagit, de façon à provoquer des actes d’achats efficaces. Son nom ne permet que de valider les profils calculés, mais on peut très bien faire sans.

Un moyen d’empêcher le service d’avoir les traces de navigation du client serait de passer tout son trafic par un proxy qui filtrerait les données et changemerait régulièrement l'adresse IP. La Chine fait ça : l’internaute est bien protégé par son gouvernement, pour éviter la barbarie de l’Internet sauvage et honteusement capitaliste.

L’autre moyen est de passer par un système semblable à Privoxy/Tor… Système que les autorités ne portent pas dans leur cœur et tentent d’empêcher ou de contourner.

Mais dans un Internet libre, la double comptabilité laisse forcément échapper les données personnelles. On ne peut donc pas les contenir. Et lorsqu’elles sont dans la nature, il convient de les considérées comme perdues – comme n’importe qu’autre fuite.

Un contournement facile

La double comptabilité étant aisée, les fournisseurs de services n’ont pas besoin de l’aval – sinon juste pour la forme – des internautes pour accéder aux données. Et l’identification n’est qu’une facilité, pas un pré-requis. Ce qui compte n’est pas la personne, mais le profil d’achat.

D'un point de vue technique, pour avancer sur le sujet de façon claire et sereine, si la loi impose de demander le consentement pour collecter les données réellement personnelles, il faudra d’abord définir ce qu’est une donnée personnelle ou à partir de quel moment elle le devient. Et là, c’est très compliqué, car tout dépend du contexte. Si la législation devient compliquée et contre-productive, il sera aisée de la contourner, simplement en échangeant des données « non-personnelles » mais dont la masse cumulée permettra de définir des profils précis – reposant donc sur la nature diffuse et distribuée de la donnée.

Ainsi, si l’entreprise A ne possède pas assez d’informations pour identifier les individus du simple fait de la nature diffuse de la trace numérique – et je souhaite bien du courage à tout auditeur qui voudrait déterminer que la donnée collectée est personnelle –, que l’entreprise B ne dispose pas non plus de ces informations, rien n’empêche A et B de s’associer, d’échanger leurs données qui, ensemble, permettront de définir des profils – tout en étant toujours anonymes dans le cadre de la loi et du doute raisonnable. Le tout est supérieur à la somme des parties. S’il devient contraignant et compliqué de collecter des données personnelles, de simples données anonymes suffiront… en plus grand nombre, avec des algorithmes plus efficaces.

Ne perdons pas de vue que la simple façon de liker et de retweeter permet de déterminer des profils aussi précis que l’âge, le sexe, l’orientation sexuelle, l’opinion politique… sans même savoir qui est la personne ou bien qu’elle l’ait un jour signalé, pas même à son entourage. Mais simplement par le jeu des recoupements, analyses, agrégations et inférences, on peut déterminer de façon assez précise des éléments que les individus ignorent eux-mêmes.

Qu’est donc la donnée personnelle dans ce cas ?

La mobilité de la donnée

Une autre remarque inspirée du rapport est la notion de mobilité. Une partie des propositions repose sur la capacité technique à conserver ses données et empêcher leur diffusion, sauf dans le cas de conditions contractuelles.

Sur le papier, c’est extrêmement facile, mais en vrai, c’est plus compliqué.

En effet, les données numériques ne sont pas une ressource limitée. Elles peuvent être copiées et recopiées assez aisément, avec un coût marginal presque nul. La seule limitation étant l’espace disque.

Donc penser qu’on peut simplement empêcher la recopie des données juste par des smart contracts, de la blockchain, d’accès multi-signature et d’autres méthodes du même acabit est juste illusoire – surtout vu la masse de traces numériques qui sont générées en permanence et la double comptabilité.

À moins de mettre en place un système à la chinoise, bien centralisé, ou un système de comptable méprisant – comme le HTTPa – il convient par défaut de considérer que toute trace numérique qui fuite sur la Toile devient alors publique à tout jamais. Même dans le cas idéal de données chiffrées et protégées par des contrats intelligents, une fois qu’un destinataire a les droits pour accéder aux données « déchiffrées », et qu’il a la capacité de les lire, informatiquement parlant, toute lecture est une copie locale… alors la donnée est déjà recopiée, sans chiffrement, et peut donc être récupérée tel quel, encore et encore.

Vouloir empêcher la fuite des données personnelles consiterait purement et simplement à détruire Internet et le laisser comme une expérimentation qui a mal tourné – ce qui serait à la fois dommage et faux.

Ces méthodes, pensées selon la position individuelle et limitative, vont malheureusement à l’encontre de la vision internet, collective, qui reste une sorte de grande plateforme d’échange sans entraves, sans comptabilité.

L’image du pâturage et des troupeaux – page 16 – montre à quel point la notion de valeur concrète et donc limitée dans l’espace physique est encore fortement ancrée dans les esprits. Or, la donnée numérique est une ressource potentiellement illimitée, sans risque flagrant de surexploitation, autre que le coût énergétique de maintenance des centres de données. Si je copie des données chez moi, je ne prive personne d'autre de cette ressource. La difficulté à empêcher le partage illégal des œuvres numériques en est un exemple.

La donnée personnelle doit être donc considérée non pas localement, au niveau de l’individu, mais niveau global, l’ensemble des traces sur Internet. Nous nous rendons alors compte du changement de dimension et de difficulté à la contrôler.

Pour quel prix ?

Dans le rapport, l’exemple donné de Facebook fait état de 4 milliards de dollars par trimestre – page 10. Dit comme ça, ça peut paraître énorme, mais rapporté au nombre d’utilisateurs du service – sans tenir compte de ceux qui n’utilisent pas le service mais dont les traces sont collectées malgré tout du seul fait de visiter une page web contenant un pouce bleu Facebook –, ça représente moins de 1 dollar par mois et par personne – en comptant que 100% des 4 milliards soient redistribués. Pas de quoi fouetter un chat !

Ce montant est à mettre en opposition à l’étude du Ponemon Institute, cherchant à déterminer le prix que les individus attribuent à leurs données, allant de 2,90 dollars à plus 75 dollars – page 38 du rapport.

Ce calcul montre et démontre que la donnée personnelle n’a pas énormément de valeur en tant que tel, et que c’est la masse d’informations et la capacité d’analyse qui crée la vraie valeur. La donnée personnelle n’a donc essentiellement de valeur que de façon collective, non individuelle.

Dans le cadre d'une rémunération, déterminer cette valeur reviendrait à mettre en place une série d’algorithmes supplémentaires pour déterminer les revenus revenant à un utilisateur bien précis, ça complique les systèmes, diminue leur efficacité, augmente les coûts – et donc diminue d'autant la rémunération de l’utilisateur. Sans compter que l’identification de l’utilisateur pose de sérieux problèmes de sécurité. Les données diffuses et anonymes doivent devenir nominatives afin de rémunérer la bonne personne. Si les données ne sont plus anonymes à des fins de rémunération, alors toute personne ayant accès au système aura accès à des données précises sur chaque individu, sans l’ombre d’un doute.

Avec un Internet contrôlé de bout en bout de main de fer, en traçant tous les échanges, avec un accès authentifié, c’est effectivement possible. De nombreux gouvernements en rêvent jour et nuit – et pas forcément ceux qu'on croit.

De quel volume parle-t-on ?

L’importance de définir ce qu’est une donnée personnelle permet alors de comprendre la mesure du volume dont nous parlons.

Si l’on considère que la donnée devient personnelle à partir d’une certaine masse critique, alors la donnée personnelle est potentiellement tout ce qui est généré par l’activité d’un individu.

Le volume à stocker est tellement énorme, qu’aucun data lake ne permettrait de les stocker sans dépenser une somme financière et énergétique colossale. Sans compter que, dans le cadre d'une rémunération juste et équitable, le captage de ces données obligerait à passer toutes les activités par un point central à fois sensible, fragile et techniquement difficile à mettre en place. Il faudrait mettre en place des outils pour chiffrer toutes les données entre l’individu et le point de stockage. Cela signifie changer tous les systèmes d’exploitation et les couches logicielles. Cela signifie mettre des mouchards partout.

Un système que, de toute façon, la double comptabilité réduirait à néant, à moins de placer les services eux aussi dans le système. C’est exactement le système que la Chine met en place – avec plus ou moins de succès, mais ils progressent tous les jours. Ce système, en plus d’être lourd, pose un problème de liberté individuelle.

La valeur collective

L’idée de la valeur collective a d’ailleurs été abordée dans le rapport. Et cette notion de valeur collective est associée une contrepartie sous la forme d’une TVA pour la réintégrer dans la chaîne de distribution de valeur.

Cette TVA pose 2 problèmes.

Premièrement, pour que la TVA soit justement répartie, il faut qu’elle puisse être perçue par le pays auquel elle est destinée. Le choix de la position géographique de l’internaute permet de déterminer effectivement le pays… ce qui veut dire que pour qu'un état puisse toucher sa TVA, il faut que la donnée puisse être tracée puisqu'il faut a minima une information sur sa provenance géographique.

De plus, lorsque les données sont agrégées, il est très difficile de savoir d'ou vient quelle donnée. Elle nécessite de mettre des algorithmes en parallèle chargés de rapporter systématiquement l’usage, d’assurer une traçabilité de bout en bout, comme les systèmes de régulation le font actuellement pour les activités bancaires afin de lutter contre les fraudes. Cet audit permanent ajoute un coût supplémentaire.

Sans oublier que les internautes passant par des VPN ou des réseaux anonymisant brouillent cette analyse. Même si on peut considérer qu’ils sont actuellement trop minoritaires pour être comptabilisés et donc négligeables, il y a fort à parier que les habitudes chengeront à l'avenir et que la répartition de la TVA deviendra un enjeu majeur – mais n'ayant pas de boule de cristal, mettons cette problématique de côté.

Note : il n’y a pas que les VPN qui brouillent les positions géographiques, mais aussi d’autres formes de services comme la mise à disposition des adresses IPv6 qui utilisent des tunnels.

Cette détermination géographique n’est pas un problème technique. Elle complique un peu les choses, mais reste réaliste et applicable. Elle impose juste une traçabilité – donc une sorte de surveillance – et à l’encontre de l’esprit du Web, en plus de poser la question de la surveillance généralisée.

Deuxièmement, la TVA serait perçue par un état et non les individus. Si cette rétribution peut convenir à certains, pour d’autres les gouvernements successifs des pays occidentaux n’ayant pas montré une habileté particulière à résorber les dettes mais plutôt les augmenter, cette manne financière supplémentaire ne serait que dilapidée, une fois de plus, sans réellement profiter aux individus. Si on reprend la comparaison avec la création artistique, c’est comme si tous les bénéfices de la création étaient reversés aux producteurs et à l’état sous forme de TVA, et que l’artiste n’en touchait pas un centime.

Depuis le temps que les pays occidentaux rêvaient de pouvoir taxer les GAFA qui gagnaient des milliards sans en reverser de juste contribution du simple fait de l’optimisation fiscale… On leur donne là une solution toute prête – et dont la proportion augmentera très probablement au fur et à mesure qu’ils auront besoin de combler le vides de leurs caisses en taxant non seulement les données personnelles mais aussi des « droits voisins ».

La tentation du système centralisé

Cette perception de TVA amène une fois de plus l’idée d’un système centralisé et centralisateur. Le rapport fait plusieurs fois allusion à l’intervention facile de l’état grâce à un système centralisé.

D’un point de vue technique, si l’état doit être le garant du respect des règles et de la loi, les données personnelles sont un sujet trop sensible pour qu’on lui laisse en plus la gestion. L’expérience d’Edward Snowden a montré que la centralisation facilite l’accès aux données. Un seul point d’accès permettrait à l’état – ou toute autre entité – d’accéder à l’ensemble des données personnelles. Les pays totalitaires rêvent d’un tel système. Et les pays démocratiques n'ont pas montré moins d'appétence.

Les données personnelles ne doivent donc pas pouvoir être centralisées et doivent rester au seul contrôle des individus qui choisiront éventuellement un tiers de confiance. En cas de faille de sécurité, la perte de données reste limitée. En cas de crise de confiance, le tiers de confiance peut être changé.

La donnée personnelle et l'intimité

Si les données pensonnelles sont un sujet aussi sensible, c'est parce qu'elles touchent notre intimité.

Or, le rapport montre entre les lignes la difficulté pour l’humain de gérer la notion d’intimité dans le cadre de l’Internet.

En effet, jusqu’à présent, la vie physique limitée permettait de contrôler très facilement la fuite des données personnelles ce qui faisait que les lois étaient claires et simples.

Cependant, n’oublions pas que la notion de liberté d’expression, bien que libérée pour tous à la Révolution, n’avait que peu de sens dans ce même monde physique. Peu de personnes pouvaient en profiter, à part ceux qui avaient accès aux journaux – politiciens, journalistes – ou ceux qui en possédaient un. Cepemndant, l’arrivée d’Internet a permis à tous de publier et de mettre à disposition du monde entier son propre contenu. La liberté d’expression a alors pris tout son sens, avec des conséquences nouvelles, même si, dans la plupart des cas, nous la prenons encore trop à la légère.

De la même façon, peut-être que notre idée des données personnelles est encore trop attachée à notre habitude des limitations du monde physique et que nous les prenons un peu trop à la légère également. Internet, en les mettant à disposition du monde entier très facilement, ne fait que rappeler à quel point elle sont sensibles et importantes. Nous ne pouvons pas les disperser aux quatre vents, en pensant qu’il n’y aura aucune conséquence. Peut-être que leur destin est de rester attachées à la personne et, tout comme la personne, ne pas pouvoir être vendues ou achetées ? Peut-être que le fait de vouloir les posséder, les concéder, les vendre, c’est vouloir le beurre et l’argent du beurre ?

La donnée personnelle étant le résultat de l'activité d'un individu, les traces qu’il laisse sont, à l’image du principe de Lockart, un transfert. Il n’y a aucune créativité à laisser des traces par où l'on passe. Si tel était le cas, les criminels pourraient – pontentiellement – réclamer une rétribution du seul fait d’avoir laisser des traces sur les lieux d’un crime. Nous pourrions payer un café dans un bar rien qu'en laissant une empreinte sur un verre – et peut-être même demander le change.

Le rapport fait allusion à la donnée personnelle comme pouvant être considérée comme une œuvre de l’esprit. Pourquoi pas – même si personnellement, je ne suis pas vraiment d’accord, mais ça ne regarde que moi.

Et si la donnée personnelle n’était, après tout, non pas une conséquence de son esprit ou de sa volonté, mais qu’une propriété – au sens physique, et non législatif – de la personne, résultat non pas pas de ce qu’elle fait, mais de ce qu’elle est. Si elle est une propriété de la personne, alors elle n’y pas de sens sans la personne et ne peut ni être vendue, ni être cédée comme une propriété – au sens législatif et non physique – car toute donnée personnelle sans la personne n’a simplement pas de sens. Et tenter de forcer sa nature pour la traiter comme une chose, on la dégrade à un point où elle perd son sens.

Peut-être n’avons-nous pas encore compris sa nature et la prenons trop à la légère ?

Peut-être aussi que la réponse nous fait peur ou ne nous convient pas…

Si nous considérions la donnée personnelle comme une propriété physique de l’individu, ne pouvant ni être vendue ni être achetée, alors la solution serait de ne pas la laisser s’évanouir dans la nature. La solution n’est pas dans un système de blockchain et de smart contracts, mais dans un système reposant sur l’anonymat le plus complet, façon Tor, où seules les traces anonymes sont laissées, sans pouvoir la rattacher à une personne.

Après tout, lorsque le rapport fait mention du prix concédé en l’échange d’un mot de passe et que la sécurité tend à utiliser la biométrie comme moyen d’accès et de sécurisation, cette dernière montre bien à quel point les données personnelles sont une propriété physique de la personne. Doit-on couper son pouce pour donner son accès à un autre ?

La première des sécurités est de ne jamais – jamais – donner son mot de passe à autrui. C’est la règle numéro une. Les personnes qui ont accepté de donner leur mot de passe en l’échange d’une somme d’argent ont peut-être tout simplement pris cette donnée et son importance à la légère.

L'intimité dans l'espace public

Nous considérons par défaut qu'Internet est un espace public et que, comme il est public, tout ce qui s'y passe est du domaine public.

Cependant, un espace public ne signifie pas que tout est public. Si je suis dans la rue et que je discute avec des amis, ça ne donne pas le droit pour autant à autrui de venir enregistrer notre conversation. Ça ne donne pas le droit non plus à n'importe qui de me prendre en photo sans me demander mon avis.

Le sujet épineux des Google Glass a montré à quel point, même dans un espace public, nous avons natruellement besoin d'avoir un espace d'intimité et ne pas nous sentir surveillés à notre insu.

En fait, même si l'espace public est un comportement par défaut, il reste somme tout assez rare d'être réellement public. Si la loi ne régit pas cet espace en y posant des limites, c'est la pression sociale qui s'en charge. La plupart du temps, la loi pose des exceptions pour prolonger mon intimité en dehors de mon domicile et de ma personne. La gêne occasionnée par les Google Glass ont mis un terme à l'expérimentation, sans même l'intervention de la loi.

L'intimité et le besoin d'intimité ne s'arrêtent pas à la porte de notre domicile. Lorsque je corresponds par écrit avec un proche, ma conversation tombe sous le coup du secret de la correspondance et mon facteur, aussi sympathique soit-il, ne peut pas se permettre d'ouvrir l'enveloppe pour prendre connaissance du contenu, même s'il se trouve dans la rue – c'est d'ailleurs là qu'il est la plupart du temps. Lorsque je sors de chez moi pour mettre de l'argent sur mon compte en banque, mon banquier, aussi sympathique soit-il, ne peut pas se permettre – secret bancaire oblige – de laisser fuiter les informations me concernant. Lorsque je sors de chez moi pour me rendre chez un médecin, ce dernier ne peut pas se permettre – secret médical oblige – de divulguer des informations me concernant.

Propositions

Considérer que toute trace est une donnée personnelle est illusoire du simple fait de la double comptabilité et du volume de données dont il est question.

Lorsque la masse des données permet de façon inattendue de définir quelque chose que nous ignorions auparavant, cette découverte appartient-elle au propriétaire initial de la donnée ou au scientifique qui l’a découverte ?

Une définition plus fine de la donnée personnelle

Comme nous venons de le voir, la donnée personnelle au sens large est assez difficile à cerner et à gérer aisément du simple fait que nous n'avons pas défini précisément ce qu'est une donnée personnelle. À mon sens, il convient donc de bien différencier la trace numérique de la donnée intime.

D’un point de vue technique, les données évoluent à deux niveaux bien distincts qu’il conviendrait peut-être de différencier : la trace numérique, qui représente toute trace laissée par un individu mais sans pouvoir immédiatement mettre son nom dessus, et les données intimes, qui représentent toute donnée directement associée à la personne nominativement – comme son nom, date de naissance.

La première n'est pas personnelle au premier abord mais peut potentiellement le devenir si de nombreuses données sont accumulées. D'un point de vue technique, ce sont ces données qui sont valorisées car elles permettent de comprendre les comportements et de définir les profils d'achat.

La seconde est quasi-immédiatement personnelle puisqu'elle permet d'identifer rapidement – en moins de 3 relations – une personne de façon unique. Il s'agit de l'empeinte digitale, l'ADN, la photographie, le groupe nom/prénom/date de naissance, ou nom/prénom/adresse, etc. Cette donnée sert à affiner les profils en facilitant les recoupements de profils mais n'a qu'une valeur plus faible, voire quasi-nulle, sans la trace numérique.

La donnée intime, contrairement à la trace, est une donnée qui ne peut pas être déduite. Si on peut déterminer mon âge à partir des traces, on ne peut pas trouver ma date de naissance exacte si je ne la donne pas à un moment donné. De même, on ne peut pas deviner mon empreinte digitale si je ne la donne pas. On peut déterminer les 99,9 % de mon ADN – commun avec tous les individus de ma race biologique et de mon sexe – mais pas les 0,1 % restants si je ne donne pas un échantillon et toutes les traces numériques laissées et cumulées ne permettront jamais de les déterminer.

Dans le second cas, je remplace volontairement l'usuel qualificatif « personnel » par « intime » pour que ça parle à tout le monde, de façon à mettre en évidence le caractère intime de la donnée et donc la conséquence de la protéger coûte que coûte.

À partir de ces deux définitions bien distinctes, il est possible de travailler plus aisément, de deux façons bien différenciées.

La trace numérique par une TVA décentralisée

L’idée d’un système stockage des données personnelles – ou plutôt de la signature de ces données – adossé à un système de smart contracts est intéressant – même s’il reste à expliquer la mécanique avec des exemples concrets ; il ne suffit pas de balancer smart contracts pour résoudre tous les problèmes – il n’en demeure pas moins assez compliqué à mettre en place. Dans le contexte du rapport, il ne semble désigner que les seules données nominatives. Il serait difficile d’imaginer une même solution pour toutes les traces générées par un individu. Or, les données nominatives n’ont réellement que peu de valeur marchande. Leur seule vraie valeur est l'intimité.

De plus, le smart contract repose sur la définition de contrats individuels. Cette méthode, même si elle est viable, est inspirée par un esprit de comptable, qui cherche à cadrer, définir, scruter et normaliser tout et tout le monde, afin de mettre dans des petites cases. Or, c’est justement le contraire de l’esprit du Web, là où les individus ne veulent plus justement obéir à ces lois. Là où un comptable exigerait l’échange de deux mauvais morceaux de musique pour compenser son partage d’un bon, l’internaute échange à égalité un pour un, car ce n’est pas la valeur marchande qui compte – vu que le coût du téléchargement illégal est nul –, mais la valeur humaine et l’esprit de partage, indépendamment de la valeur intrinsèque. C’est pourquoi le comptable voit du téléchargement illégal là où l’internaute ne voit que du partage.

Faire entrer une comptabilité méprisante dans l’Internet le rendrait compliqué. Les individus ne veulent pas signer de contrats. Ils en ont assez. Il veulent un peu de simplicité. Le code doit les libérer des contraintes de la vie physique, pas les y soumettre. Ce n'est donc pas pour y retrouver les mêmes travers.

La notion de valeur collective est pertinente et à retenir. Cependant, la mise en place d’une TVA ne permet pas de rétribuer les producteurs de données qui se voient alors spoliés, une fois de plus, par un état omniprésent et omnipotent. La TVA calculée par pays est une limitation géographique qui ne respecte pas non plus l’esprit d’Internet, là où les frontières n’existent justement plus.

En combinant la notion de la TVA, avec l’esprit d’Internet et la technologie de blockchain – qui, pour le coup, respecte l’esprit du web – alors nous obtiendrions le fonctionnement suivant :

L’entreprise serait soumise à une TVA, sur la seule déclaration comptable de ses bénéfices issus des traces numériques. Cette TVA ne serait pas calculée par zone géographique, mais juste sur le chiffre d’affaires généré par les données seulement.
Cette TVA serait reversée sur un système de blockchain. Comme le système est ouvert, chacun pourrait vérifier que l’entreprise a reversé sa juste part.
Chaque internaute ayant un compte sur cette blockchain se verrait attribué, de fait, un droit de vote égalitaire – sur le principe horizontal et démocratique « one man, one vote » – qui lui permettrait de voter la distribution de la TVA vers un destinataire de son choix. Ainsi, un internaute pourrait répartir sa voix entre x % pour la SPA, y % pour aider les victimes d’un tsunami, et z % à un youtubeur qui a été démonétisé du simple fait que ses propos étaient considérés comme trop conservateurs par certains individus de Palo Alto – toute situation existante ou ayant existé ne serait que purement fortuite. Il ne resterait plus qu’à faire la somme des votes et de répartir les sommes conformément aux résultats. Si les internautes ne touchent pas cette somme pour eux-mêmes, ils auraient en revanche le pouvoir de choisir une cause qui leur paraît juste – et qui pourrait être déductible des impôts à titre de récompense individuelle pour leur participation à l’intérêt général.

Ainsi, aucun état ne pourrait mettre la main sur ce pactole, la valeur collective des données resterait collective jusqu’à son partage, l’internaute retrouverait un pouvoir de décision supranational inhérent à l’esprit d’Internet.

Ce système de financement participatif pourrait servir à de grande causes collectives. Un état pourrait très bien proposer un projet afin d’obtenir un financement, au même titre que n’importe quel autre entité.

De son côté, l’état ne conserverait qu’un pouvoir limité : celui de vérifier le respect des règles et poursuivre les contrevenants, sans être à la fois juge et partie.

D'un point de vue technique, nous disposons déjà de toute la technologie en place, sans rien changer d'autre que quelques législations et la mise en place d'une blockchain dédiée.

La donnée intime protégée par la loi par défaut

La donnée intime n’est pas à vendre car elle est liée non pas au marché, mais à l'individu lui-même et n'a pas de sens sans la présence physique de la personne – je peux difficilement me promener sans avoir mon ADN sur moi. La nécessité de la présence de la personne en fait, de fait,une information liée à la liberté de l’individu. Et cette liberté n’a pas de prix. Est-il donc pertinent de vouloir en faire le commerce ? Je n'ai personnellement pas d'avis sur la question car il convient à chaquer de négocier sa liberté. Mais si la vision d'autrui de sa liberté et de son intimité empiète la mienne, là je me sens concerné et je dois poser des limites. Or, il se trouve – selon mon point de vue – que nous avons pris le sujet d'Internet et de l'intimité un peu trop à la légère – et c'est ce qui a abouti d'ailleurs au débat sur les données personnelles.

Cette donnée intime, propriété physique de l’individu – la date de naissance n’est qu’une conséquence indépendante de la volonté de la personne, tout comme son ADN, son empreinte digitale – et permettant de l’identifier de façon certaine – deux jumeaux n’ont pas la même empreinte digitale –, cela permet à certains gouvernement de les utiliser contre leur population.

Ainsi, la Chine utilise ces données recoupées avec les profils sociaux pour définir un crédit social. Une personne considérée comme déviante – un dissident, un journaliste, … – voit son crédit social diminuer et avec l’incapacité de contracter un crédit ou de circuler. De quoi bien entraver son activité et limiter conséquemment son pouvoir de « nuisance ».

Or, ces données sont trop souvent considérées à la légère. Lorsque ces données fuitent sur Internet à la suite d’une erreur de manipulation ou une faille de sécurité, ce sont les individus eux-mêmes qui sont exposés. A contrario, lorsque Apple refuse de partager les informations personnelles d’un usager avec le FBI, nous avons ici, de la part de l’entreprise, un comportement plus normal vis-à-vis de l’importance de la donnée intime – surtout parce que la clef de déchiffrement pour un permet de déchiffrer pour tous les autres. Mais en refusant de collaborer avec les autorités sans le mandat d’un juge, Apple s’est positionné clairement du côté de l’état de droit et de la protection de la donnée intime. L'exemple d'Apple montre que la plateforme ou le service n’est plus une zone neutre, mais un territoire appartenant à l’individu – et protégé ici par un tiers de confiance.

La langue française atteint ici une limite : La notion de «propriété de l’individu» peut être interprétée de deux façons bien distinctes : soit une propriété physique de l’individu, attachée à la personne du simple fait d’exister, soit la propriété légale de l’individu, au sens d’un objet qu’il posséderait et dont il pourrait jouir pleinement.

Si nous considérons la donnée intime comme une propriété physique de l’individu, ne pouvant ni être achetée ni être vendue, alors la norme devient une protection absolue de la donnée elle-même et l’anonymat devient la norme et non plus l’exception. Et seul un mandat d’un juge dans un état de droit peut lever cette anonymat – pour peu que la technologie le permette car les technologies modernes deviennent plus puissantes que la volonté d’un juge, ce qui tend à démontrer la supériorité de l’intimité sur tout autre pouvoir.

Au lieu de vouloir l'empêcher, la loi devrait la protéger par défaut, comme c'est le cas pour le secret de la correspondance, le secret bancaire ou le secret médical. Le fait d'être dans la rue ne nous oblige pas à presenter une pièce d'identité à la première personne qui le demande. Dans la rue, jusqu'à preuve du contraire et dans le cadre défini par la loi, je reste un anonyme. Mon anonymat public est le comportement normal et par défaut de toute société équilibrée et en paix. De la même façon, l'anonymat devrait être le comportement normal, par défaut, et protégé par la loi. Toute tentative de levée d'anonymat sans le mandat d'un juge ou le consentement de la personne concernée devrait être sévèrement puni par la loi. Cela obligerait les plateformes à considérer la sécurité des données personnelles de façon plus sérieuse.

L'utilisation de persona

Pour comperser cette protection par défaut, une plateforme n’aurait plus à utiliser les données intimes pour un individu donné, mais un profil, un persona, comme dans les jeux vidéos. L'internaute choisirait un profil type, avec des caractéristiques d’âge, de sexe, d’orientation sexuelle, de niveau socio-culturel, proche de ses caractéristiques réelles – mais on pourrait aussi en utiliser d’autres. Ce persona pourrait aussi être construit à partir d'un questionnaire – ou un ensemble de questionnaires – qu'il pourrait stocker sur son profil – ou son tiers de confiance – et qui seraient accessibles par des smart contracts – pour le coup, là, c'est utile.

Libre ensuite à la plateforme et à l’usager de s’accorder sur l’obligation contractuelle que le persona ressemble à ce dernier afin de fournir un service gratuit, ou, dans le cas contraire, un service payant. Mais aucune information intime ne pourrait être demandée, sauf lorsque c'est vraiment nécessaire.

Tout comme nous pouvons déposer une clef PGP publique sur un serveur de clefs, nous pourrions déposer une signature de ce persona, associé à une clef privée, gérée localement par une technologie de reconnaissance biométrique locale – par exemple sur le téléphone portable – afin de s’identifier sur certains services sans divulguer d’informations intime, tout en permettant d’identifier le persona de façon unique. Cette mécanique aurait pour obligation légale d’avoir un code source ouvert, afin que chacun puisse trouver les problèmes et vérifier qu’aucune donnée ne puisse fuiter de façon volontaire ou involontaire. La sécurité de l’intimité est à ce prix.

On pourrait penser que la protection des données intimes n’aurait aucun intérêt dans le cadre d'une plateforme comme Instagram où, en définitive, le simple fait de publier une image de soi lève, de fait, l’anonymat. Cependant, la levée de cet anonymat n’est qu’une exception : c’est parce que je publie une photographie de ma trombine que je prends le risque d’être exposé et j'en accepte les conséquences, tout comme un acteur accepte les conséquences d'être reconnu dans la rue et suivi par des paparazzi. Rien ne m'empêche de créer un compte social et d'utiliser un persona comme identité publique. Ce persona reviendrait même à gérer une sorte de pseudonyme comme une célébrité, connue dans le monde social avec une identité, mais dans la sphère intime avec une autre, sa vraie identité. C’est le cas de certains chanteurs ou auteurs, et ça ne choque personne.

Avec une telle protection juridique par défaut, la sphère intime s’étendrait alors à la stricte intimité, et non plus dans la sphère publique. Le rôle de la loi serait de protéger cette identité coûte que coûte.

À la question « Comment faire confiance à une personne cachée derrière un persona ? », la réponse est simple : comment faisions-nous avant l’Internet ? Nous rencontrions une personne pour la première fois, nous ne pouvions pas lui faire autrement confiance qu’en utilisant notre intelligence pour séparer le vrai du faux.

Pour la personne qui voudrait bâtir une réputation, la protection du persona annihilerait de fait son historique et la traçabilité. Mais sa volonté de vouloir être reconnue et respectée ferait d’elle, de fait, un personnage public. Elle accepterait de lever son anonymat pour pouvoir utiliser sa réputation transversalement, d’un employeur à un autre, par exemple.

Le cas le plus concret du CV, dans lequel les expériences sont nécessaires pour exposer ses compétences ne seraient pas plus difficiles à gérer que la vérification de la solvabilité. Le secret bancaire est protégé par la loi. Il n’empêche que nous pouvons vérifier la solvabilité d’un individu pour peu que nous en ayons le pouvoir. Tout comme le notaire est assermenté par le ministère de la justice, le RH serait assermenté par une autorité. Il aurait la responsabilité de vérifier la véracité du CV tout en respectant l’anonymat du candidat. Dans ce cas, nous pourrions régler, du même coup, le problème du la discrimination à l'embauche.

La protection de la personne et de son anonymat relève d’un cran la responsabilité. Et si cela semble choquant, c’est encore une fois, parce que nous l’avions considérée un peu trop à la légère jusqu’à présent. Cette considération n’était pas une erreur; elle était juste due au fait que les limitations du monde physique permettaient un meilleur contrôle. Internet étant un accélérateur, il convient de rajouter des barrières pour protéger l’intimité, comme le monde physique le faisait naturellement jusqu’à présent.

Internet Données personnelles