Blogue a T30du113 !: Les nouvelles méthodes de Google et des autres, pour vous pister sans jamais utiliser de cookies

mardi 17 octobre 2017

Les nouvelles méthodes de Google et des autres, pour vous pister sans jamais utiliser de cookies

Facebook, Google, AddThis, KissMetrics, whitehouse.gov… certains de ces sites vous parlent, d’autres non. Quoi qu’il en soit, ils font tous partis des 100.000 sites les plus populaires au monde. Et ils utilisent tous ces nouvelles méthodes de tracking (suivi) contre lesquelles nos petits bloqueurs de pub — Adblock, Ghostery — auront du mal à rivaliser.

À quoi sert le tracking sur Internet ?

Le tracking sur Internet a surtout deux intérêts :

Dans un cadre étatique, cela sert à vous identifier et à vous surveiller. On espère que dans nos démocraties occidentales ce genre de pratique reste marginale, mais l’actualité autour de la NSA laisse malheureusement penser le contraire.
Dans un cadre publicitaire et commerciale, le tracking est utilisé pour vous servir les bonnes publicités au bon moment et vous inciter à acheter.

Pour Google, la publicité compte pour presque 90% de son chiffre d’affaire. Je pense que c’est pareil pour Facebook, Twitter et les autres. Le tracking est donc absolument primordial pour les Géants.

Pourquoi de nouvelles méthodes de tracking ?

Les méthodes actuelles se basent quasi exclusivement sur l’utilisation de cookies. Il s’agit de petit fichier que les sites Internet peuvent enregistrer sur votre ordinateur pour vous suivre pendant plusieurs mois.

De plus en plus d’internautes bloquent leurs cookies, soit par choix (Adblock, Ghostery, etc…), soit parce que certains navigateurs comme Firefox ou Safari décident de bloquer les cookies par défaut.

Google et tous les autres acteurs du web qui vivent grâce au tracking ont donc été obligé d’évoluer rapidement. Voila comment ils s’y sont pris.

1. La méthode Google : mystérieuse et gênante

Google, qui ne communique pas des masses sur son nouveau procédé de suivi, semble créer une “empreinte digitale” (fingerprint) de la machine utilisée par chaque internaute.

Cette empreinte est une sorte de bouillie créée en mixant :

Des caractéristiques de votre navigateur ;
Des caractéristiques sur votre ordinateur ;
Probablement des cookies, des sessions, votre IP ;

Pour le premier point c’est facile : il suffit de récupérer l’user-agent. Pour le second point, c’est de plus en plus facile pour Google puisque le navigateur Google Chrome passe en tête dans tous les classements de navigateurs web. En installant Chrome, vous donnez à Google toutes les clefs dont il a besoin pour accéder à votre machine. Enfin pour le dernier point, c’est du grand classique.

J’imagine que Google crée une checksum (somme de contrôle) avec toutes ces info pour nous identifier. Nous verrons comme nous protéger des 3 techniques de cet article dans la dernière partie.

2. La méthode du ETAG : bien cachée, et difficile à contrer

Cette méthode a été parfaitement décrite par lucb1en sur son blog (en anglais). Voici ce qu’il faut retenir.

Lorsque vous surfez sur Internet, votre navigateur web discute sans cesse avec des serveurs web. C’est grâce à ces discussions entre votre navigateur et les serveurs web (le protocole HTTP) que vous pouvez accéder à tous les sites web de la planète.

Pour gagner du temps et éviter des “discussions” inutiles, votre navigateur et les serveurs web utilisent ce qu’on appelle un système de cache. Chacun de leur côté, ils gardent des choses en mémoire (des pages que vous visitez souvent, des images, …) pour vous les ressortir très vite si vous leur demandez.

Par exemple : vous arrivez sur mon blog ce matin à 10h. Si vous y retournez à 10h02, il y a de fortes chances pour que rien n’ai changé. Du coup, votre navigateur va mettre en cache les pages de mon blog que vous visitez la première fois pour vous les ressortir très rapidement les prochaines fois (sans aller discuter avec mon serveur web). S’il y a eu des changements entre temps, alors rassurez-vous : le navigateur sera forcé de mettre à jour les pages qu’il a sauvegardé. Vous aurez toujours la dernière version de mon blog sous les yeux.

En vert, le temps de chargement des pages "cachées", en bleu les pages "non cachées" — En vert, le temps de chargement des pages “cachées”, en bleu les pages “non cachées”

Et justement : pour savoir s’il y a eu du changement entre deux de vos visites sur un site, le serveur et votre navigateur s’échange un ETAG. Ce ETAG permet de savoir, pour faire simple, si des choses ont changé entre la version mise en cache par votre navigateur et le site lui-même.

Ce ETAG est une suite de lettres et de chiffres (du genre 2b987efiej7fe987f). Partant d’un principe assez noble (améliorer les délais d’attente sur le web), ce ETAG a été détourné pour pister les internautes. En affectant à chaque visiteur un ETAG différent, un site web est capable d’utiliser le cache navigateur – et non les cookies – pour vous pister.

Qui pense à vider son cache ? Pratiquement personne. Qui bloque la mise en cache de son navigateur ? Presque personne non plus, parce que bloquer le cache c’est ralentir fortement votre vitesse de navigation.

Pour info, KissMetrics (un outil qui vous track sur de nombreux sites) et Hulu (une sorte de Netflix aux USA) ont utilisé ce procédé.

3. La méthode du Canvas Fingerprinting : un dessin malicieux

Cette dernière méthode est utilisée par les grands sites dont je vous parlais au début de l’article. Elle consiste à faire dessiner par votre navigateur une image (invisible) et à la numériser, c’est à dire la transformer en une série de chiffres qui vous identifie, comme un code-barre en quelques sortes.

Cette image sera dessinée en prenant en compte les propriétés de votre matériel : votre carte graphique, votre navigateur, votre système d’exploitation. Cela étant dit, une empreinte générée par cette méthode n’est pas forcément unique d’un internaute à l’autre. Il existe une marge d’erreur qu’il est facile de faire disparaître en combinant ce tracking avec les autres méthodes détaillées précédemment.

C’est justement à cause de son manque d’entropie, c’est à dire le manque de certitude avec laquelle on peut identifier de manière unique un internaute, que cette méthode du canvas ne semble pas utilisée à grande échelle.

Voici un document de recherche très complet qui explique la mise en place de cette technique : https://cseweb.ucsd.edu/~hovav/dist/canvas.pdf

Pour connaître votre “empreinte canvas”, vous pouvez cliquer ici et chercher la ligne “Your browser fingerprint”. Votre identifiant (presque) unique se trouve juste en dessous.

Conclusion et méthodes de protection

Ces 3 méthodes sont les prémisses du nouveau web, un web où les cookies disparaîtront petit à petit au profit d’autres technologies beaucoup plus intrusives.
Voici des pistes pour vous protéger des 3 techniques ci-dessus et pour vous protéger des méthodes à l’ancienne :

Pour vous protéger de la technique 1 : il me paraît sain de ne pas utiliser Google Chrome et/ou pourquoi pas d’utiliser une extension de navigateur type Random Agent Spoofer ou équivalent. Cette extension change régulièrement votre user-agent pour éviter d’être clairement identifiable. Changer son adresse IP (avec un proxy ou un VPN) me semble aussi une bonne idée.
Pour vous protéger de la technique 2 : c’est assez difficile. Soit vous désactivez le cache de votre navigateur, mais vous perdez vraiment en performance, soit vous videz le cache régulièrement (à la fermeture par exemple, Firefox le permet nativement). Dernière idée : utiliser le plugin “Secret Agent” pour Firefox et dérivés, qui s’amuse avec les ETAGS pour vous éviter d’être pisté. Je n’ai pas testé cette solution.
Pour vous protéger de la technique 3 : il n’existe pas de solutions miracles, si ce n’est utiliser un bloqueur de pub type Adblock ou Ghostery. Ces bloqueurs vont bloquer les scripts type AddThis qui, eux-mêmes, utilisent le canvas fingerprinting.
Pour vous protéger en général, je vous recommande d’utiliser un bloqueur de pubs/scripts type Adblocks/Ghostery. Bien que les techniques de tracking évoluent, ils sont toujours bien utiles.

Bon courage, dans la jungle du tracking !

REF.:

Aucun commentaire:

Publier un commentaire

Rechercher sur ce blogue