Facebook, Google, AddThis, KissMetrics, whitehouse.gov… certains de ces sites vous parlent, d’autres non. Quoi qu’il en soit, ils font tous partis des 100.000 sites les plus populaires au monde. Et ils utilisent tous ces nouvelles méthodes de tracking (suivi) contre lesquelles nos petits bloqueurs de pub — Adblock, Ghostery — auront du mal à rivaliser.
À quoi sert le tracking sur Internet ?
Le tracking sur Internet a surtout deux intérêts :
- Dans un cadre étatique, cela sert à vous identifier et à vous surveiller. On espère que dans nos démocraties occidentales ce genre de pratique reste marginale, mais l’actualité autour de la NSA laisse malheureusement penser le contraire.
- Dans un cadre publicitaire et commerciale, le tracking est utilisé pour vous servir les bonnes publicités au bon moment et vous inciter à acheter.
Pour Google, la publicité compte pour
presque 90% de son chiffre d’affaire. Je pense que c’est pareil pour
Facebook, Twitter et les autres. Le tracking est donc absolument
primordial pour les Géants.
Pourquoi de nouvelles méthodes de tracking ?
Les méthodes actuelles se basent quasi exclusivement sur l’utilisation de cookies.
Il s’agit de petit fichier que les sites Internet peuvent enregistrer
sur votre ordinateur pour vous suivre pendant plusieurs mois.
De plus en plus d’internautes bloquent leurs cookies,
soit par choix (Adblock, Ghostery, etc…), soit parce que certains
navigateurs comme Firefox ou Safari décident de bloquer les cookies par
défaut.
Google et tous les autres acteurs du web qui vivent grâce au tracking ont donc été obligé d’évoluer rapidement. Voila comment ils s’y sont pris.
1. La méthode Google : mystérieuse et gênante
Google, qui ne communique pas des masses sur son nouveau procédé de suivi, semble créer une “empreinte digitale” (fingerprint) de la machine utilisée par chaque internaute.
Cette empreinte est une sorte de bouillie créée en mixant :
- Des caractéristiques de votre navigateur ;
- Des caractéristiques sur votre ordinateur ;
- Probablement des cookies, des sessions, votre IP ;
Pour le premier point c’est facile : il suffit de récupérer l’user-agent. Pour le second point, c’est de plus en plus facile pour Google puisque le navigateur Google Chrome passe en tête dans tous les classements de navigateurs web.
En installant Chrome, vous donnez à Google toutes les clefs dont il a
besoin pour accéder à votre machine. Enfin pour le dernier point, c’est
du grand classique.
J’imagine que Google crée une checksum (somme de contrôle) avec toutes ces info pour nous identifier. Nous verrons comme nous protéger des 3 techniques de cet article dans la dernière partie.
2. La méthode du ETAG : bien cachée, et difficile à contrer
Cette méthode a été parfaitement décrite par lucb1en sur son blog (en anglais). Voici ce qu’il faut retenir.
Lorsque vous surfez sur Internet, votre
navigateur web discute sans cesse avec des serveurs web. C’est grâce à
ces discussions entre votre navigateur et les serveurs web (le protocole HTTP) que vous pouvez accéder à tous les sites web de la planète.
Pour gagner du temps et éviter des “discussions” inutiles, votre navigateur et les serveurs web utilisent ce qu’on appelle un système de cache.
Chacun de leur côté, ils gardent des choses en mémoire (des pages que
vous visitez souvent, des images, …) pour vous les ressortir très vite
si vous leur demandez.
Par exemple : vous arrivez sur mon blog
ce matin à 10h. Si vous y retournez à 10h02, il y a de fortes chances
pour que rien n’ai changé. Du coup, votre navigateur va mettre en cache
les pages de mon blog que vous visitez la première fois pour vous les
ressortir très rapidement les prochaines fois (sans
aller discuter avec mon serveur web). S’il y a eu des changements entre
temps, alors rassurez-vous : le navigateur sera forcé de mettre à jour
les pages qu’il a sauvegardé. Vous aurez toujours la dernière version de
mon blog sous les yeux.
Et justement : pour savoir s’il y a eu du changement entre deux de vos visites sur un site, le serveur et votre navigateur s’échange un ETAG.
Ce ETAG permet de savoir, pour faire simple, si des choses ont changé
entre la version mise en cache par votre navigateur et le site lui-même.
Ce ETAG est une suite de lettres et de chiffres (du genre 2b987efiej7fe987f). Partant d’un principe assez noble (améliorer les délais d’attente sur le web), ce ETAG a été détourné pour pister les internautes.
En affectant à chaque visiteur un ETAG différent, un site web est
capable d’utiliser le cache navigateur – et non les cookies – pour vous
pister.
Qui pense à vider son cache ? Pratiquement personne. Qui bloque la mise en cache de son navigateur ? Presque personne non plus, parce que bloquer le cache c’est ralentir fortement votre vitesse de navigation.
Pour info, KissMetrics (un outil qui
vous track sur de nombreux sites) et Hulu (une sorte de Netflix aux
USA) ont utilisé ce procédé.
3. La méthode du Canvas Fingerprinting : un dessin malicieux
Cette dernière méthode est utilisée par
les grands sites dont je vous parlais au début de l’article. Elle
consiste à faire dessiner par votre navigateur une image (invisible) et à
la numériser, c’est à dire la transformer en une série de chiffres qui
vous identifie, comme un code-barre en quelques sortes.
Cette image sera dessinée en prenant en
compte les propriétés de votre matériel : votre carte graphique, votre
navigateur, votre système d’exploitation. Cela étant dit, une empreinte générée par cette méthode n’est pas forcément unique d’un
internaute à l’autre. Il existe une marge d’erreur qu’il est facile de
faire disparaître en combinant ce tracking avec les autres méthodes
détaillées précédemment.
C’est justement à cause de son manque d’entropie, c’est à dire le manque de certitude avec laquelle on peut identifier de manière unique un internaute, que cette méthode du canvas ne semble pas utilisée à grande échelle.
Voici un document de recherche très complet qui explique la mise en place de cette technique : https://cseweb.ucsd.edu/~hovav/dist/canvas.pdf
Pour connaître votre “empreinte canvas”, vous pouvez cliquer ici et chercher la ligne “Your browser fingerprint”. Votre identifiant (presque) unique se trouve juste en dessous.
Conclusion et méthodes de protection
Ces 3 méthodes sont les prémisses du nouveau web, un web où les cookies disparaîtront petit à petit au profit d’autres technologies beaucoup plus intrusives.Voici des pistes pour vous protéger des 3 techniques ci-dessus et pour vous protéger des méthodes à l’ancienne :
- Pour vous protéger de la technique 1 : il me paraît sain de ne pas utiliser Google Chrome et/ou pourquoi pas d’utiliser une extension de navigateur type Random Agent Spoofer ou équivalent. Cette extension change régulièrement votre user-agent pour éviter d’être clairement identifiable. Changer son adresse IP (avec un proxy ou un VPN) me semble aussi une bonne idée.
- Pour vous protéger de la technique 2 : c’est assez difficile. Soit vous désactivez le cache de votre navigateur, mais vous perdez vraiment en performance, soit vous videz le cache régulièrement (à la fermeture par exemple, Firefox le permet nativement). Dernière idée : utiliser le plugin “Secret Agent” pour Firefox et dérivés, qui s’amuse avec les ETAGS pour vous éviter d’être pisté. Je n’ai pas testé cette solution.
- Pour vous protéger de la technique 3 : il n’existe pas de solutions miracles, si ce n’est utiliser un bloqueur de pub type Adblock ou Ghostery. Ces bloqueurs vont bloquer les scripts type AddThis qui, eux-mêmes, utilisent le canvas fingerprinting.
- Pour vous protéger en général, je vous recommande d’utiliser un bloqueur de pubs/scripts type Adblocks/Ghostery. Bien que les techniques de tracking évoluent, ils sont toujours bien utiles.
REF.:
Aucun commentaire:
Publier un commentaire