Vous êtes sur la page 1sur 3

Comment l'accumulation de données constitue la nouvelle

menace pour la vie privée et le changement climatique.


Big Tech doit améliorer son efficacité énergétique, Tyler Elliot Bettilyon

Alors que l'apprentissage machine et d'autres algorithmes gourmands en données prolifèrent, de plus en plus
d'organisations accumulent des données dans l'espoir de les transformer en quelque chose de précieux. Des
agences d'espionnage aux fournisseurs d'infrastructures réseau, la collecte de données fait partie intégrante de
l'économie numérique. Les meilleures données peuvent être combinées avec des algorithmes intelligents pour
réaliser des tâches incroyables - mais la thésaurisation numérique et les charges de travail gourmandes en
ressources de calcul comportent également des externalités.
Les coûts électriques - et donc les impacts environnementaux - du calcul sont à la fois extraordinaires et
croissants. Les modèles d'apprentissage automatique moderne (ML) en sont un excellent exemple. Ils nécessitent
une énorme quantité d’énergie pour traiter des montagnes de données. Les coûts informatiques de la formation des
modèles ML ont augmenté de façon exponentielle depuis 2012, avec une période de doublement de 18 mois, selon
OpenAI. Au cours des derniers mois, des études similaires ont montré que les coûts électriques de la crypto-
monnaie et du streaming vidéo étaient également importants et en augmentation.
La production de cette électricité crée dans la plupart des cas un échappement littéral - il existe très peu de
fermes de serveurs fonctionnant à 100% en énergie renouvelable - et face au changement climatique qui menace, il
est temps de prendre conscience de l’impact environnemental du calcul. Tout comme pour emballer chaque petite
chose dans un sac en plastique, une partie de notre utilisation du processeur est frivole et inutile.
Les experts en informatique et en ingénierie se plaignent depuis des années. Certains soulignent que nous
sommes allés sur la lune avec seulement 4 Ko de RAM. D'autres détaillent la lenteur et la lourdeur des logiciels
modernes. Jonathan Blow est allé jusqu'à mettre en garde contre l'effondrement imminent de toute la discipline du
génie logiciel en raison de la perte de connaissances intergénérationnelle.
La plupart du temps, cet argument est positionné en termes d'élitisme d'ingénierie. Ses partisans ont évoqué
avec nostalgie l'époque où il était vraiment important d'être un ingénieur en logiciel. Ils reprochent aux débutants
de ne pas savoir mieux tout en affichant leurs beaux cheveux, teintés du gris argenté de l'expérience. Malgré la
condescendance, ils ne se trompent pas complètement.
Comme les ordinateurs devenaient de plus en plus rapides, les programmes informatiques devenaient de plus en
plus lents. Les utilisateurs finaux ne l’ont pas remarqué car les programmes les plus lents fonctionnaient toujours
rapidement sur les ordinateurs les plus rapides. En conséquence, de nombreux développeurs doivent rarement se
concentrer sur l'utilisation efficace des cycles de mémoire ou de processeur. Nos processeurs incroyables peuvent
exécuter même le code relativement inefficace assez rapidement pour la plupart des utilisateurs. Les outils et les
langages de programmation qui donnent la priorité au temps du développeur par rapport à l’efficacité du
processeur et de la mémoire sont devenus la norme. AWS et d'autres services de cloud computing incarnent ce
compromis - pourquoi consacrer des semaines de développement à optimiser le code alors qu'Amazon peut
simplement activer automatiquement quelques serveurs supplémentaires lorsque nous en avons besoin.

"Plus efficace, mieux c'est", ça ne me motive pas du tout, "nous devrions


faire notre part pour conserver l'électricité, car le changement climatique
est une menace existentielle pour l'humanité."

Il n’ya rien de mal à ce que des professionnels essaient de maintenir une industrie aux normes élevées. Mais je
souhaite que la foule favorable à l'efficacité utilise une tactique plus persuasive que la réprimande tautologique.
Peut-être que c'est juste moi, mais «plus efficace, c'est mieux», ça ne me motive pas du tout comme «nous devrions
faire notre part pour conserver l'électricité, car le changement climatique est une menace existentielle pour
l'humanité». Il ne s'agit pas seulement d'inefficaces. Utilisation électrique non plus. Les données que nous générons
sont en soi une sorte de polluant numérique - un nouveau type de poubelle pour l'ère de l'information.
Certaines données sont des déchets de la même manière qu'un courrier indésirable est un déchet. Combien de
ressources informatiques sont dédiées aux millions de spams envoyés chaque jour? Quelle quantité de bande
passante est dédiée aux annonces non cliquées dans votre barre latérale? De plus en plus, les enregistrements de
presque toutes les transactions numériques - aussi triviales soient-ils - sont transmis à un centre de données et
stockés. Cela peut sembler hyperbolique de harpe sur quelques morceaux perdus, mais c'est un problème grave.
Considérez ceci: le chargement de Twitter nécessite environ 6 Mo de données.

Twitter a déclaré avoir environ 126 millions d'utilisateurs actifs quotidiens en février. Si chaque utilisateur charge
la page d'accueil une seule fois par jour, cela représente 756 téraoctets d'informations transmises par jour. Juste
pour Twitter. Ajoutez Amazon, Facebook, Google, etc., et nous parlons d’énormes quantités de données occupant
des câbles, passant dans les airs et prenant du temps CPU. Quelle fraction de ces données offre réellement une
valeur réelle à l'utilisateur final? Quelle fraction de celle-ci glisse sur nos écrans sans aucune pertinence?
Toutes ces données nécessitent une infrastructure. Nous avons besoin de câbles, routeurs, ordinateurs et
téléphones plus nombreux et plus rapides. Nous devons passer de 4g à 5g. Nous devons construire des centres de
données et des batteries de serveurs. Ce gaspillage numérique résulte en une quantité toujours croissante
d'infrastructures physiques toujours actives. La quantité de terres utilisées par les batteries de serveurs est
stupéfiante. Ces composants électroniques sont difficiles à recycler et s'usent plus rapidement sous une charge plus
élevée. Le processus constant de mise à niveau et de remplacement de ces composants électroniques a créé de
graves risques pour l’environnement et la santé, notamment en raison du nombre croissant de composants
électroniques mis au rebut. Si nous utilisions cette infrastructure avec plus de soin (transmission et stockage des
données aussi efficacement que possible), nous pourrions réduire considérablement nos besoins en infrastructures
et en électricité.
Certaines de ces données sont de nature parasite - elles en profitent certaines au détriment des autres. Les
annonceurs nous suivent pendant que nous naviguons sur Internet. Les extensions de navigateur exploitent notre
historique Web. Les applications météo suivent notre position. La liste continue. Ces différents aspects de notre
histoire personnelle sont vendus à des courtiers en données, qui reconditionnent et revendent les données
combinées à des troisième, quatrième et cinquième parties. Pour la plupart des gens, ces données sont un
gaspillage qui devrait simplement être jeté. La plupart des gens ne procéderont jamais à un audit approfondi de leur
histoire sur Internet, mais pour les annonceurs et les stratèges politiques, il peut s'agir d'une mine d'or. Pire encore,
les gouvernements et les entreprises continueront d’être victimes des pirates informatiques. Ces sources de données
tomberont inévitablement entre les mains d'acteurs malveillants.
Il existe également un grand nombre de preuves démontrant que l’existence d’importants ensembles de
données, chacune individuellement inoffensive, peut constituer quelque chose de plus dangereux. En mettant en
corrélation des informations provenant de plusieurs sources différentes, les attaquants peuvent créer un profil clair
et utiliser ces informations pour connecter des données plus sensibles. Tant de bases de données «anonymisées»
ont été compromises par cette tactique que certaines personnes sur le terrain déclarent que «l'anonymisation est
morte». Ces chercheurs réclament un nouveau paradigme qui donne la priorité à la transparence en matière de
collecte de données plutôt qu'à la tentative d'anonymisation.
Et certaines données - telles que les déchets radioactifs, les aiguilles usagées ou les tissus sanglants - sont
dangereuses, voire dangereuses. Les numéros de sécurité sociale, les numéros de carte de crédit, les informations
relatives au permis de conduire ou toute autre information extrêmement sensible ne doivent être stockés que si cela
est absolument nécessaire, et avec des précautions particulières pour le garder hors de portée des acteurs
malveillants.
Il est à noter qu'il existe bien sûr un grand nombre d'ingénieurs qui se concentrent sur l'optimisation des
performances et la préservation de la confidentialité. Et beaucoup plus peut encore être fait. L'un des plus beaux
aspects du logiciel à l'ère de l'internet est que nous pouvons déployer des améliorations instantanément dans le
monde entier. Les mises à jour commencent à avoir un impact immédiat et les coupures dans les traitements et les
besoins en données augmentent avec le temps.

« À l'instar du secteur des combustibles fossiles, de nombreuses


entreprises de programmation se sont enrichies de données tout en
ignorant les externalités de leur produit. »

Revenons à notre estimation brute vue de haut: si Twitter réduisait de moitié le poids de ses pages, cela
permettrait d'économiser 378 téraoctets de données par jour. Si chaque entreprise s'efforçait de ne stocker que les
données absolument nécessaires et de les sécuriser contre des acteurs malveillants, nous serions tous en sécurité
contre les violations de la vie privée. À l'instar du secteur des combustibles fossiles, de nombreuses entreprises de
programmation se sont enrichies de données tout en ignorant les externalités de leur produit.
Que les entreprises commencent ou non à prendre ces précautions est une autre question. Ce qui me rappelle:
n’oubliez pas de réclamer votre versement de 125 $ d’Equifax.

*
Lu et imprimé le 02/08/2019