Logo journal du hacker middle
  1. 8

Bonjour,

inspiré par New New York Times (un bot qui tweete les nouveaux mots utilisés par le New York Times) je me suis amusé à faire un outil dans le même genre pour retracer l’historique de la première apparition d’un mot dans Le Monde Diplomatique : Le mot diplomatique.

Techniquement :

  • j’ai récupéré et extrait le contenu des ~26K articles publiés à ce jour par le diplo (le site est super bien fait)
  • utilisé spaCy pour découper les articles en mots + lemmes
  • monté un projet django 4 pour faire une web app en tailwind + htmx (et qq graphiques en charts.js)
  • importé les mots dans la bdd (c’est du sqlite vu que je suis 99% du temps en lecture seule)
  • pas de docker ou autre, c’est un bon gros monolithe
  • c’est opensource https://gitlab.com/canarduck/le-mot-diplomatique

En pratique :

  • un site qui répertorie les +250K mots utilisés par le diplo depuis 1954
  • pas assez de graphiques (j’y travaille)
  • les mots cliquables avec les diverses utilisations et les mots proches
  • les articles cliquables pour voir les nouveaux mots qui y sont apparus
  • des index par années ou lettres pour se promener de mots en mots
  • un compte twitter et mastodon et un flux rss pour suivre les mises à jour

Pourquoi ? Hmmm… ça me permettait de faire un premier essai de NLP, d’avoir un vrai projet pour faire du htmx, de me forcer à faire un truc pas trop compliqué (vs ce que je fais en pro). Résultat : c’est moche mais ça va vite.

Au passage je trouve intéressant de savoir quand des mots comme lol, bitcoin ou autre se sont retrouvés pour la première fois dans ce genre de publication. C’est aussi amusant de chercher les mots les plus populaires sur le journal, par exemple je pense qu’aucun autre journal n’a autant utilisé renationalisation !

  1.