1. 2

J’ai lancé le téléchargement du répertoire, car nous disposions d’une énorme quantité de données sur l’ensemble de l’Internet qui, jusqu’à présent, n’était accessible qu’après des milliers de clics manuels.

Désormais, la communauté mondiale derrière le répertoire du web Curlie.org propose l’intégralité du répertoire en téléchargement (open source, licence CC-BY).

Le répertoire contient des descriptions éditoriales de 2,9 millions de sites web sélectionnés avec soin, classés par catégories.

Vous souhaitez lancer votre propre moteur de recherche ou LLM, mais vous ne disposez pas des ressources nécessaires pour trouver des données d’entraînement de qualité ? Il vous suffit d’utiliser les données du répertoire et d’explorer les sites web qui y sont répertoriés.

En fait, notre partenaire scientifique https://openwebindex.eu a déjà intégré les données du répertoire dans son index de recherche ouvert, de sorte que même la partie exploration est déjà effectuée pour vous.

C’est la contribution de la communauté Curlie à une infrastructure de connaissances distribuée, open source et sous le contrôle des utilisateurs !

(Vous trouverez les détails techniques dans le téléchargement lui-même, ou vous pouvez me demander ici.)

  1.