En fait, l’URL que j’avais soumise était celle qui laisse apache servir la version FR ou EN en fonction des en-têtes fournies par le visiteur. Il suit Accept-Language sauf si un cookie prend la priorité (le cookie est mis lorsqu’on regarde une version en particulier).
Mais effectivement, pour être sûr de tomber sur la VF, c’est celle en index.fr.html qu’il faut utiliser (et c’est donc celle-ci que je soumettrai la prochaine fois).
il ya effectivement une « dissonance cognitive » entre ce qu’est réellement le low-tech et faire la promotion d’une cryptomonnaie (soi-disant liner et éthique). Heureusement les SEL n’ont pas attendu les techno-béats pour être inventés.
Par le biais de F-Droid, tu as le magasin d’app nommé “Neo Store”…
Par ce biais, la version Android de Freetube est installable sur les smartphones ad hoc ;)
J’ai eu plus de chances avec moins de requêtes par minute mais poste filtrage par user-agent (qui date de plusieurs semaines), quasi 100% des IP appartiennent à Alibaba.
Perso j’ai constaté la même chose que Dryusdan sur pas mal de mes infra… Si bien que j’ai du développer un outil pour bloquer tout ça.
Sinon concernant le reste :
“aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95” : si, on a plein d’exemples comme ça, mais en tant qu’adminsys c’est vrai qu’on passe pas notre temps à poster nos logs en ligne, mais il y a des bases de partages si besoin.
“une attaque par déni de service distribué, ça n’a rien à voir avec du scraping” : Alors en fait si, de plus en plus d’ailleurs, par exemple j’ai eu le cas (moi aussi sur ma forge git, quel hasard) de crawlers IA qui venaient sur mon infra avec pas moins de 70 000 IP différentes qui faisaient chacune 1 ou 2 requêtes seulement. Surement pour ne pas être banni facilement (c’est loupé eheh).
“Mais comme il y a un ennemi commun (l’IA)” : Non, l’ennemi commun ce sont les humains qui font de l’IA absurde (et capitaliste à outrance) comme ça et pourrissent le web, ces nécromanciens du rêve sont juste néfastes et seront bloqués et ridiculisés autant que possible.
Si les IA étaient dignes de ce nom, elles respecteraient les robots.txt, scraperaient à un rythme décent et on aurait pas besoin d’avoir 15 000 articles qui expliquent comment les bloquer malgré leurs contournements des blocages, déjà…
Le simple fait que vous ayez fait un article « arrêtez de bloquer les IA » est déjà une preuve que les entreprises faisant de l’IA font n’importe quoi et ne sont donc pas dignes de confiance. Parce que si elles l’étaient, la question ne se poserait pas, le trafic serait passé inaperçu pour la plupart des gens.
Aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…
C’est justement là que le bat blesse, une IA est par essence, prévu pour piller des données quel que soit le moyen (faut bien l’entraîner), et si elle pille, on ne peut pas leur faire confiance sur le “digne de ce nom”.
Maintenant feel free hein, quel sont les moyens que je peux mettre en oeuvre pour m’assurer que ce n’est pas de l’IA ? C’est vrai qu’il y a une énorme différence entre de l’IA et des scrappers peut vertueux (non).
Mais on va parler coïncidence hein (j’ai pas envie d’asseoir un éventuel argument d’autorité comme quoi des attaques DDoS j’en ai bouffé professionnellement à la pelle) ;)
L’IA explose : le trafic non humain explose.
L’IA émerge en chine, le trafic chinois explose.
L’IA commence a être bloqué : le trafic “humain” suspect explose.
On découvre qu’entraîner toutes les IAs sur du code informatique permet d’avoir de meilleur résultat et BAM toutes les forges logicielles avec un peu de code se font tabasser.
Punaise, les coïncidences sont folles, mais aucune preuve, juste de curieuse coïncidence dont les schémas se répète partout et pas que sur mon infra.
Petit point quand même, un DDoS quel qu’il soit à pour unique objectif de dégommer un site. Soi il arrête une fois le site down, soit il continue jusqu’à pourrir l’infra ou juste pendant X temps.
Ici, à l’instant où le 403 est apparut POUF plus de trafic suspect. Dès qu’il est impossible de lire le contenu, le scraping agressif s’arrête. C’est fou hein. Aucune recherche à mettre mal mon infra, à dégommer mon site principal ni même à le lire. Juste Forgejo. Pour du scraping c’est vachement bizarre de ne lire que la forge surtout chaque petit micro URL de la forge (pourtant j’en ai du site en place, et un paquet), et pour une attaque ça l’est encore plus. Au cas ou, un site down c’est, au mieux, un code 5XX, pas 403.
L’auteur dit qu’il a 4000 requêtes par minute et annonce “c’est de la faute à l’IA” sans jamais prouver que ce sont bien des bots d’IA à l’origine de ces requêtes (aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…)
Et une attaque par déni de service distribué, ça n’a rien à voir avec du scraping.
On mélange les torchons et les serviettes… Mais comme il y a un ennemi commun (l’IA), ça a l’air de générer du buzz. Tant mieux pour dryusdan.
Non, l’analogie de la bouteille d’eau est tout sauf parfaite.
Quand un producteur capte l’eau potable, celle-ci n’est plus disponible.
Quand une IA scrape une information, l’information reste là où elle est et elle est rendu disponible ailleurs.
Petit article pour me lancer sur ce site
En fait, l’URL que j’avais soumise était celle qui laisse apache servir la version FR ou EN en fonction des en-têtes fournies par le visiteur. Il suit Accept-Language sauf si un cookie prend la priorité (le cookie est mis lorsqu’on regarde une version en particulier).
Mais effectivement, pour être sûr de tomber sur la VF, c’est celle en
index.fr.html
qu’il faut utiliser (et c’est donc celle-ci que je soumettrai la prochaine fois).La v. FR de l’URL est :
Dans l’état, c’est l’article en anglais qui est lié !
oui, dans l’immense majorité des cas, un simple ps2pdf input.pdf output.pdf est largement suffisant.
pas compliqué ? euh, oui, j’ai quand même un doute… d’autant avec
ps2pdf
, tel que :ps2pdf -dPDFSETTINGS=/ebook input.pdf output.pdf
Mise à jour de l’article initial. Clarification de l’ensemble qui était vraiment brouillon. Mode mémo qui va droit à l’essentiel
Toujours aussi intéressant. Et encore un argument de poids en faveur d’IPv6. N’est pas www.journalduhacker.net ? ;-)
Il y a aussi https://git.gammaspectra.live/git/go-away, avec des modes sans JavaScript.
Par curiosité, pourquoi Korben bof ?
il ya effectivement une « dissonance cognitive » entre ce qu’est réellement le low-tech et faire la promotion d’une cryptomonnaie (soi-disant liner et éthique). Heureusement les SEL n’ont pas attendu les techno-béats pour être inventés.
https://fr.wikipedia.org/wiki/Low-tech
Par le biais de F-Droid, tu as le magasin d’app nommé “Neo Store”… Par ce biais, la version Android de Freetube est installable sur les smartphones ad hoc ;)
Merci pour ton retour ;)
Très clair et très intéressant, merci !
Voir la réponse d’un post-adolescent : https://www.journalduhacker.net/s/zcovzl/adolescence_et_num_rique_retour_dexp
Même constat que Dryusdan sur mon infra :
J’ai eu plus de chances avec moins de requêtes par minute mais poste filtrage par user-agent (qui date de plusieurs semaines), quasi 100% des IP appartiennent à Alibaba.
Perso j’ai constaté la même chose que Dryusdan sur pas mal de mes infra… Si bien que j’ai du développer un outil pour bloquer tout ça.
Sinon concernant le reste :
“
aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95
” : si, on a plein d’exemples comme ça, mais en tant qu’adminsys c’est vrai qu’on passe pas notre temps à poster nos logs en ligne, mais il y a des bases de partages si besoin.“
une attaque par déni de service distribué, ça n’a rien à voir avec du scraping
” : Alors en fait si, de plus en plus d’ailleurs, par exemple j’ai eu le cas (moi aussi sur ma forge git, quel hasard) de crawlers IA qui venaient sur mon infra avec pas moins de 70 000 IP différentes qui faisaient chacune 1 ou 2 requêtes seulement. Surement pour ne pas être banni facilement (c’est loupé eheh).“
Mais comme il y a un ennemi commun (l’IA)
” : Non, l’ennemi commun ce sont les humains qui font de l’IA absurde (et capitaliste à outrance) comme ça et pourrissent le web, ces nécromanciens du rêve sont juste néfastes et seront bloqués et ridiculisés autant que possible.Si les IA étaient dignes de ce nom, elles respecteraient les robots.txt, scraperaient à un rythme décent et on aurait pas besoin d’avoir 15 000 articles qui expliquent comment les bloquer malgré leurs contournements des blocages, déjà…
Le simple fait que vous ayez fait un article « arrêtez de bloquer les IA » est déjà une preuve que les entreprises faisant de l’IA font n’importe quoi et ne sont donc pas dignes de confiance. Parce que si elles l’étaient, la question ne se poserait pas, le trafic serait passé inaperçu pour la plupart des gens.
C’est justement là que le bat blesse, une IA est par essence, prévu pour piller des données quel que soit le moyen (faut bien l’entraîner), et si elle pille, on ne peut pas leur faire confiance sur le “digne de ce nom”.
https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/
Maintenant feel free hein, quel sont les moyens que je peux mettre en oeuvre pour m’assurer que ce n’est pas de l’IA ? C’est vrai qu’il y a une énorme différence entre de l’IA et des scrappers peut vertueux (non).
Mais on va parler coïncidence hein (j’ai pas envie d’asseoir un éventuel argument d’autorité comme quoi des attaques DDoS j’en ai bouffé professionnellement à la pelle) ;)
Punaise, les coïncidences sont folles, mais aucune preuve, juste de curieuse coïncidence dont les schémas se répète partout et pas que sur mon infra.
Petit point quand même, un DDoS quel qu’il soit à pour unique objectif de dégommer un site. Soi il arrête une fois le site down, soit il continue jusqu’à pourrir l’infra ou juste pendant X temps.
Ici, à l’instant où le 403 est apparut POUF plus de trafic suspect. Dès qu’il est impossible de lire le contenu, le scraping agressif s’arrête. C’est fou hein. Aucune recherche à mettre mal mon infra, à dégommer mon site principal ni même à le lire. Juste Forgejo. Pour du scraping c’est vachement bizarre de ne lire que la forge surtout chaque petit micro URL de la forge (pourtant j’en ai du site en place, et un paquet), et pour une attaque ça l’est encore plus. Au cas ou, un site down c’est, au mieux, un code 5XX, pas 403.
L’auteur dit qu’il a 4000 requêtes par minute et annonce “c’est de la faute à l’IA” sans jamais prouver que ce sont bien des bots d’IA à l’origine de ces requêtes (aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…)
Et une attaque par déni de service distribué, ça n’a rien à voir avec du scraping.
On mélange les torchons et les serviettes… Mais comme il y a un ennemi commun (l’IA), ça a l’air de générer du buzz. Tant mieux pour dryusdan.
Non, l’analogie de la bouteille d’eau est tout sauf parfaite.
Quand un producteur capte l’eau potable, celle-ci n’est plus disponible. Quand une IA scrape une information, l’information reste là où elle est et elle est rendu disponible ailleurs.