URL: https://linuxfr.org/news/a-propos-des-etiquettes-sur-le-site-linuxfr-org Title: À propos des étiquettes sur le site LinuxFr.org Authors: Benoît Sibaud vmagnin, Florent Zara, Ysabeau et Julien Jorge Date: 2022-01-30T17:39:02+01:00 License: CC By-SA Tags: étiquette et linuxfrorg Score: 5 Il existe déjà des statistiques sur les [étiquettes sur le site LinuxFr.org](https://linuxfr.org/statistiques/tags) (commentée dans [chaque rétrospective annuelle](https://linuxfr.org/news/statistiques-2021-du-site-linuxfr-org#toc-%C3%89tiquettes-tags)) ; à l’exception de la prochaine phrase, je vais m’efforcer de ne parler que de choses qui n’y figurent pas déjà. La base de données contient actuellement environ 13 500 étiquettes, dont environ 11 600 étiquettes publiques, pour un total d’environ 123 000 étiquetages sur des contenus publiés. Citation sans rapport : _Il a d’ailleurs écrit lui-même qu’aucune étiquette ayant cours dans le monde occidental ne saurait lui convenir._ ([source](https://fr.wikiquote.org/wiki/Paul_Chacornac)) Commençons par quelques informations en vrac : - les étiquettes sont assez peu visibles sur le site si vous utilisez un navigateur sur mobile. Cela pourrait être un problème pour leur évolution. - La [capacité à bloquer l’étiquetage n’est pas encore codée](https://linuxfr.org/suivi/ajouter-la-possibilite-d-interdire-temporairement-les-etiquetages) et c’est bien dommage vu certains comportements (injures en étiquettes, étiquettes problématiques, etc.). - Les étiquettes dites « sémantiques » ne sont [pas encore en place](https://linuxfr.org/suivi/tags-semantiques). - Concernant l’accentuation [impôts](https://linuxfr.org/tags/imp%C3%B4ts/public) et [impots](https://linuxfr.org/tags/impots/public) sont une seule et même étiquette, et la forme affichée est celle saisie au premier étiquetage (hors intervention en base de données pour corriger donc). - La taille d’une étiquette est limitée à 64 caractères. - Les tirets sont à utiliser pour les mots composés comme [auto-hébergement](https://linuxfr.org/tags/auto-hébergement/public) ou parce que cela fait partie d’un nom comme [COVID-19](https://linuxfr.org/tags/covid-19/public). - Les soulignés sont à utiliser pour remplacer les espaces et associer des mots, par exemple les noms de personnes comme [linus_torvalds](https://linuxfr.org/tags/linus_torvalds/public) ou les concepts comme [réseau_social](https://linuxfr.org/tags/réseau_social/public) ou [jeu_libre](https://linuxfr.org/tags/jeu_libre/public). - Une modération de l’étiquetage est faite par l’équipe du site, notamment pour bien choisir les étiquettes, supprimer les doublons, regrouper les concepts, etc. Citation sans rapport : _Sous des étiquettes opposées, sache reconnaître la même pensée, et sous des étiquettes semblables des conduites opposées._ ([source](https://fr.wikiquote.org/wiki/Guy_Hocquenghem)). Un des premiers choix à faire est singulier ou pluriel (jeu ou jeux ?), le choix par défaut étant le singulier. Mais d’autres questions peuvent se poser : genre, traduction ou franglais, acronyme, mettre ou non le second prénom d’une personne, mot régional ou national, etc. - Il existe un script `tag_me.sh` qui permet d’étiqueter massivement (mais manuellement) en donnant une étiquette et une recherche associée (par exemple étiquette [lennart_poettering](https://linuxfr.org/tags/lennart_poettering/public) et toutes les combinaisons justes ou erronées qui ont pu être saisies sur le prénom, le nom ou les deux). - Le recours à ce script se fait dans des situations variées : nécrologies pour retrouver les mentions de la personne disparue (ou l’événement ou le projet disparu), version majeure d’un logiciel, recherche sur un projet qui donne de maigres résultats alors que l’on sait qu’il existe plein de contenus sur le sujet, modération suite à un signalement de doublon ou de faute, constat qu’un événement a été étiqueté en 2020 et en 2022 mais pas en 2021, etc. - En bas de page, on trouve un affichage des « étiquettes (tags) populaires » (en ce moment [libreoffice](https://linuxfr.org/tags/libreoffice/public), [fosdem](https://linuxfr.org/tags/fosdem/public), [lennart_poettering](https://linuxfr.org/tags/lennart_poettering/public), [onlyoffice](https://linuxfr.org/tags/onlyoffice/public), [wallabag](https://linuxfr.org/tags/wallabag/public), [police_de_caractères](https://linuxfr.org/tags/police_de_caractères/public), [académie_française](https://linuxfr.org/tags/académie_française/public), [police_institution](https://linuxfr.org/tags/police_institution/public), [ada](https://linuxfr.org/tags/ada/public), [complotisme](https://linuxfr.org/tags/complotisme/public), [agenda_du_libre](https://linuxfr.org/tags/agenda_du_libre/public), [rust](https://linuxfr.org/tags/rust/public)), influencé un peu par les étiquetages des visiteurs et beaucoup par les étiquetages massifs. ---- ---- Rajoutons quelques statistiques pour faire bon poids. # Sur le nombre d’étiquetages Étiquetages pour une étiquette donnée | Nombre d’étiquettes publiques concernées ------------|-----------|---------- entre 1 et 9 | 9919 entre 10 et 99 | 1524 entre 100 et 999 | 171 1000 et plus | 4 L’échelle en semi-log décimal montre que c’est tout de même bien tassé. Les quatre plus fréquemment utilisées sont des cas très particuliers (il s’agit de l’ajout initial lors de la mise en place des étiquettes en 2011, vu que l’on parle de noms de sections comme l'étiquette [info_locales](https://linuxfr.org/tags/infos_locales/public) qui comprend notamment l'ancienne section [lug](https://linuxfr.org/sections/lug), l'étiquette [logiciel](https://linuxfr.org/tags/logiciel/public) associée aux sorties de versions, l'étiquette [sécurité](https://linuxfr.org/tags/sécurité/public) initialement basée sur la section [sécurité](https://linuxfr.org/sections/s%C3%A9curit%C3%A9), et l'étiquette [linux](https://linuxfr.org/tags/linux/public) basée notamment sur la section [noyau](https://linuxfr.org/sections/noyau). Avec une échelle en puissance de deux pour mieux distinguer : Étiquetages pour une étiquette donnée | Nombre d’étiquettes publiques concernées ------------|----------- 2048 et plus | 2 entre 1024 et 2047 | 1 entre 512 et 1023 | 16 entre 256 et 511 | 34 entre 128 et 255 | 78 entre 64 et 127 | 155 entre 32 et 63 | 332 entre 16 et 31 | 505 entre 8 et 15 | 926 entre 4 et 7 | 1539 entre 2 et 3 | 2697 1 | 5333 Le groupe « un seul étiquetage » où 5333 étiquettes n’ont été utilisées qu’une seule fois est composé soit des étiquettes vraiment peu utiles, soit des étiquettes à usage très ponctuel, comme un [identifiant de faille CVE](https://fr.wikipedia.org/wiki/Common_Vulnerabilities_and_Exposures) par exemple, soit des fautes de frappe qui auraient échappé à notre vigilance. # Sur l’ancienneté des étiquettes ayant un seul étiquetage Année de création d’une étiquette publique à un seul étiquetage | Étiquetages -----------|---------- 2011 | 361 | 2012 | 625 | 2013 | 505 | 2014 | 545 | 2015 | 456 | 2016 | 432 | 2017 | 416 | 2018 | 468 | 2019 | 410 | 2020 | 578 | 2021 | 463 | 2022 | 74 | On génère à peu près régulièrement des étiquettes publiques à un seul étiquetage. Cela n’est pas forcément bien ou mal d’avoir des étiquettes à un seul étiquetage (bref ça dépend des cas), mais en tout cas c’est plus ou moins régulier. # Sur les personnes qui étiquettent Poser une étiquette nécessite d’avoir un compte sur le site. Nombre de comptes concernés | Étiquetages | Commentaire -----------|----------|---------- 1 | plus de 16384 | ne cherchez pas c’est moi 2 | entre 8192 et 16383 | dont le cas spécial anonyme 0 | entre 4096 et 8191 | 2 | entre 2048 et 4095 | 4 | entre 1024 et 2047 | 11 | entre 512 et 1023 | 20 | entre 256 et 511 | 53 | entre 128 et 255 | 94 | entre 64 et 127 | 177 | entre 32 et 63 | 307 | entre 16 et 31 | 538 | entre 8 et 15 | 1053 | entre 4 et 7 | 963 | entre 2 et 3 | 653 | 1 | # Un nuage d’étiquettes entièrement en Markdown **[sécurité](https://linuxfr.org/tags/sécurité/public)** · [CINÉMA](https://linuxfr.org/tags/cinéma/public) · [KERNEL](https://linuxfr.org/tags/kernel/public) · [windows](https://linuxfr.org/tags/windows/public) · [OPEN_SOURCE](https://linuxfr.org/tags/open_source/public) · **[PYTHON](https://linuxfr.org/tags/python/public)** · [eucd](https://linuxfr.org/tags/eucd/public) · [vidéo](https://linuxfr.org/tags/vidéo/public) · [licence](https://linuxfr.org/tags/licence/public) · [réseau](https://linuxfr.org/tags/réseau/public) · [sauvegarde](https://linuxfr.org/tags/sauvegarde/public) · [edward_snowden](https://linuxfr.org/tags/edward_snowden/public) · [HUMEUR](https://linuxfr.org/tags/humeur/public) · **[linux](https://linuxfr.org/tags/linux/public)** · [kde](https://linuxfr.org/tags/kde/public) · [fedora](https://linuxfr.org/tags/fedora/public) · [virtualisation](https://linuxfr.org/tags/virtualisation/public) · [javascript](https://linuxfr.org/tags/javascript/public) · [réseau_social](https://linuxfr.org/tags/réseau_social/public) · [LIBRE](https://linuxfr.org/tags/libre/public) · [systemd](https://linuxfr.org/tags/systemd/public) · [logiciel_libre](https://linuxfr.org/tags/logiciel_libre/public) · [conférence](https://linuxfr.org/tags/conférence/public) · [jeu_libre](https://linuxfr.org/tags/jeu_libre/public) · [BRONSONISATION](https://linuxfr.org/tags/bronsonisation/public) · [DISTRIBUTION](https://linuxfr.org/tags/distribution/public) · [tutoriel](https://linuxfr.org/tags/tutoriel/public) · [suse](https://linuxfr.org/tags/suse/public) · [XMPP](https://linuxfr.org/tags/xmpp/public) · **[richard_stallman](https://linuxfr.org/tags/richard_stallman/public)** · [SCO](https://linuxfr.org/tags/sco/public) · [red_hat](https://linuxfr.org/tags/red_hat/public) · [CLOUD](https://linuxfr.org/tags/cloud/public) · **[presse](https://linuxfr.org/tags/presse/public)** · [photo](https://linuxfr.org/tags/photo/public) · [code](https://linuxfr.org/tags/code/public) · [test](https://linuxfr.org/tags/test/public) · [LINUXFR](https://linuxfr.org/tags/linuxfr/public) · [open_hardware](https://linuxfr.org/tags/open_hardware/public) · [TROLL](https://linuxfr.org/tags/troll/public) · · [MICROSOFT](https://linuxfr.org/tags/microsoft/public) · [OPENSUSE](https://linuxfr.org/tags/opensuse/public) · [dmca](https://linuxfr.org/tags/dmca/public) · [raspberry_pi](https://linuxfr.org/tags/raspberry_pi/public) · [smartphone](https://linuxfr.org/tags/smartphone/public) · [WEB](https://linuxfr.org/tags/web/public) · [sortie_version](https://linuxfr.org/tags/sortie_version/public) · [gimp](https://linuxfr.org/tags/gimp/public) · [FOSDEM](https://linuxfr.org/tags/fosdem/public) · [ANDROID](https://linuxfr.org/tags/android/public) · [LIVRE](https://linuxfr.org/tags/livre/public) · [COVID-19](https://linuxfr.org/tags/covid-19/public) · [apple](https://linuxfr.org/tags/apple/public) · [PHP](https://linuxfr.org/tags/php/public) · [GNOME](https://linuxfr.org/tags/gnome/public) · [LINUS_TORVALDS](https://linuxfr.org/tags/linus_torvalds/public) · [rtfm](https://linuxfr.org/tags/rtfm/public) · [FIREFOX](https://linuxfr.org/tags/firefox/public) · [SPAM](https://linuxfr.org/tags/spam/public) · [diy](https://linuxfr.org/tags/diy/public) · [WIKIPEDIA](https://linuxfr.org/tags/wikipedia/public) · **[INFOS_LOCALES](https://linuxfr.org/tags/infos_locales/public)** · [openstreetmap](https://linuxfr.org/tags/openstreetmap/public) · [MOZILLA](https://linuxfr.org/tags/mozilla/public) · [java](https://linuxfr.org/tags/java/public) · [REVUE_DE_PRESSE](https://linuxfr.org/tags/revue_de_presse/public) · [git](https://linuxfr.org/tags/git/public) · [ÉTHIQUE](https://linuxfr.org/tags/éthique/public) · [VIE_PRIVÉE](https://linuxfr.org/tags/vie_privée/public) · [sciences](https://linuxfr.org/tags/sciences/public) · [GOOGLE](https://linuxfr.org/tags/google/public) · [HADOPI](https://linuxfr.org/tags/hadopi/public) · [shell](https://linuxfr.org/tags/shell/public) · [éducation](https://linuxfr.org/tags/éducation/public) · [FRANGLAIS](https://linuxfr.org/tags/franglais/public) · [NOYAU_LINUX](https://linuxfr.org/tags/noyau_linux/public) · [XFCE](https://linuxfr.org/tags/xfce/public) · **[LOGICIEL](https://linuxfr.org/tags/logiciel/public)** · **[internet](https://linuxfr.org/tags/internet/public)** · [musique](https://linuxfr.org/tags/musique/public) · [POLITIQUE](https://linuxfr.org/tags/politique/public) · **[debian](https://linuxfr.org/tags/debian/public)** · [programmation](https://linuxfr.org/tags/programmation/public) · [DÉVELOPPEUR](https://linuxfr.org/tags/développeur/public) · [AGENDA_DU_LIBRE](https://linuxfr.org/tags/agenda_du_libre/public) · [BSD](https://linuxfr.org/tags/bsd/public) · [vote_électronique](https://linuxfr.org/tags/vote_électronique/public) · [brevets](https://linuxfr.org/tags/brevets/public) · [auto-hébergement](https://linuxfr.org/tags/auto-hébergement/public) · [JEU](https://linuxfr.org/tags/jeu/public) · [podcast](https://linuxfr.org/tags/podcast/public) · [rmll](https://linuxfr.org/tags/rmll/public) · [JEU_VIDÉO](https://linuxfr.org/tags/jeu_vidéo/public) · [DADVSI](https://linuxfr.org/tags/dadvsi/public) · **[libreoffice](https://linuxfr.org/tags/libreoffice/public)** · [JEUX_LINUX](https://linuxfr.org/tags/jeux_linux/public) · [UBUNTU](https://linuxfr.org/tags/ubuntu/public) · [blender](https://linuxfr.org/tags/blender/public) · [INTERVIEW](https://linuxfr.org/tags/interview/public) Un tel nuage montre un peu ses limites actuelles : - le poids de l’étiquetage initial basé sur les sections de l’époque (2011 en l'occurrence) est fort, - les ré-étiquetages massifs influencent beaucoup les résultats, et ne sont pas forcément représentatifs des publications sur le site (sauf à tout ré-étiqueter massivement), - _kernel_ ne devrait pas apparaître (mais cela représente un très gros ré-étiquetage) : ```bash $ bin/tag_me.sh noyau_linux kernel Searching for contents containing “kernel” with tag.id 6082 https://linuxfr.org/users/trs80/journaux/ouverture-de-mon-journal (… 1285 autres liens vers des journaux) https://linuxfr.org/wiki/linuxfr-org (… 8 autres liens vers des pages wiki) https://linuxfr.org/suivi/archives (… 8 autres liens vers des entrées du suivi) https://linuxfr.org/forums/linux-general/posts/passage-a-cooker-maj-kernel (… 1796 autres liens vers des entrées de forum) https://linuxfr.org/sondages/le-kernel-26 (… 8 autres liens vers des sondages) https://linuxfr.org/news/kernel-cousin-pour-la-liste-debian-devel (… 692 autres liens vers des dépêches) ``` donc potentiellement 3800 étiquetages de plus pour [noyau_linux](https://linuxfr.org/tags/noyau_linux/public), - les ré-étiquetages massifs sont aussi influencés par leur difficulté : trouver les variantes de Poettering pour l’étiquette [lennart_poettering](https://linuxfr.org/tags/lennart_poettering/public) ou de Torvalds pour l’étiquette [linus_torvalds](https://linuxfr.org/tags/linus_torvalds/public) est « facile ». Rechercher des occurrences de « C » dans du français pour le langage C, c’est très pénible. Ou séparer Linux, le noyau, de « Linux » le système d’exploitation par exemple.