Post Am3s16KL2L8TGNIFdo by f_moncomble@mastodon.online
(DIR) More posts by f_moncomble@mastodon.online
(DIR) Post #Am3s16KL2L8TGNIFdo by f_moncomble@mastodon.online
2024-09-16T12:16:15Z
0 likes, 0 repeats
Tiens, pour rebondir sur la vidéo de Desmurget et la différence mots (ou types) vs. tokens…Le ratio entre types et tokens fournit une indication de la diversité lexicale d'un texte ou d'un corpus donné : on divise le nombre de tokens par le nombre de types (ou, mieux, de lemmes), et plus le résultat est bas (proche de 1), plus le corpus est "riche" lexicalement.…/…
(DIR) Post #Am3s17KjIN2iNsU4tE by f_moncomble@mastodon.online
2024-09-16T12:16:15Z
0 likes, 0 repeats
Ainsi, "a rose is a rose is a rose" = 8 tokens / 3 types ≈ 2,67,mais "les chaussettes de la comtesse sont super sèches" = 8 tokens / 8 types = 1.Pratique ! On peut comparer ainsi la "richesse" du vocabulaire de deux romans, discours, etc.Sauf… sauf quand les corpus que l'on compare sont de tailles différentes. En effet, plus un texte est long, plus il va réutiliser les mêmes mots, et son ratio tokens/types va s'envoler.…/…
(DIR) Post #Am3s18KlZifNUHVcaO by f_moncomble@mastodon.online
2024-09-16T12:16:15Z
0 likes, 0 repeats
Madame Bovary, avec ses 183.000 tokens, va alors sembler bien plus "pauvre" que Boule de Suif (45.600 tokens) : 21,06 vs. 10,22. Alors qu'en fait, compte tenu de leurs tailles respectives, ces deux œuvres déploient une diversité lexicale équivalente. Et ça, on le sait en faisant un comptage incrémentiel du nombre de types ou de lemmes rencontrés token après token :
(DIR) Post #Am3s19Knr4I2agXAHY by f_moncomble@mastodon.online
2024-09-16T12:16:15Z
0 likes, 0 repeats
C'est le type de représentation qui est expliqué ici :http://www.jstor.org/stable/42946163Et si vous voulez vous amuser à faire pareil, c'est par là :https://fmoncomble.github.io/ttr/index.html
(DIR) Post #Am3tX4sU3o9jzO4miO by f_moncomble@mastodon.online
2024-09-16T13:09:35Z
0 likes, 0 repeats
@lanodan Je trouve que si, au contraire : un texte "naturel" tendra à avoir une courbe qui s'aplatit, car plus un texte est long, plus les "types" ou lemmes tendent à se répéter. Ici on a une progression quasi arithmétique qui montre qu'il y a très peu de répétition !
(DIR) Post #Am3uEC29KZ8adQ9kO0 by f_moncomble@mastodon.online
2024-09-16T13:13:31Z
0 likes, 0 repeats
@lanodan Après, vu la faible longueur du texte, l'intervalle (1 datapoint tous les 1000 tokens) est probablement trop grand… je vais enlever la limite minimale pour permettre de traiter des textes plus petits… 😉