URL: https://linuxfr.org/news/illico-editor-nouveautes-depuis-2021 Title: Illico Editor : nouveautés depuis 2021 Authors: asky orfenor, Benoît Sibaud, palm123 et BAud Date: 2025-01-26T21:25:59+01:00 License: CC By-SA Tags: illico Score: 3 **Illico Editor** est un *(petit) couteau suisse de la qualification de données* développé à l’origine pour permettre aux experts métiers de transformer les données sans recourir à la programmation… le tout dans une simple page HTML (pas de serveur Web) donc une utilisation à travers le navigateur. Aujourd’hui, plus de 150 transformations de données sont disponibles prêtes à l'emploi. Particularité : chaque transformation exécutée ainsi que son résultat sont inscrits dans un journal de bord créant ainsi une sorte de procédure-type sans effort. Publié sous licence GPL, le code d’Illico est globalement très basique : standards HTML5/CSS3/JS, et zéro dépendance, bibliothèque ou appel à un code tiers. Les données restent dans le (cache du) navigateur. Les algorithmes sont très simples. La complexité est plutôt liée à la manière d’imaginer de nouvelles transformations de données, à la fois génériques (paramétrables) tout en restant simples pour l’utilisateur (nombre réduit de paramètres). ---- [Site principal (changement de domaine)](https://illico.ti-nuage.fr) [Précédente dépêche (2021)](https://linuxfr.org/news/illico-editor-nouveautes-depuis-2019) ---- # Quelques limites à connaître Dans mon usage, des crashs du navigateur ont été constatés sur des grands jeux de données avec les fonctionnalités qui sollicitent le plus grand nombre de comparaisons (précisément le calcul de la distance d’édition / lignes). Pour un grand volume de données, mon conseil serait d’opter pour Opera/Vivaldi qui proposent à l’utilisateur d’augmenter la mémoire allouée à la page (plutôt que de faire crasher l’onglet/navigateur) ; de réduire le jeu de données aux colonnes/lignes à traiter (ce qui réduirait la taille), avant de se lancer dans les transformations ; ou d’opter pour des outils plus adaptés à cette volumétrie. Un test sur des données factices m’avait permis d’identifier des tailles limites de jeu de données : https://illico.ti-nuage.fr/doc/build/html/fct/principes.html#jeu-de-donnees-volumineux # Objet de la dépêche Cette dépêche fait écho à la précédente de janvier 2021. Au-delà des corrections de bug et des améliorations (gestion des nombres décimaux et négatifs pour les intervalles, options supplémentaires pour décider l’interprétation de “valeurs” vides), je voulais présenter ici la trentaine de nouvelles fonctionnalités/traitements et les nouveaux tutoriels. ## Avant de commencer Dans Illico, l’expression *valeurs en liste* désigne * des données présentées sous la forme *a, b, c* (le séparateur peut être un caractère ou une chaîne) * des listes de couples de valeurs *xxx:1 / yyy:2 / zzz:3* (un séparateur de liste **/** + un délimiteur {clé => valeur} ici **:** # Nouveaux tutoriels La section **tutoriels** décrit des cas concrets pour lesquels il n’existe pas de résolution « en 1 étape ». Dans certains cas, une fonctionnalité a été développée pour couvrir tout ou partie de la résolution. Ces tutoriels sont détaillés pas à pas dans la section “tutoriels” afin d’être utilisés comme support de formation. Je résume ici leur logique. ## Transposer une matrice Au sens “mathématique” du terme, bascule les lignes en colonnes et vice-versa : _nombre d’étapes/actions du tutoriel : 6_ *une nouvelle fonctionnalité a été développée par la suite pour transposer les données en 1 clic/étape/action* ## Comparer (rapidement) des groupes de colonnes Comparer des groupes de colonnes prises deux à deux était déjà possible. Cependant, avec un grand nombre de colonne, l’opération pouvait s’avérer fastidieuse et source d’erreurs. Le tutoriel présente une manière plus générique de comparer un grand nombre de colonne de deux fichiers sources avec le même en-tête, par exemple la description d’une même population sur deux années différentes. _nombre d’étapes/actions du tutoriel : (2 par fichier source) + 4_ *l’intérêt de ce tutoriel réside surtout dans le fait de rendre la complexité du traitement indépendante du nombre (de paires) de colonnes à comparer* ## Comparer des lignes dans un fichier cumul On souhaite identifier des différences mais cette fois au sein d’un même fichier de données décrivant un cumul. Il peut s’agir par exemple de deux jeux de données mis bout-à-bout décrivant une même population sur deux années différentes. _nombre d’étapes/actions du tutoriel : 3_ ## Créer un fichier cumul à partir de deux sources aux formats proches Le cas a été rencontré lors d’une analyse de journaux comptables où les jeux de données présentaient des rubriques/codes comptables en colonne. D’un mois sur l’autre, le nombre et l’ordre de ces colonnes/rubriques différaient. Le tutoriel permet de s’affranchir de ces variations de la structure des données. _nombre d’étapes/actions du tutoriel : (4 par fichier source) + 3_ ## Reconstituer des calendriers Autre cas de figure rencontré, les données décrivent des personnes présentes sur des périodes avec en colonne la date de début, la date de fin, puis les autres données. À partir de ces données, on recherche les dates/jours exactes qui ont rassemblé le plus de personne. La résolution consiste à générer l’ensemble des jours (entre la date de début et la date de fin), c’est-à-dire une description des faits à une échelle *unitaire/atomique* (chaque ligne décrivant alors une date et non une période). _Trois approches sont proposées dans le tutoriel : entre 3 et 6 étapes/actions_ ## Fidélisation (suivre une cohorte) La problématique soulevée était de comprendre les parcours, trajectoires pour une population donnée. Exemple simplifié : 4 lignes de données décrivent (dans l’ordre chronologique) les états/statuts successifs d’un individu, à raison d’un par ligne : *a -> b -> c -> d*. *dans la pratique, le jeu de données décrivait une population d’individu avec des trajectoire de 4 à 50 états, parfois circulaires a -> b -> a -> d -> c* On souhaite identifier : 1. le parcours par rapport à l’état initial pour l’individu pris en exemple, le résultat sera la relation suivante : *a => {b -> c -> d}* 2. les changements d’état (de proche en proche) pour le même exemple, le résultat sera une liste de couple de valeurs : *(a => b), (b => c), (c => d)* 3. les relations entre l’état initial et n’importe quel autre état du parcours même exemple, le résultat sera trois couples de valeurs : *(a => b), (a => c), (a => d)* 4. les relations entre n’importe quel état du parcours et n’importe quel autre état rencontré par la suite même exemple, le résultat sera six couples : * *(a => b), (a => c), (a => d)* * *(b => c), (b => d)* * *(c => d)* La fonctionnalité utilisée possède une option “scénario” avec les 4 choix. Ainsi, on définit « ce que représente les données » en précisant le ou les séparateurs, et la transformation est appliquée selon la demande. Les 4 scénarios sont proposés dans le tutoriel : 3 étapes/actions (une 4ème étape est nécessaire si on souhaite étudier à part le 1er état et l’état terminal de la trajectoire) # Nouvelles fonctionnalités La majorité des nouvelles fonctionnalités concerne * des traitements de dates (décalage, conversion) * des traitements d’intervalles numériques * des traitements de périodes (intervalles de dates) Elles sont présentées ci-dessous dans leur rubrique respective (dans l’ordre d’apparition des rubriques dans Illico et dans la documentation). *(dans l’application, chaque écran permettant d’exécuter une transformation possède un lien vers la section/page concernée dans la documentation)* ## Valeurs en liste : compacter, inverser l’ordre, filtrer **compacter les listes** _rubrique « valeurs en liste : agrégats"_ Pour une liste qui présente des répétitions -- *a,a,b,c,a,d,b* -- les deux options de cette transformation permettent d’obtenir : * *a,b,c,a,d,b* : réduire à une occurrence, pour chaque série * *a,b,c,d* : conserver globalement les premières occurrences * *c,a,d,b* : conserver globalement les dernières occurrences **inverser l’ordre des éléments des listes** _rubrique « valeurs en liste : structure"_ Pour une colonne décrivant des listes d’éléments -- *a:1, b:2* -- , * inverse l’ordre des valeurs des listes (*b:2, a:1*) * inverse l’ordre des valeurs des listes imbriquées seulement (*1:a, 2:b*) * inverse l’ordre des listes imbriquées et des valeurs dans ces listes (*2:b, 1:a*) **filtrer ou exclure les valeurs d’une liste** _rubrique « valeurs en liste : filtres"_ compare les listes de valeurs d’une colonne par rapport à une autre colonne de référence * égal * différent de * supérieur/inférieur ou égal à * strictement supérieur/inférieur à **réduire la liste à certaines clés** conserver/exclure certains couples {clé:valeur} lorsque la clé existe dans une autre colonne (qui contient pour chaque ligne la liste de clés à conserver ou à exclure) Par exemple -- et sans devoir utiliser des regex/expressions rationnelles -- la liste *2021=3,2022=1,2024=4* pourra être réduite à *2022=1,2024=4* si la clé *2021* existe dans la colonne de contrôle. ## Valeurs en liste : lister les permutations, mélanger la liste _rubrique valeurs en liste : enrichissement_ **lister les permutations des valeurs d’une liste** produit la liste de toutes les permutations des valeurs des listes de la colonne sélectionnée. **mélanger les valeurs de la liste** applique le mélange de Fisher-Yates sur les valeurs de la liste ## enlever les accents et les cédilles de l’en-tête _rubrique « en-tête"_ surtout utile lorsque l’on part d’un tableur et que l’on cherche à injecter les données dans une base de données ne tolérant pas ces caractères dans les en-têtes ## Permuter les colonnes _rubrique « colonnes : ordre"_ Dans le cas d’un export de données depuis un logiciel métier, ou suite à certaines transformations, certaines colonnes peuvent être générées dans un ordre qui ne s’avère pas très intuitif. Cette nouvelle fonctionnalité inverse en 1 clic l’ordre des colonnes sélectionnées en permutant (au choix) * 1ʳᵉ et 2ᵉ, 3ᵉ et 4ᵉ, etc. * 1ʳᵉ et dernière, 2ᵉ et avant-dernière, etc. ## Numéroter chaque série _rubrique “lignes”_ Dans Illico, le terme *série* désigne une suite de lignes contiguës qui possèdent la même valeur dans la colonne sélectionnée (un identifiant par exemple). Si l’identifiant réapparaît plus loin dans les données, il s’agira d’une nouvelle série. *(une autre transformation permet déjà de numéroter chaque ligne de la série)* ## Obtenir les méta-données des colonnes sélectionnées _rubrique “agrégats”_ Pour les colonnes sélectionnées, indique * si la colonne ne contient que des valeurs uniques (les valeurs vides sont comptées à part) * le nombre de lignes sans valeur (valeur vide) * le nombre de valeurs renseignées (valeur non-vide) * la cardinalité : nombre de valeurs différentes rencontrées dans la colonne ## Décaler les dates _rubrique “temps”_ **décaler les dates avec 1 constante (saisie par l’utilisateur)** permet de décaler les dates d’une colonne à partir d’une constante (on précise l’unité : nombre de jours, de semaines, de mois ou d’années) **décaler des dates selon 1 autre colonne** idem précédemment mais en se basant sur les valeurs d’une autre colonne plutôt qu’une constante ## Jours de la semaine _rubrique “temps”_ **donner le nom des jours de la semaine** la date est alors recodée : lundi, mardi… **compter chacun des jours de la semaine** nombre de lundis, de mardis, etc. dans l’intervalle décrit par des colonnes *début* et *fin* de la période **obtenir le numéro du jour dans l’année** 1 pour le 1ᵉʳ janvier, 32 pour le 1ᵉʳ février… ## Transformation des périodes « temps : intervalles » **compléter un intervalle de date** (2 colonnes : début et fin de la période) crée une liste de jour/date dans l’intervalle décrit **rechercher une date dans un intervalle de date** compare 1 colonne (date recherchée) par rapport à 2 autres colonnes décrivant une période (début et fin de la période) **combiner deux périodes** (4 colonnes) option (au choix) : obtenir * une *fusion* : période englobant les deux [min, max] * une *union* : période englobant les deux seulement si intersection * une *intersection* : plus petite période commune **comparer les dates et une liste de seuils** (saisie par l’utilisateur) **détecter des collisions de périodes** portée de la détection * rechercher pour l’ensemble des données * rechercher dans les lignes qui partagent un même identifiant (les lignes comparées ne sont pas forcément contiguës) * rechercher dans les lignes qui décrivent une série (lignes contiguës avec un même identifiant) ## Calculs _rubrique “calculs”_ **calculer une opération sur 1 colonne : options** options : * opérations : minimum, maximum, moyenne, somme * valeurs vides : ignorées ou traduites par zéro * calcul : total ou cumulé * option si cumulé : en partant de la première ou dernière ligne * résultat : global ou local * option si local : pour chaque série ou pour chaque identifiant **calculer une opération avec 1 constante (saisie par l’utilisateur)** **calculer une somme ou une moyenne sur x colonnes** ## Convertir d’un système de numération à un autre _rubrique “enrichissement”_ **conversion depuis et vers une base binaire, octale, décimale, hexadécimale** ## Matrice : transposée, inverser, trier _rubrique “matrice”_ **calculer la transposée** Transpose le jeu de données : les lignes deviennent les colonnes et inversement ; la ligne d’en-tête devient la première colonne ; la première colonne devient la ligne d’en-tête. **inverser l’ordre des lignes** Inverse l’ordre des lignes du jeu de données : la première ligne devient la dernière, la dernière devient la première, etc. **trier par ordre alphabétique** options * ordre des lettres : *A…Z…a…z…É…é* ou *A…É…Z…a…é…z* * placer les valeurs vides : *au début* ou *à la fin* **trier par ordre numérique** option : les valeurs vides sont * les plus petites (seront placées au début du tableau) * les plus grandes (seront placées à la fin du tableau) * égales à zéro **trier par ordre chronologique** option : les valeurs vides sont * dans le passé lointain * dans un futur lointain * égales à la date du jour * égales à une date précise (à saisir)