Post AWhDPOdetirSBJblfk by urtzai@mastodon.eus
 (DIR) More posts by urtzai@mastodon.eus
 (DIR) Post #AWhDPI0RYbvZbxDMiO by juanan@infosec.exchange
       2023-06-12T15:55:47Z
       
       0 likes, 0 repeats
       
       Aprende a instalar y usar Whisper AI en local para transcribir tus ficheros de audio a texto en prĂ¡cticamente cualquier idiomahttps://youtu.be/2pQg_HEjAug#GenAI
       
 (DIR) Post #AWhDPInMcj3k3g6Qy0 by parreitu@mastodon.eus
       2023-06-13T16:43:56Z
       
       0 likes, 0 repeats
       
       @juanan Eta euskerarekin zelako emaitzak lortzen dira?Duela aste batzuk "Whisper AI"  teknologian oinarritzen zen soluzio bat probatu nuen, eta euskarazko audioekin ez zuen ezer asmatzen ....
       
 (DIR) Post #AWhDPJeBSLJIhUocIS by RiverRock@mastodon.eus
       2023-06-13T19:54:22Z
       
       0 likes, 0 repeats
       
       @parreitu @juanan @xezpeleta
       
 (DIR) Post #AWhDPKHt4j4MgdOKBM by xezpeleta@mastodon.eus
       2023-06-13T20:04:25Z
       
       0 likes, 0 repeats
       
       @RiverRock @parreitu @juanan norbaiti balio badio, duela hilabete batzuk probazko fine-tuning bat egin nuen Whisper gainean euskarazko emaitzak hobetzeko: https://huggingface.co/xezpeleta/whisper-small-eu
       
 (DIR) Post #AWhDPLENZFrDc2l2Lw by xezpeleta@mastodon.eus
       2023-06-13T20:10:41Z
       
       0 likes, 0 repeats
       
       @RiverRock @parreitu @juanan hemen adibide bat, small modelo normala vs fine-tuned modeloa
       
 (DIR) Post #AWhDPLuD3jJlhmKRYO by juanan@infosec.exchange
       2023-06-13T21:00:08Z
       
       0 likes, 0 repeats
       
       @xezpeleta @RiverRock @parreitu Xabi, zure fine-tuned modeloarekin lehen esandako adibidearen transkripzioa askoz hobeto egin du orain whisper.cpp-ekSmall fine-tuned ordez medium fine-tuned bat erabiliz gero, transkripzioa zenbat hobetuko litzateke?Jarraitutako fine-tuned prozesua hau al da? https://huggingface.co/blog/fine-tune-whisper
       
 (DIR) Post #AWhDPMdEMLKXxPOOjA by xezpeleta@mastodon.eus
       2023-06-13T21:29:00Z
       
       0 likes, 0 repeats
       
       @juanan @RiverRock @parreitu bai hortan oinarritu nintzen, baina Colab erabiliz ezin izan nuen. Script hau erabiliz egin nuen azkenean GPU batekin (16GB): https://huggingface.co/xezpeleta/whisper-small-eu/blob/main/run.sh
       
 (DIR) Post #AWhDPNGE1MWRuLdXVY by xezpeleta@mastodon.eus
       2023-06-13T21:35:33Z
       
       0 likes, 0 repeats
       
       @juanan @RiverRock @parreitu emaitzak hobetzeko beste aukera bat euskerazko beste STT dataset batzuk erabiltzea da (CommonVoice aparte). Baina uste det eskuragarri ez ditugula asko...
       
 (DIR) Post #AWhDPNudb6qfvgXoUy by urtzai@mastodon.eus
       2023-06-14T21:23:09Z
       
       0 likes, 0 repeats
       
       @xezpeleta @juanan @RiverRock @parreitu atzo egindako proba, Artxipielagoaren podcast trailerrarekin eta medium modeloarekin:https://mastodon.eus/@urtzai/110539185300812624Ez dut asko ulertzen, baina proiektuaren githubean ikusi dudan taulan, Katalanak adibidez 7,1 WER dauka Fleurs dataseta erabilita, ezta? Hori zer da, bi aldiz emaitza hobea?
       
 (DIR) Post #AWhDPOdetirSBJblfk by urtzai@mastodon.eus
       2023-06-14T21:50:19Z
       
       0 likes, 0 repeats
       
       @xezpeleta @juanan @RiverRock @parreitu orain irakurtzen eta informatzen ari naizen honetan, Facebook-en dataseta (VoxPopuli) Europarlamentuko hizketaldien bilketa bat omen da. Gurean ere, Eusko Jaurlaritzan ez lirateke transkribatutako hizketaldiak egongo? Agian posible da, antzerako dataset bat eskuratzea, grabaketa horiek publikoak badira
       
 (DIR) Post #AWhDPPD6lvDXxGC4vY by xezpeleta@mastodon.eus
       2023-06-14T22:30:45Z
       
       0 likes, 1 repeats
       
       @urtzai @juanan @RiverRock @parreitu bai, eta EITBko eduki asko ere azpidatziekin. Ni ere egon nintzen honi buruz informazio bila, eta ez dirudi lan erreza ASR-rako dataset bat sortzea đŸ˜… .Gai hauen inguruan baditugu adituak inguruan (Elhuyar, Orai, iXa...). Agian baten batek pistaren bat emango digu? đŸ™„