Actualment no existeix cap assistent virtual de veu comercial en català. Fins ara les grans companyies com Google, Apple o Amazon no han mostrat interès en donar suport al català però gràcies als esforços de la comunitat de codi lliure catalana és possible fer servir un assistent virtual en la nostra llengua.
Quins projectes fan possible l'Ona i en Pau?
Anomenem interacció a tot el que passa des del moment que pronunciem la primera paraula fins que l'assistent virtual ha acabat de parlar. Durant una interacció entren en joc tota una sèrie de components complexos que fins fa poc ni tan sols existien pel català:
Reconeixement automàtic de la parla
És el component que transforma l'àudio de la nostra veu en text. A mitjans del 2018 Col·lectivaT va publicar el primer model lliure de reconeixement de la parla en català basat en CMUSphinx. Aquell any i gràcies a Softcatalà es va començar a impulsar la presència del català al projecte Common Voice de Mozilla, una iniciativa per recollir dades de veu i posar-les a disposició de la comunitat de manera lliure i gratuïta amb llicència CC0.
Gràcies a aquest conjunt de dades (més de 700 hores) i al corpus amb dades de veu del Parlament de Catalunya creat per Col·lectivaT ha estat possible entrenar altres models de reconeixement automàtic de la parla:
- Deepspeech Català: basat en el motor de RAP de Mozilla
- VOSK Model Catalan: Un model per a Vosk fet amb Kaldi per Alphacephei
Síntesi de la parla
Si bé existeixen des de fa temps sintetitzadors de la parla en català basats en fonemes com Festival (gràcies a FestCat) i eSpeak, aquests produeixen un so molt robòtic. Amb l'adveniment dels models de síntesi de la parla neuronals ha estat possible crear veus més naturals i gràcies a Col·lectivaT disposem de dues veus lliures i obertes en català. Aquí és possible provar la veu.
Comprensió del llenguatge natural
Un assistent de veu, per tal de semblar mínimament intel·ligent, ha de comprendre l'ordre o la pregunta formulada. Això és possible gràcies al camp de la comprensió del llenguatge natural, que transforma un text en una intenció comprensible per un ordinador. Per exemple:
- "Vull anar de Tarragona a Viladecans" → {"Intenció": "DemanarRuta", "Origen": "Tarragona", "Destí": "Viladecans"}
- SpaCy Català: un model per a la llibreria spaCy
- Julibert: un model basat en ROBERTA
- calbert: un model ALBERT (A lite BERT)
- DeepCatalan: un model basat en UMLFit
Assistent virtual i habilitats
Gràcies a l'impuls de Softcatalà ha estat possible traduir i adaptar al català Mycroft, un assistent virtual enfocat a la privacitat que pot funcionar sense connexió. Però són sobretot les habilitats les que donen utilitat a un assistent virtual i amb la traducció de Mycroft i les seves habilitats ha estat possible obtenir un assistent lliure, obert i en català en temps rècord.
Com puc col·laborar?
Hi ha moltes maneres de col·laborar i millorar les tecnologies que fan possible tot això:
- Participar en el projecte Common Voice enregistrant talls de veu i validant-los
- Ajudant a crear habilitats de Mycroft noves i traduir-ne d'existents (Passeu pel canal Telegram Mycroft en Català)
- Creant nous models lliures i oberts
M'agradaria saber més sobre les tecnologies lingüístiques lliures en català
Durant el novembre i desembre de 2020 van tenir lloc les primeres jornades sobre tecnologies lingüístiques lliures en català organitzades per Col·lectivaT, amb algunes sessions més generalistes i d'altres més tècniques. Podeu trobar un resum de les jornades amb els vídeos de cada sessió al següent enllaç.
Resum de les jornades sobre tecnologies lingüístiques lliures en català