Assistents virtuals en català

Actualment no existeix cap assistent virtual de veu comercial en català. Fins ara les grans companyies com Google, Apple o Amazon no han mostrat interès en donar suport al català però gràcies als esforços de la comunitat de codi lliure catalana és possible fer servir un assistent virtual en la nostra llengua.

Quins projectes fan possible l'Ona i en Pau?

Anomenem interacció a tot el que passa des del moment que pronunciem la primera paraula fins que l'assistent virtual ha acabat de parlar. Durant una interacció entren en joc tota una sèrie de components complexos que fins fa poc ni tan sols existien pel català:

Reconeixement automàtic de la parla

És el component que transforma l'àudio de la nostra veu en text. A mitjans del 2018 Col·lectivaT va publicar el primer model lliure de reconeixement de la parla en català basat en CMUSphinx. Aquell any i gràcies a Softcatalà es va començar a impulsar la presència del català al projecte Common Voice de Mozilla, una iniciativa per recollir dades de veu i posar-les a disposició de la comunitat de manera lliure i gratuïta amb llicència CC0.

Gràcies a aquest conjunt de dades (més de 700 hores) i al corpus amb dades de veu del Parlament de Catalunya creat per Col·lectivaT ha estat possible entrenar altres models de reconeixement automàtic de la parla:

Aquests models lliures assoleixen resultats comparables amb els serveis de reconeixement de la parla de Google o Microsoft.

Síntesi de la parla

Si bé existeixen des de fa temps sintetitzadors de la parla en català basats en fonemes com Festival (gràcies a FestCat) i eSpeak, aquests produeixen un so molt robòtic. Amb l'adveniment dels models de síntesi de la parla neuronals ha estat possible crear veus més naturals i gràcies a Col·lectivaT disposem de dues veus lliures i obertes en català. Aquí és possible provar la veu.

Comprensió del llenguatge natural

Un assistent de veu, per tal de semblar mínimament intel·ligent, ha de comprendre l'ordre o la pregunta formulada. Això és possible gràcies al camp de la comprensió del llenguatge natural, que transforma un text en una intenció comprensible per un ordinador. Per exemple:

Aquesta acció tan simple pels humans requereix diversos components entre els quals es troben els models de processament del llenguatge natural. Alguns models lliures i oberts són:

Assistent virtual i habilitats

Gràcies a l'impuls de Softcatalà ha estat possible traduir i adaptar al català Mycroft, un assistent virtual enfocat a la privacitat que pot funcionar sense connexió. Però són sobretot les habilitats les que donen utilitat a un assistent virtual i amb la traducció de Mycroft i les seves habilitats ha estat possible obtenir un assistent lliure, obert i en català en temps rècord.

Com puc col·laborar?

Hi ha moltes maneres de col·laborar i millorar les tecnologies que fan possible tot això:

Un bon punt de trobada és el canal de Telegram de Tecnologies de la Parla de Softcatalà

M'agradaria saber més sobre les tecnologies lingüístiques lliures en català

Durant el novembre i desembre de 2020 van tenir lloc les primeres jornades sobre tecnologies lingüístiques lliures en català organitzades per Col·lectivaT, amb algunes sessions més generalistes i d'altres més tècniques. Podeu trobar un resum de les jornades amb els vídeos de cada sessió al següent enllaç.

Resum de les jornades sobre tecnologies lingüístiques lliures en català