La Universitat de Lleida participa en un projecte de recerca, liderat per la Universitat Oberta de Catalunya, per desenvolupar un sistema basat en la Intel·ligència Artificial que tradueixi de forma automàtica totes les llengües romàniques de la península Ibèrica: castellà, català, portuguès, gallec, asturià, aragonès i aranès / occità. Juntament amb les universitats d’Oviedo i Saragossa, l’equip explora les tècniques més efectives per entrenar sistemes de traducció basats en xarxes neuronals.
NOU NÚMERO DE WHATSAPP: T’enviem les notícies més importants de Lleida al WhatsApp totalment gratis. Punxa aquí!
La traducció automàtica neuronal treballa amb corpus paral·lels, és a dir, conjunts de segments o oracions en una llengua amb els seus equivalents de traducció en una altra. Aquests sistemes no es desenvolupen, sinó que s’entrenen; és a dir, aprenen a traduir a partir de textos en la llengua de partida i en la d’arribada. Per a fer-ho, necessiten com a mínim entre 5 i 10 milions d’oracions. Es tracta d’aprofitar el coneixement d’un parell de llengües amb molts recursos i transferir-lo a altres que en tenen menys, a través de l’aprenentatge per transferència.
Una altra tècnica que estan explorant és l’entrenament de sistemes multilingües per explotar les similituds entre idiomes. Els sistemes entrenats d’aquesta manera són fins i tot capaços de traduir entre parells de llengües per als quals no existeixen oracions paral·leles en el corpus d’entrenament, com podria ser el parell asturià – aranès.
El projecte TAN-IBE: traducció automàtica neuronal per a les llengües romàniques de la península Ibèrica, amb una durada de tres anys, compta amb finançament del Ministeri de Ciència i Innovació mitjançant el programa Projectes de generació del coneixement 2021. El coordinador del projecte i professor de la UOC, Antoni Oliver, destaca aquest projecte amb l’objectiu de fomentar l’ús de les llengües amb menys recursos i incrementar-ne les publicacions.