¿Cómo es el proyecto tecnológico para que los asistentes de voz hablen más idiomas? | RED/ACCIÓN

Un proyecto tecnológico propone que los asistentes de voz como Siri hablen más idiomas

 Una iniciativa de Dircoms + RED/ACCION

Ni el desarrollo de Apple, ni Alexa, ni Google Assistant funcionan en lenguas africanas. Para hacer más inclusiva esta tecnología, la iniciativa Common Voice convoca a miles de personas a donar sus voces para una base de datos abierta que puede usarse para que los algoritmos aprendan a hablar otras lenguas.

Un proyecto tecnológico propone que los asistentes de voz como Siri hablen más idiomas

Intervención: Marisol Echarri

La tecnología llegó para cambiar la vida de millones de personas en todo el mundo. No hay dudas de que ayuda a mejorar la educación, brinda acceso a la información y a la comunicación de manera instantánea. El problema es que hay millones de personas que están siendo relegadas y olvidadas por las grandes empresas que lideran los cambios en el ecosistema tecnológico mundial. Y uno de los ejemplos más claros son los asistentes de voz que están en nuestros teléfonos, pantallas inteligentes, relojes y computadoras.

En África hay más de mil idiomas nativos. Cada uno de ellos tiene sus acentos, patrones de habla y estructuras. Y ni Alexa, ni Siri, ni Google Assistant, los tres asistentes de voz más famosos del mercado, hablan ninguna de esas lenguas. Esto deja automáticamente a millones de personas sin la posibilidad de utilizar esta tecnología que, curiosamente, es de las que más creció en los últimos años.

Las gigantes como Google, Amazon o Apple no le prestan atención a una parte del mercado de asistentes de voz que puede parecer pequeña pero representa a millones de personas, pero hay otras empresas que sí están atendiendo este problema. Mozilla, la compañía detrás del navegador Firefox, es una de las que más avances está realizando.

“Las empresas parecen haber seguido el modelo de negocio de los idiomas dominantes, que a menudo deja sin atender la diversidad de lenguas africanas, entre otras. Se enfocan en extrapolar los desarrollos y ‘enchufarlos’ en el contexto africano en vez de adaptarlos y eso no va a funcionar con éxito”, dice a través de un correo electrónico Chenai Chair, asesora especial para la innovación en África en la Fundación Mozilla.

Common Voice es una iniciativa de Mozillla, la empresa creadora del navegador Firefox. (Imagen: gentileza Common Voice)

Mozilla está logrando atender las necesidades de millones de personas del continente africano gracias al desarrollo de una tecnología colaborativa llamada Common Voice. Se trata de una ambiciosa iniciativa de código abierto destinada a democratizar y diversificar la tecnología de voz. “Es un enfoque para cambiar el status quo”, agrega Chair.

Para entender Common Voice hay que comprender el funcionamiento de los algoritmos de aprendizaje automático o machine learning. Estos algoritmos aprenden solos, pero para eso hay que darles una gran cantidad de información para que puedan entender, en el caso de las voces e idiomas, los diferentes fraseos, tonalidades y estructuras del lenguaje.

El funcionamiento de Common Voice es simple: les permite a las personas donar sus voces a una base de datos gratuita y disponible públicamente para que empresas, investigadores y desarrolladores puedan usarlas para entrenar aplicaciones, productos y servicios habilitados para voz.

La necesidad que está cubriendo es tan grande que Common Voice se convirtió en el conjunto de datos de voz de dominio público en varios idiomas más grande del mundo. Desde 2017, cuando nació la iniciativa, hasta la actualidad, logró reunir más de 12 mil horas de datos de voz y 75 idiomas diferentes que van desde el suajili hasta el mandarín y el galés.

Antes de la pandemia, Common Voice convocaba a eventos en los que los donantes grababan sus voces; hoy todo el procedimiento es virtual. (Imagen: gentileza Common Voice)

¿Por qué es tan importante esta base de datos pública? Porque la mayoría de las bases de este tipo son propiedad de grandes corporaciones con fines de lucro y se utilizan para entrenar sus algoritmos de aprendizaje automático. Esto hace prácticamente imposible que desarrolladores, investigadores y empresas más pequeñas, sin tantas posibilidades económicas de obtener bases o crear las propias, se involucren en el desarrollo de nuevas tecnologías de reconocimiento de voz más inclusivas.

Desde el inicio de la pandemia todo cambió en el proyecto. Antes se hacían eventos, sobre todo en escuelas, en los que no solo se reunían personas para colaborar con Common Voice, sino que se armaban mesas de debate para intentar dar con mejores formas de llegar a más gente. Desde la llegada de la COVID-19 ese proceso pasó a la virtualidad. Y si bien esto ahorra mucho trabajo a la hora de organizar las reuniones, también generó inconvenientes: muchas personas no tienen buenas conexiones o suben grabaciones con demasiado ruido como para ayudar a que la inteligencia artificial haga su trabajo. La calidad de la información es tan importante como la información en sí misma.

La experiencia de donar la voz a Common Voice es sencilla. En la página del proyecto se pueden ver dos grandes botones: speak (hablar) y listen (escuchar). El primero sirve para que quien lo desee pueda donar su voz leyendo una serie de frases que el sistema le mostrará. El segundo sirve para que todos los usuarios podamos validar la precisión de las voces que otros donaron.

En la página de Common Voice el usuario puede donar su voz y también ayudar a validar la calidad de las voces ya obtenidas. (Imagen: gentileza Common Voice)

El diseño increíblemente simple e intuitivo de la plataforma no es así por casualidad. La experiencia de usuario debe funcionar a la perfección para personas que no solo hablan diferentes idiomas, sino que también tienen grados de educación tecnológica muy diferente.

El proyecto, en el que ya colaboraron 400 mil personas de todo el mundo, es un éxito. Common Voice realizó un acuerdo con la compañía NVIDIA, de la que recibió un millón y medio de dólares además de fuerza de trabajo y tecnología para mejorar sus sistemas, y también obtuvo más de 3 millones como parte de una donación conjunta por parte de la Fundación Bill & Melinda Gates, la Cooperación Alemana para el Desarrollo y la Oficina de Desarrollo y Commonwealth Extranjero del Reino Unido. El dinero está siendo utilizado, sobre todo, para contratar a personas que hagan crecer específicamente la base de datos del suajili, que es un idioma hablado sobre todo en Tanzania y Kenia por aproximadamente 45 millones de personas.

“Planeamos hacer que la tecnología conversacional esté disponible en la mayoría de los idiomas”, dice Sid Sharma, jefe de Marketing de Productos de NVIDIA.

“Las grandes empresas se enfocan en extrapolar los desarrollos y ‘enchufarlos’ en el contexto africano en vez de adaptarlos”, dice Chenai Chair, de Fundación Mozilla. (Imagen: gentileza Chenai Chair)

Internet ―y por ende todo lo que rodea al mundo tecnológico― fue y es construida y desarrollada en inglés. Si se tiene en cuenta que solo el 20 % del mundo habla este idioma y solo el 5 % de las personas son hablantes nativas, es posible imaginar cuánta gente está teniendo una barrera para usar la tecnología. Si queremos que sea más inclusiva tenemos que empezar a pensar un futuro que no hable solo un idioma, sino todos los posibles para no dejar a tantos ciudadanos fuera del mundo digital. Proyectos como Common Voice, de a poco y con ayuda de los mismos ciudadanos, lo están logrando.

***

Esta nota forma parte de la plataforma Soluciones para América Latina, una alianza entre INFOBAE y RED/ACCIÓN, y fue publicada originalmente el 28 de septiembre de 2021.

Podés leer este contenido gracias a cientos de lectores que con su apoyo mensual sostienen nuestro periodismo humano ✊. Bancá un periodismo abierto, participativo y constructivo: sumate como miembro co-responsable.