Tags

Autores

Artículos relacionados

El uso de redes neuronales en el estudio del chatino

Entrevista a Hilaria Cruz

Por Hilaria Cruz y Centro de Cultura Digital /

13 ago 2018

 

El Reconocimiento Automático de Voz (ASR, por sus siglas en inglés) es la tecnología que permite utilizar la voz para hablar con una interfaz de manera que, en sus variaciones más sofisticadas, se asemeja a una conversación humana común. Actualmente, la versión más avanzada de las tecnologías ASR gira en torno al Procesamiento de Lenguajes Naturales (NLP, por sus siglas en inglés). Esta variante de reconocimiento automático de voz produce la simulación más cercana a una conversación real entre personas. Normalmente, el reconocimiento automático de voz requiere de voces de los usuarios previamente preconfiguradas o almacenadas. El ser humano necesita entrenar el sistema ASR almacenando patrones de discurso y vocabulario propios en el sistema.

Tanto universidades como empresas privadas están cada vez más interesadas en invertir en el desarrollo de tecnologías de ASR, ya que su presencia en nuestra vida cotidiana, en dispositivos personales (Siri, Cortana, Alexa o Google Voice), es cada vez más frecuente. Sin embargo, esta tecnología aún no está disponible para la transcripción de las lenguas menos estudiadas. Esto se debe en parte a que los modelos actuales de ASR requieren de una gran cantidad de textos para ejecutarse, lo que la mayoría de las lenguas en peligro de extinción no tienen.

El mes pasado, en Quechee, Vermont, tuvo lugar el “Retiro para el Reconocimiento Automático de Voz para Lenguas en Peligro” (ASREL, por sus siglas en inglés). Científicos informáticos, lingüistas, traductores, editores y hablantes nativos de lenguas en peligro fueron convocados por Hilaria Cruz, lingüista de origen chatino y doctoranda del Dartmouth College, y Oliver Adams, del Centro Johns Hopkins para el procesamiento del lenguaje y del habla, con el objetivo de intercambiar ideas sobre cómo aprovechar, utilizar y avanzar en el uso de las tecnologías de reconocimiento automático de voz para el estudio de lenguas indígenas; específicamente, abordar el problema de la transcripción del lenguaje y discutir el uso de las tecnologías en la transcripción de datos de lenguaje.

El evento fue financiado por la Fundación Neukom con el apoyo del departamento de Estudios Nativos Americanos, Lingüística y Antropología del Dartmouth College.

Días antes del retiro, el Centro de Cultura Digital pudo conversar con Hilaria Cruz respecto a las diversas problemáticas en torno a las lenguas indígenas en México y las líneas de acción que estudiosos como ella están tomando para revitalizarlas, preservarlas y perpetuarlas en las mismas comunidades, entre sus hablantes y herederos.

 

 

Ximena Atristain: Nos gustaría empezar por conocer un poco de tu historia. ¿Cómo fue tu proceso de inmersión al español teniendo como lengua madre el chatino?

Hilaria Cruz: Yo soy de Cieneguillas, en el municipio de San Juan Quiahije, Oaxaca. Cuando nací era un pueblo bastante remoto, no había carreteras, aunque sí había muchos caminos para llegar a los principales mercados. Estábamos aislados, había que caminar como cinco horas por las montañas para llegar a la comunidad. En ese entonces se hablaba chatino al cien por ciento. Mi padre, que era un activista político por los derechos de los chatinos, insistió en que nos escolarizáramos y aprendiéramos a leer y escribir. Entonces, cuando tuvimos edad, mi familia nos llevó a Juquila, un pueblo mestizo en la frontera de Oaxaca, donde estaba la primaria. En ese tiempo el Instituto Nacional Indigenista tenía en Juquila unos albergues para niños indígenas y mi familia nos llevó a uno para que pudiéramos ir a la escuela.

Cuando entré a la primaria no sabía ni una palabra de español, fue una inmersión completa en ese idioma. Me acuerdo que odiaba ir a la escuela, no entendía ni una sola palabra, me aburría muchísimo, me sentaba ahí sin entender nada de lo que se estaba diciendo. Esta es la manera en la que el Estado mexicano ha tratado de integrar a todos los indígenas a la lengua “nacional”: el español es la única lengua de instrucción en las escuelas.

 

XA: ¿Cómo te percataste de que tu lengua estaba en peligro de desaparecer?

Hilaria Cruz: Tristemente no se reconoce la diversidad lingüística de México aunque es tan rica en cuestiones gramaticales y en estructura como cualquier otra. Debido a esto, nunca tuve la oportunidad de estudiar las estructuras gramaticales, ya no del chatino, sino del náhuatl o de cualquier otra lengua indígena más conocida. Por otro lado está el racismo, con la excusa de que estas lenguas no tienen estructuras, o que son más pobres y no tienen un alfabeto. Es como un perro que anda siguiendo su cola; cómo vas a tener un alfabeto si no hay una investigación de esas lenguas que te permita conocer sus estructuras como para poder empezar a crear alfabetos y lectores.

Siempre tuve la inquietud de aprender a escribir chatino, solamente lo hablaba, pero mi lengua y el español son completamente diferentes: el chatino es una lengua tonal, el español no. Además, si uno ha sido escolarizado dentro del sistema mexicano donde la escritura se aprende solamente en español, es casi imposible poder asignar símbolos —que no tienes— a sonidos. Esa ha sido siempre la traba, el poder representar simbólicamente una lengua tonal.

Recuerdo que cuando empezaba a estudiar aquí, en los Estados Unidos, escuché en el radio un reportaje sobre cómo las tribus indígenas americanas trabajaban con lingüistas para revivir sus lenguas. Existen casos de lenguas que se dejaron de hablar desde hace cien años, pero hay registros de éstas. El lingüista John P. Harrington grabó muchísimas horas de las lenguas indígenas de California e hizo un trabajo bastante exhaustivo. Él dejó un testamento muy grande y sus registros pueden encontrarse en archivos como el del Smithsonian. Lo que escuchaba en la radio eran los archivos retomados por lingüistas que podían leer y entender qué se estaba diciendo, y de esa manera descifraban lo que pasaba con los hablantes o herederos de esa lengua.

 

XA: Cada una de las lenguas que se hablan en México se encuentra en un proceso distinto con respecto del desarrollo de su propia escritura: algunas tienen sistemas gráficos y reglas de escritura ya muy convencionalizados y cuentan con lectores; otras, en cambio, están debatiéndose entre dos o más abecedarios; y otras, más que preocuparse por la escritura, están luchando por su supervivencia oral. Tu hermana, Emiliana fue pionera en la alfabetización del chatino. ¿Cómo ha sido enfrentarse al chatino alfabetizado en contraste con su oralidad?

Hilaria Cruz: Hace treinta años había pocos estudios de lenguas tonales porque casi todos los lingüistas provienen de países europeos, por lo tanto, todos los escritos e investigaciones estaban basados en lenguas europeas. Si ahora, que ya sabemos más, los lingüistas todavía tienen muchos problemas para estudiar los tonos, cuando nosotros comenzamos era aún más difícil. Llegué a escuchar a lingüistas que decían que las lenguas tonales eran lenguas endiabladas, no se metían con ellas. Uno veía investigaciones cuyos resultados no consideraban los tonos. Ese era el estado del estudio de las lenguas.

Fue entonces cuando le escribí a varios lingüistas pidiéndoles ayuda para desarrollar un alfabeto para mi lengua. Fue así que dimos con el profesor Anthony Woodbury de la Universidad de Austin, Texas; él había trabajado con las lenguas Yupik de Alaska, es una persona muy entregada a lo que hace y además la universidad de Texas estaba muy interesada en estudiar lenguas mexicanas dada la cercanía geográfica. Woodbury se puso a trabajar de tiempo completo con nosotros. Todos los días nos poníamos a citar palabras, conjugar verbos, conjugar pronombres, etc. Empezamos a analizar los patrones tonales y a hacer propuestas de alfabetos. Esto fue por el 2004. Mi hermana entró primero a la universidad de Texas al departamento de Antropología y yo me uní después al departamento de Lingüística; siendo dos, formamos un equipo de Estudios Chatinos en la universidad, y de allí salieron como ocho disertaciones de las lenguas chatinas, en términos lingüísticos. Puede decirse que pusimos a la lengua chatina en el mapa y de esa manera también desarrollamos el alfabeto; es un alfabeto relativamente fácil de aprender y yo diría que ya soy una lectora, pero es algo en lo que estamos trabajando todavía. Es un camino bastante largo, porque nuestra iniciativa no es institucional sino comunitaria, surge de los hablantes.

Mapa de distribución de las tres variantes del Chatino

XA: ¿Cómo fue el proceso de alfabetizarlo, es decir, se hicieron consensos en la comunidad o fue un trabajo en solitario?

Hilaria Cruz: Nosotras (mi hermana y yo) como nativo-hablantes empezamos por iniciativa propia; para poder desarrollar el alfabeto, cada verano nos íbamos a hacer trabajo de campo, grabamos a las personas de la comunidad, grabamos todo tipo de habla desde hablas ceremoniales hasta conversaciones cotidianas, hicimos también licitaciones de palabras. En cada pueblo al que llegábamos anunciábamos a la gente la razón por la que estábamos ahí y nos presentábamos con las autoridades locales. De esa manera caminamos y transcurrimos por casi todos los pueblos chatinos, explicando que íbamos a registrar datos para hacer la escritura de la lengua, y le dábamos seguimiento, el siguiente verano regresábamos y de manera pública mostrábamos el alfabeto que teníamos trabajado.

Además, un alfabeto está lleno de políticas, lleno de sentimientos encontrados de tipo religioso, de tipo social, etc., y esto pasa en todos los pueblos del mundo. Muchas personas piensan que para poder crear un alfabeto se necesita un consenso, pero en realidad se necesitan dos cosas: el consenso se necesita ya cuando se está promoviendo la lengua, pero realmente para poder crear un analfabeto, sobre todo para lenguas tonales, es mucho mejor sentarse y realmente ver los patrones que hay en la lengua y asignar símbolos para cierto tipo de sonidos, y encontrar dónde suelen ocurrir ciertos sonidos. Un alfabeto que sea fácil de leer y escribir debe tener símbolos que representen todos los sonidos de la lengua, que no le falte uno, pero que tampoco le sobren muchos para que su escritura no sea muy complicada. Hay que encontrar ese punto medio cuando se está ideando un alfabeto.

 

XA: ¿Cuáles han sido las reticencias que han encontrado en el camino?

Hilaria Cruz: La principal desconfianza viene de las instituciones. El INALI (Instituto Nacional de Lenguas Indigenas), por ejemplo, propone hacer normas de escritura, pero están haciendo normas de escritura cuando realmente no hay lectores, no tenemos personas creando material de lectura en esas lenguas. Lo que el INALI dice es que no van a publicar materiales de grupos cuya escritura no ha sido normalizada o reconocida por alguna academia de la lengua. No creo que ese sea el camino, el camino es que la gente empiece a leer y escribir, crear materiales y enseñar esta escritura al público en general, y de ahí vemos cómo nos arreglamos.

Tampoco podría decir que todo es malo en el INALI, ellos han apoyado varios de nuestros proyectos; mi hermana, Emiliana Cruz, ha realizado bastantes talleres con su apoyo.

Por otro lado, he visto muchos trabajos de asociaciones civiles que todavía siguen desconectados de la cultura de las lenguas; estas organizaciones hacen un trabajo bastante político: luchan en contra de la tala de bosques, de la explotación minera y ese tipo de cosas, pero dejan a un lado la lengua. Otro ejemplo son los maestros en las escuelas públicas, que abogan por fortalecer la cultura y se la pasan haciendo bailables (nada en contra del bailable), pero siguen obliterando la cuestión lingüística que es un tesoro bastante importante y difícil. Las lenguas son de las invenciones más difíciles que los humanos hemos creado, son un vehículo con el cual se transmiten las tradiciones, la cosmogonía, los conocimientos del campo, del clima, etc. Lamentablemente, muchos sectores no están tomando en cuenta las lenguas cuando éstas bien podrían representar un gran soporte para sus mismas luchas.

 

XA: Leía que la extinción de algunas lenguas se está dando a una velocidad vertiginosa ¿Para ti cuáles son las razones de esta rapidez con la que se están perdiendo algunas lenguas indígenas?

Hilaria Cruz: La razón principal es la colonización y las políticas del gobierno mexicano que han tratado de aniquilarlas. Si hubieran permitido el uso de la lengua local en las escuelas, eso habría apuntalado su transmisión a las nuevas generaciones, pero no lo hacen.

En diferentes partes del mundo hay diferentes problemas; en México existen muchos pueblos en donde la lengua de todos los días es la lengua local. En mi pueblo, hace unos diez años, el chatino se hablaba para comunicarte con la familia o con la comunidad, pero en la escuela todo es en español, entonces ¿qué te están enseñando? Que el español es más valioso que tu lengua. No estoy en contra de que se enseñe el español, pero ese no es el caso, el caso es que ellos están imponiendo el español.

En el caso de las tribus nativas americanas, en los pueblos navajos ya no se hablaba lengua nativa, sin embargo se enseña en los centros escolares. Ahí el problema es lo opuesto, los niños aprenden la lengua navajo en la escuela pero en sus casas ya no se habla. Los navajos dicen que si los niños están en una inmersión, los padres también tienen que participar para poder apoyar a sus hijos en casa. Realmente se necesita mucho apoyo en todas partes, desde publicaciones, la radio y la enseñanza para que un idioma pueda continuar.

Análisis de la frecuencia de cierto tonos del Chatino

XA: En cuanto al retiro ¿cuáles son los intereses que comparten los invitados a este evento?

Hilaria Cruz: La línea en común es que todos estamos interesados en trabajar con lenguas minorizadas, todos estamos interesados en trabajar en la documentación de lenguas indígenas, tanto los ingenieros, como los lingüistas y activistas.

XA: Activistas, lingüistas y organizaciones indígenas han visto en las TIC una valiosa oportunidad para trascender el nivel local y alcanzar una presencia regional, nacional e internacional.  Ha habido apropiaciones de la tecnología digital que reconocen sus potencialidades para fortalecer sus procesos político-organizativos, de comunicación, revitalización lingüística y cultural. Por ejemplo, ya se ha generado una Wikipedia en lengua indígena, sistemas operativos como Ubuntu y aplicaciones como el buscador Mozilla ya han sido programados en lenguas indígenas. ¿En qué medida la herramienta de reconocimiento de habla y la transcripción podría ayudar a integrar las lenguas en las TIC?

Hilaria Cruz: A mí me parece que son importantes estos procesos de traducir la Wikipedia y todos estos medios a las lenguas indígenas, pero no tenemos lectores todavía. Para poder crear lectores en lengua indígena tenemos que empezar con cosas prácticas: haciendo letreros super llamativos, visibilizando en lo público a través de historietas o libros, cosas que sean muy fáciles de hacer. Para mí lo primero es formar lectores. Los estudios del chatino ya están más avanzados, ya hay algunos lectores que podrían beneficiarse de eso, pero es necesario crear materiales de lectura.

De la gente que trabaja con tecnologías, hay dos tipos: los consumidores —todos los que usamos redes sociales, buscadores y aplicaciones— y todo un grupo de programadores detrás de todo esto, los que están detrás del mostrador. Toda esa información de fondo —lo que hay detrás de estos productos digitales de consumo— es todavía un conocimiento bastante privilegiado, es de unos cuantos que no saben realmente cuáles son las necesidades que existen alrededor de la preservación de las lenguas indígenas.  

Oliver Adams trabaja con Neural Networks [Redes Neuronales] y está muy interesado en utilizar estas herramientas para modelos de reconocimiento de voz de lenguas indígenas. Él es una de esas personas que está detrás del mostrador —ni siquiera usa Facebook, le da pavor porque sabe las consecuencias y no quiere pertenecer a la nómina de FB— y su propósito es el de formar gente que pueda programar, diseñar y habilitar todos estos algoritmos para las lenguas indígenas. Al ser un conocimiento privilegiado, lo que nosotros queremos es democratizarlo. La cuestión es incentivar a estos ingenieros para que se interesen en esta problemática.

 

XA: Sobre estas herramientas y prototipos que se están desarrollando basadas en redes neuronales, ¿cuáles son los procesos para poder implementarlas en lenguas indígenas?

Hilaria Cruz: Yendo un poco a la historia del reconocimiento automático, las lenguas europeas tienen muchos recursos tecnológicos y han avanzado mucho en cuanto al Reconocimiento Automático de Voz. Esta tecnología puede aportar muchísimo al trabajo de alguien que está documentando una lengua. Nosotros, por ejemplo, grabamos palabras para poder analizar la sintaxis, la morfología, y poder hacer un diccionario. Cuando uno tiene el texto de una conversación coloquial, puedes cosechar mucho de ahí, puedes sacar palabras, se pueden sacar oraciones que son innovadoras y que te pueden ayudar a analizar la sintaxis de la lengua, o construcciones que te pueden ayudar a comprender la morfología.

Sin embargo, es difícil transcribir una lengua; si lo haces manualmente, según muchos lingüistas, un minuto de audio puede llevarte de 2 hasta 50 horas transcribirlo. Hay muy poca gente estudiando estas lenguas, rompiéndose los tendones tratando de transcribirlas. Por otro lado, la tecnología ya está muy avanzada como para hacer el reconocimiento automático de estas lenguas, y estos modelos podrían ayudar a extraer toda su riqueza a la vez que puede también insertarse en diferentes tipos de estudios.

Para el caso particular del chatino, estas herramientas traen grandes beneficios: en primer lugar, el trabajo que hemos hecho les da confianza a los ingenieros de que se trata de un trabajo serio y de un análisis bastante acertado. Además, ya tenemos un alfabeto. Yo, por ejemplo, hice un corpus que preparé exprofeso para hacer un reconocimiento automático de voz en chatino, hice los sonidos e hice la transcripción indicando lo que significaban todas las palabras, y lo hice en código abierto para que cualquier persona pudiera utilizarlo.

El reconocimiento automático está cambiando rápidamente; uno de los problemas que siempre mencionan quienes trabajan con esta tecnología es sobre los modelos que se usan, modelos que necesitan miles de horas de transcripción. Pero ahora existen las redes neuronales de aprendizaje, y estas redes no requieren de tanto material, media hora de transcripción bien escrita y desglosada puede servir a estos modelos para empezar a arrojar resultados, lo cual parece bastante prometedor.

 

XA: Pensando en softwares y hardware, y considerando que la brecha digital es muy ancha en México, ¿cómo se introduciría este tipo de herramientas para acortar esta brecha?

Hilaria Cruz: El desarrollo de estas herramientas tiene que ver con inteligencia artificial. Uno configura los programas e introduce el algoritmo y la máquina va aprendiendo y haciendo los análisis, y puede ser que el resultado te guste o no te guste. Mientras más datos insertes más irá aprendiendo. Las redes neuronales hacen eso, tratan de asimilar la forma en que las personas aprendemos a través de algoritmos.

En el espectro de estas redes está el Procesamiento de Lenguajes Naturales [NLP, por sus siglas en inglés], un área que está creciendo muchísimo; hay ramas como la Traducción Automática y el Reconocimiento Automático de Voz, en este último caso hay muchas especialidades; por ejemplo, hay quien se concentra en el habla de una sola persona, o quienes sólo se dedican a trabajar con conversaciones entre personas. Todos estos sistemas ya empiezan a utilizar Redes neuronales.

Quisiera aclarar que este trabajo no está tan avanzado, el desarrollo puede hacerse con lenguas que ya tienen un registro bastante definido de todos sus sonidos. El otro problema que no he mencionado es que muchos lingüistas que estudian lenguas indígenas se guardan todos sus materiales, tienen miedo de compartirlos, porque cuesta muchísimo trabajo registrar, ir a los pueblos, negociar, conseguir equipo, y luego la transcripción misma. Entonces, obviamente, es material que los lingüistas no comparten hasta no tener ellos mismos la publicación de su trabajo, por su propia carrera. Por eso no existen los suficientes corpus de lenguaje para implementarlos con estas herramientas. Como nativa hablante de la lengua preparé unos textos en donde doy el sonido y también doy la transcripción, fue un proceso muy difícil. Esto es de gran valor para los ingenieros computacionales que no pueden ni quieren hacer el trabajo de campo, pero sí quieren bajar esta información fácilmente y utilizarla.

Son muchos pasos previos para llegar a la herramienta. Dos horas de grabación de la lengua huave sólo nos da el sonido, pero si nadie ha estudiado esa lengua, si no existe un alfabeto, si no existen traducciones, los ingenieros no pueden trabajar, pues no hay forma de evaluar si lo que la máquina está arrojando es verdadero o falso.

En el caso del chatino, se utilizaron datos que ya estaban bien transcritos; la máquina arrojó sus resultados y después evalué y marqué lo que la máquina había hecho bien o mal para después reflexionar sobre los errores que cometió.

 

XA: ¿Las herramientas que están trabajando están pensadas en código abierto?

Hilaria Cruz: Sí, definitivamente. Están conceptualizadas como código abierto; por ejemplo, el sistema que está desarrollando Oliver Adams, “Phersephone”, es un software que utiliza las redes neuronales para transcribir los lenguajes tonales. El objetivo de su investigación es democratizar la tecnología y poner a disposición estas herramientas para preservar y estudiar lenguas en peligro en todo el mundo.

 

*************

El marco del encuentro proponía, entre otras actividades, que cada uno de los participantes expusiera sus investigaciones, hallazgos e inquietudes alrededor de las herramientas de ASR.

Entre los trabajos que se discutieron están el de Viet-Bac Le y Laurent Besacier, quienes han trabajado con reconocimiento automático de voz en el contexto de idiomas de pocos recursos con aplicación al vietnamita, utilizando distancias de unidades acústico-fonéticas y el potencial del modelado acústico translingüal; la investigación de Małgorzata E. Cavar, Damir Cavar e Hilaria Cruz, que expone la metodología utilizada para elaborar todo un corpus lingüístico para facilitar el desarrollo de las tecnologías del habla y lenguaje y para entrenar herramientas automáticas de reconocimiento de voz para la transcripción; y uno de los trabajos preliminares a Phersephone de Oliver Adams, et. al, que explora el uso de la arquitectura de redes neuronales para la transcripción de fonemas y tonos en un entorno de documentación lingüística.

Foto grupal del "Retiro para el Reconocimiento Automático de Voz para Lenguas en Peligro” (ASREL, por sus siglas en inglés), que tuvo lugar en Quechee, Vermont.

 

 

Esperamos conocer más sobre los resultados que surgieron de este retiro, y sobre el avance que han tenido las investigaciones de los ingenieros, lingüistas y editores convocados. Agradecemos también a Sol Aréchiga, editora invitada al retiro, que estableció  el vínculo con el CCD para hacer posible esta conversación.

Hilaria Cruz

Es hablante de Chatino del este de San Juan Quiahije, una lengua Zapoteca en peligro, hablada en las montañas de Oaxaca, México. Tiene la beca postdoctoral Lyman T. Johnson.

A partir de la documentación y de su trabajo de revitalización del Chatino desde 2003 ha recolectado más de cien horas de grabaciones de audio de conversaciones naturales e informales.

Actualmente investiga el concepto Chatino de la muerte en cuatro comunidades hablantes de Chatino del este: Santa Maria Amialtepec, San Juan Quiahije, Santiago Yaitepec y San Marcos Zacatepec.

Centro de Cultura Digital