a futuristic city with a neon colored letter on it's side and a bright blue light above it, Ai-Mitsu

Web Editor

Construyendo IA Local: Un Desafío en el Sudeste Asiático

El Contexto de la IA Regional

SINGAPUR – La rápida adopción de modelos lingüísticos anglófonos de gran tamaño, fabricados en EU, ha llevado a los desarrolladores del Sudeste Asiático a centrarse en el desarrollo de herramientas de IA que se comuniquen con la región en sus propias palabras. Sin embargo, crear modelos de IA verdaderamente locales también implica capturar los profundos matices culturales e históricos que se han codificado en el lenguaje.

La Necesidad de IA Local

Antes de que al año siguiente los competidores estadounidenses de OpenAI lanzaran sus propios LLM, los desarrolladores del sudeste asiático ya habían reconocido la necesidad de herramientas de IA que se comunicaran con la región en sus muchos idiomas; tarea nada fácil, ya que aquí se hablan más de 1200 lenguas.

Desafíos en la Creación de Modelos Locales

Además, en una región donde la memoria lejana de viejas civilizaciones suele chocar con historias poscoloniales contemporáneas, el lenguaje es profundamente político. Incluso países que parecen monolingües ocultan una marcada diversidad: los camboyanos hablan casi treinta lenguas, los tailandeses, unas setenta, y los vietnamitas, más de cien. Es una región en la que las comunidades pasan de un idioma al otro en un santiamén, donde mucho se transmite en forma no verbal y donde a veces la tradición oral es más importante que las herramientas textuales para capturar los profundos matices culturales e históricos codificados en el lenguaje.

No extraña entonces que quienes intentan crear modelos de IA verdaderamente locales para una región con tantas lenguas subrepresentadas enfrenten numerosos obstáculos, desde la escasez de datos anotados de calidad y en cantidad hasta la falta de acceso a la potencia de cómputo necesaria para crear y entrenar modelos desde cero. Y en algunos casos, hay dificultades incluso más básicas, como la escasez de hablantes nativos, la falta de normas ortográficas comunes o las frecuentes interrupciones del suministro eléctrico.

Adaptación y Ajuste de Modelos Existentes

Con estas limitaciones, muchos de los desarrolladores de IA de la región se han conformado con ajustar modelos ya creados por empresas establecidas extranjeras. Esto implica tomar un modelo preentrenado con grandes cantidades de datos y entrenarlo para una habilidad o tarea específica con un conjunto de datos más pequeño. Entre 2020 y 2023, en el sudeste asiático se crearon modelos lingüísticos como PhoBERT (vietnamita), IndoBERT (indonesio) y Typhoon (tailandés) a partir de otros mucho más grandes como BERT de Google, RoBERTa (más tarde LLaMA) de Meta y Mistral de Francia. Incluso las primeras versiones de SeaLLM, un conjunto de modelos optimizados para idiomas regionales y publicados por la Academia DAMO de Alibaba, se basaban en la arquitectura de Meta, Mistral y Google.

El Desarrollo de Modelos Propios

Pero en 2024, Qwen, de Alibaba Cloud, cortó el dominio occidental y ofreció al sudeste asiático un conjunto de opciones más amplio. Un estudio de la Fundación Carnegie para la Paz Internacional reveló que cinco de los veintiún modelos regionales lanzados ese año se basaban en Qwen.

El Desafío del Sesgo y la Autonomía

Pero así como antes los desarrolladores del sudeste asiático debían tener en cuenta el sesgo occidental latente de los modelos fundacionales disponibles, ahora deben estar atentos al sesgo ideológico de las perspectivas de los modelos entrenados en China. Irónicamente, es posible que en su intento de localizar la IA y garantizar más autonomía a las comunidades del sudeste asiático, los desarrolladores se vuelvan más dependientes de actores mucho más grandes, al menos en un primer momento.

El Desarrollo de Modelos Propios: Una Nueva Era

Pero los desarrolladores del sudeste asiático también han empezado a abordar este problema. Varios modelos, entre ellos SEA‑LION (para una colección de once lenguas regionales oficiales), PhoGPT (vietnamita) y MaLLaM (malayo), se han preentrenado desde cero con grandes conjuntos de datos genéricos de cada una de las lenguas en cuestión. Este paso clave en el proceso de aprendizaje automático permitirá ajustar estos modelos para tareas específicas.

Sahabat-AI: Un Testimonio de Soberanía

Aunque SEA‑LION todavía depende de la arquitectura de Google para la fase de preentrenamiento, el uso de conjuntos de datos en lenguas regionales ha facilitado el desarrollo de modelos locales, como Sahabat‑AI, que se comunica en indonesio, sondanés, javanés, balinés y bataknés. Sahabat‑AI se autodescribe con orgullo como “un testimonio del compromiso de Indonesia con la soberanía en IA”.

Más Allá de la Tecnología: La Importancia del Conocimiento Local

Pero para representar las perspectivas autóctonas también se necesita una sólida base de conocimiento local. Una representación fiel de los puntos de vista y valores del sudeste asiático no es posible sin una comprensión de los aspectos políticos del lenguaje, de los mecanismos de búsqueda de sentido tradicionales y de la dinámica histórica.

Evitando el Sesgo Occidental

Por ejemplo, muchas comunidades indígenas tienen una percepción diferente del tiempo y del espacio (que en el contexto moderno se consideran lineales, divisibles y medibles a los efectos de maximizar la productividad). Escritos históricos balineses que desafían los modelos de cronología convencionales pueden pasar por mitos o leyendas en términos occidentales, pero siguen influyendo en la forma en que estas comunidades dan sentido al mundo.

El Peligro de la Interpretación Occidental

Los historiadores de la región han advertido que aplicar una óptica occidental a los textos locales aumenta el riesgo de malinterpretar las perspectivas indígenas. Entre los siglos XVIII y XIX, los administradores coloniales de Indonesia solían trasladar sus propias interpretaciones a las crónicas javanesas a las que tenían acceso en reproducciones traducidas. Eso llevó a que muchas observaciones sesgadas sobre los habitantes del sudeste asiático de fuentes británicas y europeas terminaran considerándose relatos históricos válidos y a que se internalizaran las categorizaciones étnicas y los estereotipos presentes en los documentos oficiales. Si estos datos se usan para entrenar IA, el resultado puede ser una profundización de los prejuicios.

Conclusión: Un Desafío en la Era de la IA

Los datos no son conocimiento. El lenguaje es un hecho intrínsecamente social y político, reflejo de las experiencias relacionales de quienes lo usan, de modo que para asegurar la autonomía en la era de la IA, no basta la capacidad técnica de tener modelos que se comuniquen en lenguas locales. También hay que depurar en forma consciente los prejuicios heredados, cuestionar supuestos sobre la propia identidad y redescubrir almacenes de conocimiento autóctonos en las lenguas de la región. No podremos crear una proyección fiel de nuestras culturas a través de la tecnología si, para empezar, apenas las entendemos.

Preguntas y Respuestas Clave

  • ¿Qué significa construir una IA local? Se refiere a crear modelos de inteligencia artificial que se comuniquen y comprendan los idiomas y las culturas específicas del Sudeste Asiático, en lugar de depender únicamente de modelos desarrollados en Occidente.
  • ¿Por qué es importante el desarrollo de IA local? Para garantizar la autonomía, preservar las culturas y evitar sesgos inherentes a los modelos occidentales.
  • ¿Cuáles son algunos de los desafíos para crear IA local? Escasez de datos, falta de potencia computacional y la necesidad de comprender las complejidades culturales y lingüísticas.