Investigadores de China y Microsoft entrenan IA con datos sintéticos

Un equipo chino junto a Microsoft ha creado una IA entrenada solo con datos sintéticos, superando modelos mayores.
Sede de Microsoft en EE.UU. :: Microsoft Sede de Microsoft en EE.UU. :: Microsoft
Sede de Microsoft en EE.UU. :: Microsoft

Un equipo de investigadores de las universidades chinas de Tsinghua y Wuhan, en colaboración con Microsoft, ha desarrollado un modelo de inteligencia artificial entrenado exclusivamente con datos sintéticos.

El avance permite superar en rendimiento a modelos de mayor tamaño, ofreciendo una alternativa ante la escasez de datos reales para entrenar sistemas avanzados de IA.

El sistema, denominado SynthSmith, ha sido diseñado para generar datos sintéticos orientados a tareas de programación, eliminando la dependencia de información del mundo real.

Entrenamiento sin datos reales

SynthSmith genera grandes volúmenes de ejemplos sintéticos con alta diversidad y coherencia, permitiendo entrenar modelos sin recurrir a nuevas fuentes externas de datos.

Según el estudio publicado en arXiv, el modelo cuenta con 7.000 millones de parámetros y ha superado en pruebas de rendimiento a sistemas con hasta 14.000 millones de parámetros.

Te damos More

Si te está gustando este contenido elaborado y te cuadra nuestro magazine, tenemos nuestro more.

¡Suscríbete! Te pondremos en tu correo contenidos exclusivos, análisis y reviews, charlas con expertos, podcasts, planes, regalos y utilidades.

Suscribirme

Los investigadores destacan que este enfoque mejora la capacidad de razonamiento y programación, utilizando menos información y reduciendo los costes de entrenamiento.

Contexto geopolítico y chips de Nvidia

El desarrollo se apoya en chips de Nvidia, principal proveedor mundial de procesadores gráficos para el entrenamiento de modelos de IA.

Este avance se produce en un contexto de restricciones de Estados Unidos a la exportación de semiconductores avanzados hacia China, lo que ha acelerado la búsqueda de autosuficiencia tecnológica.

China ha situado el desarrollo de tecnologías estratégicas y alternativas nacionales como una prioridad, optimizando el uso del hardware disponible.

Riesgos y validación continua

A pesar de los resultados, los autores del estudio advierten de los riesgos de entrenar modelos únicamente con datos sintéticos y subrayan la necesidad de validación constante.

Sin controles adecuados, estos sistemas pueden introducir distorsiones en su rendimiento, afectando a la fiabilidad a largo plazo.

El trabajo abre una nueva vía para desarrollar IA eficiente, especialmente en entornos con limitaciones de datos o hardware, manteniendo niveles competitivos de rendimiento.

Add a comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

PUBLICIDAD