IA entrenada con datos sintéticos por investigadores de China y Microsoft

Un equipo de investigadores de las universidades chinas de Tsinghua y Wuhan, en colaboración con Microsoft, ha desarrollado un modelo de inteligencia artificial entrenado exclusivamente con datos sintéticos.

El avance permite superar en rendimiento a modelos de mayor tamaño, ofreciendo una alternativa ante la escasez de datos reales para entrenar sistemas avanzados de IA.

El sistema, denominado SynthSmith, ha sido diseñado para generar datos sintéticos orientados a tareas de programación, eliminando la dependencia de información del mundo real.

Entrenamiento sin datos reales

SynthSmith genera grandes volúmenes de ejemplos sintéticos con alta diversidad y coherencia, permitiendo entrenar modelos sin recurrir a nuevas fuentes externas de datos.

Según el estudio publicado en arXiv, el modelo cuenta con 7.000 millones de parámetros y ha superado en pruebas de rendimiento a sistemas con hasta 14.000 millones de parámetros.

Los investigadores destacan que este enfoque mejora la capacidad de razonamiento y programación, utilizando menos información y reduciendo los costes de entrenamiento.

Contexto geopolítico y chips de Nvidia

El desarrollo se apoya en chips de Nvidia, principal proveedor mundial de procesadores gráficos para el entrenamiento de modelos de IA.

Este avance se produce en un contexto de restricciones de Estados Unidos a la exportación de semiconductores avanzados hacia China, lo que ha acelerado la búsqueda de autosuficiencia tecnológica.

China ha situado el desarrollo de tecnologías estratégicas y alternativas nacionales como una prioridad, optimizando el uso del hardware disponible.

Riesgos y validación continua

A pesar de los resultados, los autores del estudio advierten de los riesgos de entrenar modelos únicamente con datos sintéticos y subrayan la necesidad de validación constante.

Sin controles adecuados, estos sistemas pueden introducir distorsiones en su rendimiento, afectando a la fiabilidad a largo plazo.

El trabajo abre una nueva vía para desarrollar IA eficiente, especialmente en entornos con limitaciones de datos o hardware, manteniendo niveles competitivos de rendimiento.

Investigadores de China y Microsoft entrenan IA con datos sintéticos

Entrenamiento sin datos reales

Contexto geopolítico y chips de Nvidia

Riesgos y validación continua

Deja una respuesta Cancelar la respuesta

Leer más

Nvidia refuerza su apuesta por la IA con una nueva inversión millonaria en CoreWeave

Ellison (Oracle): el negocio real de la IA son los datos

Airtificial implementará líneas de automatización en tres continentes

Telefónica y Fujitsu amplían el superordenador MareNostrum 5

El primer fármaco diseñado por IA: China ultima su aprobación

Pinterest recorta su plantilla un 15% para invertir en IA

Más recientes

CRIPTO AL DÍA | Cuánto vale tu cartera en este 15 de marzo

CRIPTO AL DÍA | Cuánto vale tu cartera en este 14 de marzo

Anthropic desafía al Pentágono por el uso militar de la IA