Un equipo de investigadores de las universidades chinas de Tsinghua y Wuhan, en colaboración con Microsoft, ha desarrollado un modelo de inteligencia artificial entrenado exclusivamente con datos sintéticos.
El avance permite superar en rendimiento a modelos de mayor tamaño, ofreciendo una alternativa ante la escasez de datos reales para entrenar sistemas avanzados de IA.
El sistema, denominado SynthSmith, ha sido diseñado para generar datos sintéticos orientados a tareas de programación, eliminando la dependencia de información del mundo real.
Entrenamiento sin datos reales
SynthSmith genera grandes volúmenes de ejemplos sintéticos con alta diversidad y coherencia, permitiendo entrenar modelos sin recurrir a nuevas fuentes externas de datos.
Según el estudio publicado en arXiv, el modelo cuenta con 7.000 millones de parámetros y ha superado en pruebas de rendimiento a sistemas con hasta 14.000 millones de parámetros.
