Investigadores de la Universidad de Tsinghua y Microsoft han desarrollado un canal de datos sintéticos para entrenar modelos de inteligencia artificial sin la necesidad de datos del mundo real utilizando chips del principal diseñador de chips de EE. UU., Nvidia.
El proyecto, llamado SynthSmith, pudo desarrollar un pequeño modelo de codificación que superó a un modelo del doble de su tamaño, abordando potencialmente un cuello de botella clave de la escasez de datos del mundo real para mejorar los modelos de IA, según el artículo publicado en el repositorio de acceso abierto arXiv el 11 de enero.
«Un análisis en profundidad revela que las leyes de escala se mantienen en nuestro conjunto de datos sintéticos», dijeron los investigadores de la Universidad de Tsinghua, Microsoft Research Asia y la Universidad de Wuhan.
Los datos sintéticos que imitan los datos del mundo real se generan mediante algoritmos de IA. A medida que los nuevos datos del mundo real escasean, los investigadores de IA están experimentando con datos sintéticos para seguir mejorando los modelos de IA.

Utilizando SynthSmith, los investigadores entrenaron un modelo X-Coder con 7 mil millones de parámetros que obtuvo una puntuación más alta que los modelos con 14 mil millones de parámetros en puntos de referencia de codificación clave a pesar de utilizar menos datos y ninguno del mundo real, según el documento.

