DeepSeek afina el entrenamiento de la IA: qué es mHC y sus cálculos matemáticos

Las nuevas características y necesidades de la IA hace que entrenar modelos se vuelva una tarea cada vez más grande. De hecho, se necesitan redes neuronales que piensen en paralelos y con múltiples «caminos» para la información. Hacerlo de manera desordenada puede añadir más tiempo de la cuenta y alargar el entrenamiento de una IA hasta escenarios prácticamente catastróficos para las empresas.

La propia ByteDance, dueña de TikTok, intentó resolver este problema con «Hyper-Connections» el año pasado, permitiendo que un modelo pueda aprender a mezclar varios flujos de información en vez de solo uno. Pero esta solución generó a su vez un solo problema: estábamos ante una mezcla tan caótica que a partir de 27 mil millones de parámetros, la red fallaba.

Y es ahora cuando DeepSeek acaba de anunciar mHC, la respuesta que muchos usuarios -y sobre todo empresas- estaban esperando. Pero lo curioso es que hablamos de una fórmula matemática  que hace que esos diferentes caminos de aprendizaje «convivan sin explotar». Lo que ha conseguido modelos más grandes en tan solo un 6,7% de tiempo añadido en su entrenamiento…

mHC: matemáticas de la mano de DeepSeek

La solución que ha planteado DeepSeek es eficaz, pero también restrictiva. Su funcionamiento se basa en obligar a las matrices de mezcla a pertenecer a un espacio matemático específico. Concretamente, el de las matrices doblemente estocásticas (Birkhoff polytope). Dicho de una manera más simple, aplica restricciones para que cada «camino» de entrada entregue la misma cantidad de datos y cada «carril» de salida reciba la misma cantidad. Todo sin que desaparezca nada por el camino ni explote.

Para ello, hace uso del algoritmo Sinkhorn-Knopp. Una técnica que proyecta esas matrices de mezcla y supone un coste mínimo en velocidad: apenas un 6,7% más lento. Básicamente, en el mundo real sería lo equivalente a arreglar una autopista mediante líneas blancas, nuevos semáforos pero manteniendo el mismo número de carriles. No hace falta construir nuevas autopistas, sino mejorar las que ya hay. Y es precisamente de lo que se dio cuenta DeepSeek. El problema no era que existían pocos caminos, sino que no existían reglas internas en ellos.

¿Qué significa esto para los usuarios?

De manera esquematizada, esto significa que DeepSeek puede entrenar modelos -mucho- más grandes sin un peligro latente de que todo el proceso se desmorone a mitad de camino. Sin la necesidad de gastar el doble de dinero en unidades gráficas potentes ni en electricidad. En cifras más concretas, un modelo un 50% más grande que el anterior, ahora cuesta menos de un 7% más entrenarlo. No el doble ni el triple, como hasta ahora. Por lo que puede suponer un cambio de paradigma gigante. OpenAI gasta cientos de millones de dólares en entrenar sus nuevos modelos, y lo mismo ocurre con prácticamente cada desarrollador de IA. Con esta fórmula mHC, este coste/beneficio supone un cambio brutal en proporción inteligencia y gasto.

Para nosotros como usuarios, puede significar que a corto plazo comencemos a ver modelos más potentes que los ya disponibles actualmente. Pero al desarrollarse sin verdaderas fortunas de por medio, pueden incluso llegar a agilizarse nuevas salidas. Lo más interesante de todo esto es que DeepSeek ya lo publica de manera abierta, de mano de sus ingenieros y su propio CEO. Y ello no solo supone un avance de enormes dimensiones, sino también que están preparando su nuevo gran modelo, sin nada confirmado hasta la fecha. Además, también deja entrever que confían en esta técnica como para apostar su reputación en ella. Si una corporación lanza un órdago tan arriesgado, es porque saben que pueden obtener frutos de ello. Toda una declaración de confianza: «mañana lanzaremos algo mejor, y sabemos exactamente lo que hemos hecho».