La industia de la inteligencia artificial (IA) registró un cimbronazo durante los últimos días a raíz del lanzamiento de un nuevo modelo inteligente de la empresa china de investigación DeepSeek, sobresaliente por su eficiencia y por ser un desarrollo de código abierto. Se trata del primer modelo de la firma capaz de competir con OpenAI, Google y Meta, las empresas estadounidenses que lideran el mercado.
La aplicación que permite usar los modelos de DeepSeek escaló hasta los primeros puestos en el ranking del App Store de Apple en Estados Unidos, superando a ChatGPT –de OpenAI– como la aplicación gratuita más descargada. Algo que no solo llamó la atención de otras compañías del sector, sino que además llegó a sacudir sus cotizaciones bursátiles.
La firma DeepSeek fue creada en mayo de 2023 por Liang Wenfeng, reconocido en China por administrar fondos de cobertura cuantitativos como High-Flyer, mediante el cual financió el desarrollo de IA.
El proyecto comenzó bajo la denominación Fire-Flyer, una rama de investigación de aprendizaje profundo del fondo de Wenfeng, que adquirió 10.000 chips del fabricante estadounidense Nvidia y reclutó talentos de universidades de China para el proyecto. Esto llevó a que, a diferencia de otros modelos, los de DeepSeek incorporaran un profundo entendimiento del mandarín y de la cultura china.
Además, aprovecharon el hecho de contar con computadoras para análisis financiero para utilizarlas en el entrenamiento de los modelos. De esta forma desarrollaron una serie en la que el primero fue DeepSeek Coder, un proyecto de código abierto lanzado en noviembre de 2023 y diseñado para resolver tareas de programación.
Luego vino DeepSeek LLM, entrenado con 67 mil millones de parámetros y pensado para competir con otros modelos grandes de lenguaje. Más adelante, en mayo de 2024, DeepSeek V2 ganó una atención significativa por su sólida perfomance y bajo costo.
El factor del costo no es menor, ya que empujó a otras grandes tecnológicas chinas como ByteDance, Tencent, Baidu y Alibaba a reducir los precios de sus modelos para permanecer competitivos. Además, el enfoque de código abierto de DeepSeek mejora aún más la rentabilidad al eliminar las tarifas de licencia y fomentar el desarrollo impulsado por la comunidad.
DeepSeek-V2 fue reemplazado por DeepSeek-Coder-V2, un modelo más avanzado con 236 mil millones de parámetros, que mejoraba sus capacidades de programación y la ventana de contexto hasta los 128.000 tokens.
El gran hito de DeepSeek llegó con sus más recientes modelos, DeepSeek-V3 (lanzado en diciembre) y DeepSeek-R1 (lanzado el 20 de enero). La compañía afirma que R1 está a la par de GPT-4o y Claude 3.5 Sonnet de Anthropic, aunque su desarrollo costó menos de USD 6 millones. En comparación, el director ejecutivo de OpenAI, Sam Altman, ha dicho que entrenar a GPT-4 costó más de 100 millones de dólares.
DeepSeek-V3, un modelo entrenado con 671 mil millones de parámetros, ofrece un rendimiento sobresaliente en varios puntos de referencia y requiere muchos menos recursos que sus pares. En tanto, DeepSeek-R1 está basado en la arquitectura de V3 y se centra en tareas de razonamiento, por lo que se posiciona como la alternativa que desafía el modelo o1, el más avanzado de OpenAI. DeepSeek también ofrece una gama de modelos conocidos como R1-Distill, que proporcionan distintos niveles de rendimiento y eficiencia.
La API de DeepSeek-R1 cuesta sólo USD 0,55 por millón de tokens de entrada y USD 2,19 por millón de tokens de salida, en comparación con la API de OpenAI, que cuesta USD 15 y USD 60, respectivamente. Los tokens son las unidades de información que utilizan los modelos para procesar palabras. Algunas estimaciones indican que 1.000 tokens equivalen aproximadamente a 750 palabras en inglés.
Y aunque este modelo tuvo gran repercusión internacional, DeepSeek se centra principalmente en la investigación y no tiene planes detallados para una comercialización generalizada en el corto plazo.
Otro aspecto que le permitió a la firma ahorrar recursos fue la implementación del aprendizaje por refuerzo, un método mediante el que los modelos se entrenan a prueba y error, sin la intervención de moderadores humanos. Los programadores le indican a los modelos qué tareas deben resolver y estos buscan las mejores soluciones automáticamente, siendo esta estrategia más efectiva.
En esencia, los modelos de DeepSeek aprenden interactuando con su entorno y recibiendo retroalimentación sobre sus acciones, de manera similar a como los humanos aprenden a través de la experiencia.
Restricciones positivas
En octubre de 2022, el gobierno estadounidense comenzó a establecer controles de exportación que limitaban severamente el acceso de las empresas chinas de IA a chips de vanguardia como el H100 de Nvidia, que lidera las ventas de este tipo de unidades de procesamiento para el desarrollo de IA. Esa decisión afectó en su momento a DeepSeek, que solo contaba con los 10,000 H100 de sus inicios y necesitaba más recursos para llegar a competir con firmas como OpenAI y Meta. "El problema al que nos enfrentamos nunca ha sido el financiamiento, sino el control de las exportaciones de chips avanzados", explicó Wenfeng el año pasado, durante una entrevista con el medio chino 36Kr. Fue por esto que DeepSeek tuvo que idear métodos más eficientes para entrenar sus modelos. "Optimizaron la arquitectura utilizando una batería de trucos de ingeniería: esquemas de comunicación personalizados entre chips, reducción del tamaño de los campos para ahorrar memoria y un uso innovador del enfoque de mezcla de modelos", explica Wendy Chang, ingeniera de software reconvertida en analista política del Mercator Institute for China Studies. "Muchos de estos enfoques no son ideas nuevas, pero combinarlos con éxito para producir un modelo de vanguardia es una hazaña notable", remarcó. En definitiva, lo que en su momento se instaló como una medida para complicar el desarrollo de la IA por parte de empresas chinas terminó beneficiando a DeepSeek, que no tuvo más alternativa que entrenar a sus modelos con una décima parte de la potencia informática de sus competidores, según apunta el grupo de investigación Epoch AI. La popularidad que obvuto DeepSeek destaca el hecho de que los líderes en el desarrollo de modelos inteligentes de IA requiere, además de potencia y grandes conjuntos de datos, mejorar la eficiencia algorítmica y la optimización de recursos. "A diferencia de muchas empresas chinas de IA que dependen en gran medida del acceso a hardware avanzado, DeepSeek se ha centrado en maximizar la optimización de recursos basada en software", explicó Marina Zhang, profesora asociada de la Universidad Tecnológica de Sídney, consultada por Wired. Además, la académica que estudia las innovaciones chinas destacó: "DeepSeek ha adoptado métodos de código abierto, poniendo en común la experiencia colectiva y fomentando la innovación colaborativa. Este enfoque no solamente mitiga las limitaciones de recursos, sino que también acelera el desarrollo de tecnologías de vanguardia, diferenciando a DeepSeek de competidores más aislados". Lo que describe Zhang tuvo un impacto financiero este lunes, cuando se registraron caídas superiores al 3% en el caso del índice Nasdaq –que aglutina los valores de compañías tecnológicas de EE.UU.– y en las acciones de diferentes compañías que cotizan en Wall Street. Uno de los motivos fue que DeepSeek afirma que, para entrenar a V3, sólo utilizó unos 2.000 chips especializados de Nvidia. En comparación, para el entrenamiento de modelos líderes se han utilizado 16.000 o más chips, según publicó el New York Times. Esto no hace más que acelerar la carrera en la industria de la IA, que en Estados Unidos recibirá una inyección de capital de 500.000 millones de dólares a través del proyecto "Stargate", anunciado la semana pasada por Donald Trump y que beneficiará a Nvidia, Microsoft, OpenAI y Meta para el desarrollo de sus centros de datos.Alerta para la competencia