Para ver más de Telemundo, visita https://www.nbc.com/networks/telemundo
DeepSeek, hasta hace poco una empresa china de inteligencia artificial poco conocida, se ha convertido en el centro de atención de la industria tecnológica tras lanzar una serie de grandes modelos de lenguaje que eclipsaron a muchos de los principales desarrolladores de IA del mundo.
DeepSeek lanzó su modelo de lenguaje más comentado, R1, el 20 de enero. El asistente de IA alcanzó el número 1 en la App Store de Apple en los últimos días, desplazando al ChatGPT de OpenAI, que había dominado durante mucho tiempo, al número 2.
Su repentino dominio (y su capacidad para superar a los mejores modelos estadounidenses en una variedad de puntos de referencia) ha provocado un frenesí en Silicon Valley, especialmente porque la empresa china promociona que su modelo se desarrolló a una fracción del costo.
Noticias de Noreste 24/7 en Telemundo 47.
![Mira](https://media.nbcnewyork.com/assets/editorial/national/images/cta-eye-icon-white.png)
La conmoción en los círculos tecnológicos estadounidenses ha provocado un ajuste de cuentas en la industria, que demuestra que tal vez los desarrolladores de IA no necesitan cantidades exorbitantes de dinero y recursos para mejorar sus modelos. En cambio, los investigadores se están dando cuenta de que es posible hacer que estos procesos sean eficientes, tanto en términos de costo como de consumo de energía, sin comprometer la capacidad.
R1 llegó poco después de su modelo anterior V3, que se lanzó a fines de diciembre. Pero el lunes, DeepSeek lanzó otro modelo de IA de alto rendimiento, Janus-Pro-7B, que es multimodal en el sentido de que puede procesar varios tipos de medios.
Manténte al tanto de las noticias locales y del estado del tiempo. Suscríbete a nuestros newsletters gratuitos aquí.
![Subscribe](https://media.nbcnewyork.com/assets/editorial/national/images/cta-mail-icon-white.png)
Estas son algunas de las características que hacen que los grandes modelos de lenguaje de DeepSeek parezcan tan únicos.
TAMAÑO
A pesar de haber sido desarrollado por un equipo más pequeño con una financiación drásticamente menor que los principales gigantes tecnológicos estadounidenses, DeepSeek está superando sus expectativas con un modelo grande y poderoso que funciona igual de bien con menos recursos.
Esto se debe a que el asistente de IA se basa en un sistema de “mezcla de expertos” para dividir su gran modelo en numerosos submodelos pequeños, o “expertos”, cada uno de los cuales se especializa en manejar un tipo específico de tarea o datos. A diferencia del enfoque tradicional, que utiliza cada parte del modelo para cada entrada, cada submodelo se activa solo cuando su conocimiento particular es relevante.
Por lo tanto, aunque V3 tiene un total de 671,000 millones de parámetros, o configuraciones dentro del modelo de IA que ajusta a medida que aprende, en realidad solo usa 37,000 millones a la vez, según un informe técnico que publicaron sus desarrolladores.
La empresa también desarrolló una estrategia única de carga para garantizar que ningún experto esté sobrecargado o subcargado de trabajo, mediante el uso de ajustes más dinámicos en lugar de un enfoque tradicional basado en penalizaciones que puede conducir a un empeoramiento del rendimiento.
Todo esto permite a DeepSeek emplear un equipo sólido de “expertos” y seguir agregando más, sin ralentizar todo el modelo.
También utiliza una técnica llamada escala de cálculo en tiempo de inferencia, que permite al modelo ajustar su esfuerzo computacional hacia arriba o hacia abajo dependiendo de la tarea en cuestión, en lugar de funcionar siempre a máxima potencia. Una pregunta sencilla, por ejemplo, podría requerir solo unos pocos engranajes metafóricos para girar, mientras que pedir un análisis más complejo podría hacer uso del modelo completo.
En conjunto, estas técnicas hacen que sea más fácil usar un modelo tan grande de una manera mucho más eficiente que antes.
![Riesgos de la inteligencia artificial, ¿ChatGPT amenaza con eliminar trabajos?](https://media.telemundosanantonio.com/2023/05/shutterstock_2083343668.jpg?quality=85&strip=all&resize=850%2C478)
COSTO DE ENTRENAMIENTO
El diseño de DeepSeek también hace que sus modelos sean más baratos y más rápidos de entrenar que los de sus competidores.
Incluso mientras las principales empresas tecnológicas de los Estados Unidos siguen gastando miles de millones de dólares al año en IA, DeepSeek afirma que V3, que sirvió como base para el desarrollo de R1, tomó menos de $6 millones y solo dos meses para construirse. Y debido a las restricciones de exportación de EEUU que limitaron el acceso a los mejores chips de computación de IA, a saber, los H100 de Nvidia, DeepSeek se vio obligado a construir sus modelos con los H800 menos potentes de Nvidia.
Uno de los mayores avances de la empresa es el desarrollo de un marco de “precisión mixta”, que utiliza una combinación de números de punto flotante de 32 bits de precisión total (FP32) y números de 8 bits de baja precisión (FP8). Estos últimos utilizan menos memoria y son más rápidos de procesar, pero también pueden ser menos precisos.
En lugar de depender solo de uno u otro, DeepSeek ahorra memoria, tiempo y dinero al utilizar FP8 para la mayoría de los cálculos y cambiar a FP32 para algunas operaciones clave en las que la precisión es primordial.
Algunos en el campo han señalado que los recursos limitados son quizás lo que obligó a DeepSeek a innovar, allanando un camino que potencialmente demuestra que los desarrolladores de IA podrían hacer más con menos.
![Apple pagará hasta $1 millón a quien hackee sus servidores IA sin ser detectado](https://media.telemundo52.com/2024/10/35512565083-1080pnbcstations.jpg?quality=85&strip=all&resize=850%2C478)
RENDIMIENTO
A pesar de sus medios relativamente modestos, las puntuaciones de DeepSeek en los puntos de referencia siguen el ritmo de los últimos modelos de vanguardia de los principales desarrolladores de IA en Estados Unidos.
R1 está casi a la par con el modelo o1 de OpenAI en el índice de calidad de análisis artificial, una clasificación de análisis de IA independiente. R1 ya supera a otros modelos, incluidos Gemini 2.0 Flash de Google, Claude 3.5 Sonnet de Anthropic, Llama 3.3-70B de Meta y GPT-4o de OpenAI.
Una de sus características principales es su capacidad de explicar su pensamiento a través del razonamiento en cadena, que tiene como objetivo dividir las tareas complejas en pasos más pequeños. Este método permite al modelo retroceder y revisar los pasos anteriores (imitando el pensamiento humano) al tiempo que permite a los usuarios seguir también su lógica.
La versión 3 también tenía un rendimiento similar al de Claude 3.5 Sonnet cuando se lanzó el mes pasado. El modelo, que precedió a la versión R1, había superado a GPT-4o, Llama 3.3-70B y Qwen2.5-72B de Alibaba, el anterior modelo de IA líder de China.
Mientras tanto, DeepSeek afirma que su nuevo Janus-Pro-7B superó a DALL-E de OpenAI y a 3 Medium de Stable Diffusion en múltiples puntos de referencia.
Este artículo se publicó originalmente en inglés en NBC News. Haz clic aquí para leerlo.