Bueno pues seguramente lo hayas visto en las noticias DeepSeek es un modelo de inteligencia artificial creado con un presupuesto supuestamente bastante bajo.
Y que aún así es mejor que algunos de los mejores modelos creados por las mejores empresas de Estados Unidos en algunos aspectos, pero por qué DeepSeek ha causado tanto revuelo.
Qué tiene de especial que una empresa de ia china haya desarrollado un modelo así.
Bueno pues lo más probable es que leyendo las noticias no te hayas enterado de nada porque a mí también me ha pasado.
así que hoy te voy a contar exactamente y sin tonterías ni clickbaits qué tiene de especial DeepSeek y por qué ha puesto el mundo patas arriba,
Índice
¿Quién Fundó DeepSeek?
Liang Wenfeng era un estudiante de ingeniería en la universidad China, la ingeniería era algo que le apasionaba pero en sus años de estudiante se dio cuenta de que si realmente quería hacer dinero tenía que empezar a explorar otros temas.
Ahí fue donde se empezó a interesar por las finanzas y formó un grupo de estudiantes dentro de su universidad para hablar y aprender sobre mercados financieros y la bolsa.
Aplicando los conocimientos de ingeniería a la bolsa empezó a hacer sus primeras inmersiones en el mundo del Quant Trading.
El quant trading es cuando la acción de comprar y vender activos las hace un ordenador, o sea en lugar de tener una persona que está ahí comprando y vendiendo acciones a mano,.
Tenemos un ordenador con un software que está ahí haciendo análisis de todos los datos, y decidiendo cuándo hay que comprar y cuándo hay que vender.
No es el típico Bot de bolsa que te deja el link de descarga tu youtuber de inversiones favorito sino que estamos hablando de modelos matemáticos avanzados.
Pero la idea de Liang iba más allá de simplemente hacer un Bot de bolsa su idea era usar Machine Learning o aprendizaje automático para poder tomar las decisiones y dedico gran parte de sus años universitarios a todo esto.
Tanto es así que en 2016 tras terminar la universidad funda High flyer una firma de inversión 100% basada en decisiones de compra automatizadas por ordenador.
La cual con los años se convirtió en la firma top cuatro de China manejando activos por 8000 millones de dólares.
Vamos que mal no le fue, pero uno de sus sueños desde el principio era usar Inteligencia artificial aplicada a los mercados financieros.
Tener una inteligencia artificial que fuese capaz de determinar con mucha precisión cuándo comprar y cuándo vender.

Historia de la IA china DeepSeek
El tema de la inteligencia artificial era tan interesante para para el Liang que en 2021 compró miles de tarjetas gráficas de nvidia.
Muchos lo vieron como un millonario excéntrico que compraba juguetes para quitarse el gusanillo de jugar con tecnologías que de momento no tenían ningún uso fuera de un proyecto universitario y otros sabían que lo que se venía iba a ser una revolución.
Dos años más tarde el 17 de julio de 2023 funda la empresa Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Corporation Limited.
También conocida como DeepSeek una empresa con menos de 200 empleados.
Que a finales de 2024 lanzó un modelo de Inteligencia artificial que hizo temblar a toda la industria tecnológica y la bolsa, e incluso puso nerviosos a más de un gobierno, ¿de qué iba este lanzamiento?
¿El gobierno chino creó DeepSeek?
Hay un par de puntos muy importantes que tenemos que aclarar sobre DeepSeek el primero es que es una empresa fundada con el capital de High flyer, esta firma de Quant trading que tiene Liang.
Pero bueno ahora mismo no hay pruebas de que china como gobierno tenga nada que ver con DeepSeek.
Liang usó dinero de su firma de inversión para crear esta empresa, al puro estilo capitalista americano.
Si bien el gobierno de China es cierto que está incentivando la Inteligencia artificial, realmente No es una empresa que tenga ningún tipo de afiliación con el gobierno es una empresa de Liang o mejor dicho de High flyer.
Está el gobierno chino de alguna forma ayudando a DeepSeek Bueno pues la verdad es que es difícil saberlo o sea, nosotros no tenemos forma de saber esto.
Pero en principio los planes de China para incentivar la Inteligencia artificial son más bien proyectos de construir centros de datos potenciar la IA en las universidades y hacer que las leyes favorezcan de alguna manera la IA generativa y que no esté tan restringido como en Europa.
DeepSeek R1 y V3
DeepSeek han lanzado en noviembre de 2024 dos modelos uno se llama DeepSeek R1 y el otro se llama DeepSeek V3.
Estos dos modelos son large Language models al estilo de ChatGPT, Claude, Gemini o Llama.
Básicamente son modelos que generan texto y a ver existen muchos modelos de este tipo, pero no tan buenos como este.
Mirad existen pruebas para valorar qué tan bueno es un modelo comparado con otros y aquí podéis ver algunas de estas pruebas.

Benchmarks de DeepSeek
Pues resulta que en algunas de estas pruebas DeepSeek V3 ahora mismo es mejor que los mejores que teníamos hasta la fecha.
Superando a Claude 3.5 y a GPT 4 DeepSeek es mejor en pruebas de rendimiento como:
MMLU-Redux:
Que incluye pruebas de conocimiento general, razonamiento lógico y comprensión avanzada en múltiples temas como matemáticas, historia, ciencias y más.

Drop (Discrete Reasoning Over Paragraphs):
Tenemos también por ejemplo a Drop que es discrete reasoning over paragraphs que mide la capacidad de razonamiento sobre textos largos.
Donde las respuestas a veces requieren cálculos, combinaciones de datos o razonamientos lógicos.

Aider polyglot:
Otro ejemplo de prueba es aider polyglot que evalúa la capacidad del modelo para trabajar con múltiples lenguajes de programación entendiendo y ejecutando tareas con distintas sintaxis.

Bueno pues esto, para hacernos una idea, lo que nos dice es que en algunas de estas pruebas no solo es muy parecido al rendimiento que tienen otros modelos muy avanzados como el de ChatGPT.
Sino que en algunos es incluso mejor y esto es impresionante porque en general no es tan fácil crear un modelo que sea tan bueno o sea muy pocas empresas en el mundo entero lo han conseguido y ese es el primer motivo por el que DeepSeek es tan impresionante.
Precios de DeepSeek
Las tarifas para usar este modelo son bastante más baratas que la competencia, la web para chatear con DeepSeek es gratis.
Tipo | DeepSeek-chat | DeepSeek-Reasoner |
1M Tokens INPUT (CACHE HIT)⁴ | $0.07 | $0.14 |
1M Tokens INPUT (CACHE MISS) | $0.27 | $0.55 |
1M Tokens OUTPUT⁵ | $1.10 | $2.19 |
¿Cómo gana dinero DeepSeek?
La forma en la que realmente ganan dinero estas empresas es a través de la API.
Bueno pues usar esta API tiene un precio evidentemente no es gratis vale y el precio se mide por token cada token es más o menos una palabra generada, cuantas más palabra genera la IA más se cobra al dueño de la aplicación.
Mientras que los tokens de salida de ChatGPT cuestan 10 por el millón de tokens en su modelo GPT 4 el estándar digamos DeepSeek con v3 cuesta 1,1 por millón de tokens unas 10 veces más barato que ChatGPT.
¿Qué es una API?
La Api es la application programming interface esto básicamente en cristiano es una forma de conectar programas entre ellos Imagínate que tienes una app como por ejemplo:
Una app de fitness de entrenamiento personal y quieres que esta app tenga Inteligencia artificial como un chat con un entrenador personal que en realidad es una IA y te dice recomendaciones, de cómo vas con los ejercicios.
Bueno pues para esta empresa que tienes tú de aplicaciones de deporte, lograr programar Inteligencia artificial a nivel de ChatGPT, Gemini o DeepSeek no está a tu alcance, es algo muy complejo que necesita mucho dinero de inversión y muchos servidores para poder ejecutar toda esa inteligencia.
Así que tu mejor opción es conectar tu aplicación con una de estas inteligencias artificiales que ya existen y ese es el servicio que ellos proporcionan.
La app de deporte le daría una serie de datos tuyos (prompts), el historial de entrenamientos, datos biométricos y la IA generaría una respuesta, o sea que simularia este entrenador personal.
Este es uno de los modelos de negocio más importantes que existe en este tipo de servicios no como ChatGPT.

Entrenamiento de DeepSeek
Estos modelos de Inteligencia artificial como decíamos antes necesitan de super ordenadores con muchísimas tarjetas gráficas para poder ejecutarse en centros de datos con millones de inversión.
Bueno pues Agárrate porque resulta que DeepSeek ha liberado de forma Open source y totalmente gratuita su modelo DeepSeek v3 y R1 o sea, literalmente te los puedes bajar y ejecutarlos en tu centro de datos eso sí para el modelo más grande de DeepSeek R1 por ejemplo que tiene 671miles de millones de parámetros necesitarías unas 16 gráficas A100 de nvidia que tienen unos 80 GB de memoria cada una sumando en total 1280 GB de memoria,
Montarte esto te costaría algo así como medio millón de dólares pero bueno podrías ejecutar DeepSeek R1 con todo su potencial Y esto es una amenaza bastante grande contra la industria americana de la Inteligencia artificial
Bueno pues la primera semana de lanzamiento ha tenido más de un millón de descargas, y estos no son las descargar de la app o gente que se registró en la web.
Sino gente con conocimientos técnicos y con la infraestructura para ejecutar la IA en sus propios servidores.
Costes de desarrollo
Otra cosa que es muy impresionantes y de las cosas de las que más se habla, es que DeepSeek fue increíblemente barato de entrenar.
Pero no solo de entrenar sino que además es barato de ejecutar no solo se hizo el entrenamiento con una cantidad de gráficas bastante pequeña y en un tiempo sorprendentemente corto.
Sino que también cuando hicieron R1 el modelo que razona también gastaron muy poco dinero respecto a lo que la gente se esperaría al crear un modelo de ese tipo .
cómo hicieron esto bueno pues con una serie de mejoras técnicas, evoluciones y optimizaciones.
Llama o GPT se basan en una red neuronal generalista que se entrena con un montón de conocimiento de todo tipo para generar texto sobre cualquier cosa o cualquier área de conocimiento.
Pero en general, cuando generan palabras lo que tenemos es un gran cerebro que procesa cada uno de los prompts que pone el usuario.
Arquitectura de DeepSeek
DeepSeek Por otra parte se basa en una arquitectura que se llama mixture of experts que se podría Traducir como mezcla de expertos.
Aquí la idea es que en lugar de tener un gran modelo que se ejecuta de forma completa cada vez que vamos a procesar el prompt que escribe el usuario.
Tenemos como varios modelos más pequeños que están especializados en distintos temas.
Esto no es una idea original de DeepSeek, no se les ocurrió a ellos sino que ya se implementó por ejemplo en un proyecto de Google que se llama Gard o en el modelo mix al e incluso viene de un paper de 2017.
Entonces lo que tenemos delante es un enrutador, el enrutador es el que va a elegir quién se encarga de resolver esa cuestión.
Con el mixture of expert se selecciona de forma mucho más específica lo que se va a usar en concreto es como tener un cerebro que se usa todo el tiempo al 100%.
O que solo usa unas partes concretas para hacer tareas concretas y eso realmente lo que hace es ahorrar mucha energía al sistema.
Por lo cual necesitamos menos gráficas para ejecutar el modelo.
Dificultades en el desarrollo
No solo usaron una arquitectura diferente sino que también tuvieron que modificar las tarjetas gráficas que usaron en el entrenamiento.
Ya que las tarjetas gráficas de Nvidea que se usan para entrenar IA son menos potentes en china.
Debido a una leyes, y los conflictos políticos entre Estados Unidos y China, que obligan a Nvidia a limitar las gráficas que se envían a china.
Por qué en el desarrollo de DeepSeek fue necesario modificar todos esas gráficas una a una para lograr aprovechar al máximo, a pesar de las limitaciones que tenían a nivel de hardware.
Esto les permitió crear un modelo de entrenamiento que es más eficiente que el que se usa en Estados Unidos, y reduciendo costes al maximo.
Otra IA china relevante
Qwen2.5-Max
Recientemente se lanzo la IA de Alibaba, una de las empresas más grandes de china, Qwen2.5-Max la cual pretende competir directamente con modelos de primera linea como GPT-4o, DeepSeek V3 y más.
Resumen:
DeepSeek llegó para cambiar la forma en la que se entrenan este tipo de modelos, y es de admirar como los desarrolladores sortearon las dificultades para lograr sus objetivos con mucho ingenio y creatividad, lograron crear un modelo de IA que compite con los más grandes.
Que no les sorprenda ver qué salen un montón de modelos de IA basados en el código de DeepSeek desde ahora, así empezarán a salir, y aquí en Tecnología Responsable estaremos al pendiente para contarles todo sobre la IA de china.