¿Qué es DeepSeek V4?

DeepSeek V4 es un LLM de tipo Mixture-of-Experts lanzado el 24 de abril de 2026 por la startup china DeepSeek. El modelo insignia V4-Pro tiene 1.6 billones de parámetros totales (49B activados por token), una ventana de contexto de 1 millón de tokens y licencia Apache 2.0. La variante más ligera, V4-Flash (284B totales, 13B activos), está orientada a cargas de trabajo sensibles a la latencia.

¿Cómo se compara DeepSeek V4 con Claude y GPT en benchmarks?

DeepSeek V4-Pro obtiene un 80.6% en SWE-bench Verified — a solo 0.2 puntos de Claude Opus 4.6 — y supera a Claude en LiveCodeBench (93.5% frente a 88.8%) y Terminal-Bench 2.0 (67.9% frente a 65.4%). Lo logra con un costo aproximadamente 7 veces menor por millón de tokens de salida respecto a los precios actuales de la API de Claude.

¿Es DeepSeek V4 realmente open source?

Sí. Tanto V4-Pro como V4-Flash se publican bajo la licencia Apache 2.0, que permite uso comercial, autoalojamiento y trabajos derivados sin costos de licencia. Los pesos del modelo están disponibles en Hugging Face y son accesibles de inmediato a través de la propia API de DeepSeek.

¿Qué es la Arquitectura de Atención Híbrida de DeepSeek?

La Arquitectura de Atención Híbrida combina atención local de ventana deslizante con cabezas de atención global periódica. Esto permite que V4 mantenga coherencia en contextos de hasta 1 millón de tokens con solo el 10% de la memoria de caché KV que necesitaba DeepSeek V3.2 a la misma longitud de contexto — una mejora clave de eficiencia para despliegues en producción.

DeepSeek V4: El Modelo Open-Source de 1.6T que Ya Compite en la Frontera

DeepSeek, la startup china de inteligencia artificial, publicó hoy los primeros builds de su modelo insignia V4, y los números son difíciles de ignorar. DeepSeek V4-Pro obtiene un 80.6% en SWE-bench Verified — a un margen mínimo de los mejores modelos propietarios — y cuesta $3.48 por millón de tokens de salida bajo licencia Apache 2.0. Para cualquier organización que ejecute cargas de trabajo agénticas o procesamiento de documentos con contextos largos, este lanzamiento transforma la ecuación de costos de manera inmediata.

Dos Variantes Diseñadas para Diferentes Necesidades

DeepSeek V4 llega en dos configuraciones pensadas para distintos escenarios de despliegue.

DeepSeek V4-Pro es el modelo insignia: una arquitectura Mixture-of-Experts (MoE) con 1.6 billones de parámetros totales y 49 mil millones activados por pasada hacia adelante. El enrutamiento MoE hace que cada token pase por un subconjunto de sub-redes “expertas” especializadas en lugar de activar el modelo completo — esto ofrece razonamiento de nivel frontera mientras mantiene los costos de inferencia manejables a escala.

DeepSeek V4-Flash es la variante optimizada para eficiencia: 284 mil millones de parámetros totales con solo 13 mil millones activados. Está pensada para pipelines con alta sensibilidad a la latencia y aplicaciones de alto rendimiento donde los tiempos de respuesta sub-segundo importan más que los últimos puntos de benchmark.

Ambas variantes comparten dos capacidades fundamentales. Primero, una ventana de contexto de 1 millón de tokens: suficiente para cargar una base de código completa de tamaño mediano, un año de tickets de soporte o una especificación técnica de múltiples volúmenes en un solo prompt. Para sistemas agénticos como los construidos sobre AgentsGT, esa profundidad de contexto permite una ejecución de tareas más larga y sin interrupciones, con mucho menos fragmentación y recuperación de información redundante. Segundo, la Arquitectura de Atención Híbrida: la técnica de DeepSeek que intercala atención local de ventana deslizante con cabezas de atención global periódica, logrando una recuperación de información notablemente mejor en contextos largos sin el costo cuadrático de memoria normalmente asociado con atención completa a este número de tokens.

Las ganancias de eficiencia a la longitud de contexto máxima no son incrementales. Comparado con DeepSeek V3.2, V4-Pro requiere solo el 27% de los FLOPs de inferencia y el 10% del caché KV a la misma longitud de contexto. Las organizaciones que ejecutan miles de completaciones largas en paralelo verán esa eficiencia traducirse directamente en menor latencia y menores costos de infraestructura.

Resultados en Benchmarks: Rendimiento a Nivel Frontera

El número más comentado del lanzamiento de hoy es el 80.6% de V4-Pro en SWE-bench Verified — el benchmark estándar donde los modelos deben resolver issues reales de GitHub de extremo a extremo, escribiendo y ejecutando pruebas sobre repositorios reales. Eso coloca a V4-Pro a solo 0.2 puntos porcentuales de Claude Opus 4.6, que estableció récords en el mismo benchmark a principios de esta semana.

En tres benchmarks adicionales orientados a programación, V4-Pro no solo iguala a los modelos propietarios — los supera:

LiveCodeBench mide el rendimiento en problemas de programación competitiva publicados después de las fechas de corte de entrenamiento, lo que lo hace resistente a la contaminación de datos. V4-Pro obtiene 93.5%, frente al 88.8% de Claude Opus 4.7.

Terminal-Bench 2.0 evalúa la capacidad de completar tareas de shell y CLI de forma autónoma. V4-Pro alcanza 67.9% frente al 65.4% de Claude Opus 4.6.

Codeforces ELO: V4-Pro obtiene una puntuación de 3206 — firmemente en territorio de gran maestro en la plataforma de programación competitiva, un número que refleja razonamiento estructural profundo, no reconocimiento superficial de patrones.

Estos resultados indican en conjunto que V4-Pro está listo para producción en pipelines agénticos orientados a programación: revisión de código, refactorización, depuración, generación de infraestructura como código y tareas de ingeniería de software en múltiples pasos. Similar al enfoque de pesos abiertos que Kimi K2.6 introdujo esta semana, DeepSeek demuestra nuevamente que la ruta open-source hacia el rendimiento frontera es repetible.

La Brecha de Costos Es la Verdadera Historia

Los puntajes de benchmark importan, pero la estructura de costos de DeepSeek V4 es lo que hace que este lanzamiento sea comercialmente significativo. La comparación a continuación muestra dónde se ubica V4-Pro en el panorama actual de precios para modelos de nivel frontera:

Costo por millón de tokens de salida — Abril 2026

DeepSeek V4-Flash $0.28

DeepSeek V4-Pro $3.48

Claude Opus 4.6 $25.00

Las barras son proporcionales al costo. Fuentes: precios de la API de DeepSeek (abril 2026), precios públicos de Anthropic.

Con 100 millones de tokens de salida — un volumen mensual realista para una empresa mediana con múltiples agentes de IA activos — la diferencia entre V4-Pro y Claude Opus equivale a aproximadamente $348 frente a $2,500 por mes. Con V4-Flash, ese mismo volumen cuesta solo $28 al mes para aplicaciones que no requieren la profundidad de razonamiento pico de V4-Pro.

Esto importa especialmente en cargas de trabajo de alta frecuencia: pipelines de resumen de documentos, automatización de revisión de código, sistemas de Q&A de cara al cliente y aplicaciones RAG con contextos largos. Para estos casos de uso, la curva de costo por token es el principal motor del retorno de inversión. Una reducción de 7 veces en el costo de tokens de salida no es una diferencia marginal — es la diferencia entre un proyecto que es viable y uno que no lo es.

Para los tokens de entrada, los precios son igualmente competitivos: $1.74/M para V4-Pro y $0.14/M para V4-Flash — ambos muy por debajo de las tarifas que históricamente han limitado la adopción de IA en contextos empresariales con restricciones de presupuesto.

Apache 2.0: La Licencia que Cambia Todo

El open source de IA existe en un espectro. La “licencia comunitaria” de Llama 4 restringe el uso comercial a partir de ciertos umbrales de usuarios activos. Muchos lanzamientos de pesos “abiertos” omiten el código y los datos de entrenamiento. Apache 2.0 es categóricamente diferente: otorga uso comercial sin restricciones, permite cualquier trabajo derivado y solo requiere atribución en el texto de la licencia.

Lo que eso significa en la práctica para las empresas:

El autoalojamiento se convierte en una opción de primer nivel. Las empresas con requisitos de soberanía de datos — salud, legal, servicios financieros, gobierno — pueden ejecutar V4-Pro completamente en su propia infraestructura. Ningún dato sale de la organización. La huella de 49B parámetros activados es grande pero alcanzable en una configuración de servidor multi-GPU.

El ajuste fino (fine-tuning) está totalmente permitido. Las organizaciones pueden tomar V4-Flash y ajustarlo con sus propios conjuntos de datos para construir modelos especializados en su dominio, y luego desplegarlos comercialmente sin restricciones de licencia ni obligaciones de regalías.

Sin dependencia de un proveedor único. Dado que los pesos son públicos y la licencia es permisiva, una empresa que construya sobre V4-Pro hoy no depende de la operación continua de DeepSeek, su disponibilidad de API ni sus decisiones de precios futuras. Esta es una reducción de riesgo significativa comparada con construir enteramente sobre APIs cerradas.

La publicación bajo Apache 2.0 también significa que la comunidad de investigación e ingeniería puede comenzar de inmediato a construir sobre la arquitectura de V4. Se esperan variantes cuantizadas, especializaciones ajustadas y herramientas derivadas en cuestión de semanas.

Qué Deben Hacer las Empresas con DeepSeek V4 Ahora

La pregunta práctica no es si DeepSeek V4 es impresionante — los datos lo dejan claro — sino cómo evaluarlo frente a la pila de IA actual de tu organización.

Si ejecutas agentes de programación o flujos de ingeniería de software, V4-Pro es la opción open-source más convincente disponible hoy. Comienza con una comparación A/B frente a tu proveedor actual en una muestra representativa de tus tareas reales, no solo en benchmarks públicos. Los resultados en LiveCodeBench y Terminal-Bench sugieren buena generalización en tareas de código, pero tu base de código interna y tus herramientas serán la prueba definitiva.

Si procesas documentos extensos o datos de clientes a escala, el contexto de 1M tokens de V4-Flash a $0.14/M de entrada y $0.28/M de salida es posiblemente la mejor relación costo-capacidad disponible actualmente. Pruébalo primero en cargas de trabajo de menor riesgo como resumen o clasificación, ya que Flash sacrifica parte de la profundidad de razonamiento de V4-Pro a cambio de velocidad y costo.

Si la soberanía de datos es una restricción crítica, Apache 2.0 convierte el autoalojamiento en una opción real. V4-Flash (13B parámetros activados) es alcanzable en infraestructura que muchas empresas ya poseen; V4-Pro es factible con una inversión moderada en GPUs.

Si hoy usas principalmente APIs propietarias, el lanzamiento de V4 es un buen momento para auditar el costo total de propiedad de tu stack de IA. Incluso si decides quedarte con un proveedor cerrado por razones de calidad o soporte, contar con una alternativa casi equivalente mejora significativamente tu posición de negociación.

Una advertencia importante para esta versión preview: DeepSeek todavía no ha publicado la evaluación de seguridad completa de V4, el system card ni los resultados de red-teaming. Para despliegues en producción en contextos de alto riesgo — asesoría legal, información médica, decisiones financieras — vale la pena esperar esa documentación o realizar tu propia evaluación antes de lanzar.

El Patrón de Fondo: El Open Source Está Alcanzando a la Frontera

DeepSeek V4 llega casi exactamente un año después de que DeepSeek R1 sacudiera la confianza occidental en la IA al demostrar que modelos open-source sólidos podían entrenarse a una fracción del costo asumido por la industria. V4 retoma ese tema con una ejecución más refinada y un ángulo comercial más claro.

El patrón importa más allá de cualquier modelo individual. Los laboratorios chinos de IA están cerrando sistemáticamente la brecha de capacidades mientras adoptan estrategias de distribución open-source que los incumbentes occidentales han evitado en su mayoría. Las ganancias de eficiencia de DeepSeek V4 y la arquitectura de enjambre de agentes de Kimi K2.6 no son logros aislados — reflejan una cultura de investigación que trata el costo y la apertura como restricciones de diseño primarias, no como consideraciones secundarias.

Para las empresas, esta dinámica crea una oportunidad estructural: el piso de costos para la IA de nivel casi-frontera está bajando, y seguirá bajando. Las organizaciones que construyan pipelines agnósticos al modelo hoy — infraestructura que pueda enrutar entre modelos según costo y capacidad sin rediseñar toda la arquitectura — extraerán el mayor valor de esa trayectoria. Esa flexibilidad es central en la forma en que AgentsGT aborda la infraestructura de agentes: sistemas diseñados para funcionar entre modelos en lugar de atarse a un único proveedor.

La presión competitiva que DeepSeek V4 ejerce sobre Anthropic, OpenAI y Google es real. Google Cloud Next de la semana pasada marcó el momento en que esas empresas declararon terminada la era de los pilotos para la IA empresarial. DeepSeek V4 es la respuesta open-source: rendimiento de nivel frontera, licencia permisiva y una estructura de costos que hace que el despliegue a escala sea genuinamente accesible por primera vez.

¿Quieres evaluar qué modelos de IA tienen sentido para las cargas de trabajo específicas de tu empresa? Contáctanos o escríbenos a info@ddrinnova.com — ayudamos a equipos a construir pipelines de IA agnósticos al modelo que se mantengan a la vanguardia.

Fuentes

Imagen de portada: Unsplash