El 5 de mayo de 2026, el gobierno de EE. UU. completó silenciosamente algo que llevaba más de un año construyendo: un programa de evaluación previa al lanzamiento que ahora incluye a todos los grandes laboratorios de IA frontier del país. El Centro de Innovación y Estándares de IA (CAISI) del NIST anunció nuevos acuerdos con Google DeepMind, Microsoft y xAI para que sometan sus modelos frontier a evaluación gubernamental antes de publicarlos. OpenAI y Anthropic — ya en el programa desde 2024 — renegociaron sus compromisos para alinearlos con el Plan de Acción de IA de la administración actual. El resultado es un acuerdo sin precedentes: cinco de los desarrolladores de IA más poderosos del mundo ahora entregan sus modelos a evaluadores del gobierno antes de que lleguen al público. Para una Casa Blanca que comenzó 2025 derogando el decreto de seguridad de IA de Biden, esto representa un giro significativo — aunque discretamente presentado.
Qué es CAISI y por qué importa
CAISI son las siglas del Centro de Innovación y Estándares de IA, la división del Instituto Nacional de Estándares y Tecnología (NIST) responsable de desarrollar normas técnicas y realizar evaluaciones de sistemas de IA avanzados. A diferencia del Instituto de Seguridad de IA que surgió del decreto ejecutivo de Biden en 2023, CAISI ha operado de forma continua entre administraciones, lo que le otorga la legitimidad institucional para actuar como puente entre una Casa Blanca pro-innovación y una comunidad investigadora que ha expresado serias preocupaciones sobre el despliegue de modelos frontier sin revisión.
El mandato de evaluación de CAISI abarca tres áreas. La primera es la relevancia para la seguridad nacional: ¿supone el modelo un riesgo de potenciación en ámbitos como la síntesis de armas biológicas, la automatización de ciberataques o el compromiso de infraestructuras críticas? La segunda es la evaluación de capacidades: ¿dónde se sitúa el modelo en los parámetros de razonamiento autónomo, ejecución de tareas en múltiples pasos y potencial de autorreplicación? La tercera — y más inusual — es la prueba de capacidades brutas con las barreras de seguridad desactivadas. Los evaluadores acceden al modelo subyacente con las capas de seguridad parcialmente inhabilitadas para explorar capacidades que normalmente estarían bloqueadas por el ajuste de alineación. El objetivo es entender qué puede hacer el modelo al límite, no solo cómo se comporta en condiciones normales.
A mayo de 2026, CAISI ha completado más de 40 evaluaciones de este tipo, incluidas algunas de modelos que nunca llegaron al mercado. Varias de esas evaluaciones influyeron en decisiones sobre si un modelo debía publicarse y en qué forma.
Los acuerdos de mayo de 2026: quién se incorporó y qué cambió
Los tres acuerdos anunciados el 5 de mayo comparten una estructura común: cada empresa participante se compromete a proporcionar a los evaluadores de CAISI acceso a un modelo frontier antes de que sea publicado. La ventana de evaluación es típicamente de 30 a 90 días, durante la cual el equipo gubernamental ejecuta sus propios benchmarks, examina las capacidades de doble uso y elabora un informe clasificado.
Google DeepMind firmó su acuerdo sobre la línea de modelos Gemini, que ahora cumple los criterios de umbral de cómputo frontier establecidos por CAISI. La decisión es relevante porque Google había resistido previamente unirse al programa voluntario, prefiriendo referenciar sus propios procesos internos de seguridad. El cambio refleja tanto la campaña de presión de la administración como el interés competitivo de Google en demostrar voluntad regulatoria mientras escala su negocio de IA empresarial.
Microsoft firmó un acuerdo separado centrado en los modelos frontier desarrollados dentro de su división de IA, distinto de los modelos de OpenAI desplegados a través de Azure, que ya estaban cubiertos por el acuerdo vigente de OpenAI. Esta distinción importa: el acuerdo de Microsoft cubre los modelos donde Microsoft tiene responsabilidad de desarrollo principal, no los modelos de OpenAI que licencia a sus clientes empresariales.
xAI se incorporó por primera vez, sometiendo su familia de modelos Grok a evaluación. Para una compañía que se ha posicionado públicamente como alternativa a lo que Elon Musk llama laboratorios de IA “capturados por la seguridad”, unirse a un programa de evaluación gubernamental es un paso notable. Fuentes cercanas a las negociaciones describen el acuerdo de xAI como más acotado en alcance que los de otros laboratorios, centrado en la divulgación de capacidades más que en el acceso previo al lanzamiento completo.
Por su parte, OpenAI y Anthropic renegociaron sus memorandos de 2024. Los acuerdos actualizados se alinean con el Plan de Acción de IA firmado por el presidente Trump y resuelven ambigüedades en los términos originales sobre qué variantes de modelo activaban la obligación de revisión. La renegociación de Anthropic se aceleró en parte por la preocupación gubernamental ante los descubrimientos autónomos de vulnerabilidades, incluyendo incidentes que recuerdan a la investigación de día cero documentada en el Proyecto Glasswing de Claude en abril de 2026.
Cómo funcionan realmente las pruebas gubernamentales de IA
El proceso de evaluación de CAISI no es una revisión de cumplimiento de casillas. Los evaluadores son típicamente especialistas del personal de investigación del NIST, personal de laboratorios nacionales y — bajo protocolos añadidos a finales de 2025 — personal seleccionado de la comunidad de inteligencia para evaluaciones con dimensiones clasificadas.
Una evaluación estándar sigue esta secuencia: la empresa de IA proporciona un checkpoint del modelo en un entorno de cómputo seguro controlado por CAISI. Los evaluadores ejecutan suites de benchmarks automatizados que cubren una batería estándar de pruebas de capacidad de doble uso: síntesis de sustancias peligrosas, descubrimiento de vulnerabilidades, construcción de operaciones de influencia y ejecución autónoma de tareas en múltiples pasos. La parte más sensible viene después: la evaluación con barreras desactivadas. Los filtros de salida del modelo y los mecanismos de rechazo se deshabilitan o se eluden por acuerdo, permitiendo a los evaluadores explorar la distribución de respuesta subyacente del modelo en temas restringidos. Esta fase está diseñada para identificar casos en que el ajuste fino ha suprimido — en lugar de eliminar — capacidades peligrosas, una distinción que la comunidad investigadora de seguridad en IA ha documentado ampliamente.
Los resultados se compilan en un resumen clasificado que se entrega a la Oficina de Política Científica y Tecnológica de la Casa Blanca y a las oficinas de seguridad nacional correspondientes. Si la evaluación identifica preocupaciones graves, CAISI inicia una fase de consulta con el desarrollador antes de autorizar el lanzamiento. Solo dos modelos en la historia del programa han sido retenidos a raíz de los resultados de la evaluación; ambos siguen sin publicarse.
La naturaleza voluntaria del programa es contexto fundamental. Los laboratorios no están legalmente obligados a participar. Los acuerdos son memorandos de entendimiento — técnicamente no vinculantes, aunque el coste político y reputacional de retirarse sería considerable para cualquier laboratorio que aspire a contratos gubernamentales o buena voluntad regulatoria. Funcionarios de la Casa Blanca han indicado que se está elaborando una orden ejecutiva que haría obligatoria la evaluación previa al lanzamiento para modelos que superen un umbral de cómputo de entrenamiento definido, aunque no se ha confirmado ningún calendario.
Una inversión de política, discretamente presentada
El contexto político importa para entender hacia dónde se dirige la gobernanza de la IA en EE. UU.
En octubre de 2023, la administración Biden emitió la Orden Ejecutiva 14110, que exigía a los desarrolladores de modelos de IA frontier — definidos por un umbral de cómputo de entrenamiento de 10²⁶ FLOP — notificar al gobierno federal y compartir los resultados de las pruebas de seguridad antes de la publicación. Fue el intento más directo que EE. UU. había hecho de insertar supervisión regulatoria en el ciclo de desarrollo de la IA.
La administración Trump revocó la EO 14110 en enero de 2025 como parte de una señal desreguladora más amplia. El argumento fue explícitamente antiregulatorio: las revisiones de seguridad obligatorias obstaculizarían el desarrollo de la IA estadounidense, cederían ventaja competitiva a China e impondrían cargas de cumplimiento a una industria mejor posicionada para autorregularse.
Lo que ha ocurrido desde entonces es una silenciosa rehabilitación de la misma idea estructural bajo un empaque ideológico diferente. La revisión previa al lanzamiento ha vuelto — pero ahora se presenta como medida de seguridad nacional, no de seguridad del consumidor ni de ética de la IA. La palabra “seguridad” rara vez aparece en las comunicaciones de CAISI; “evaluación”, “valoración de capacidades” y “riesgo para la seguridad nacional” aparecen con frecuencia. Este cambio de encuadre es deliberado y significativo: ancla la supervisión en la autoridad de seguridad nacional incuestionable del poder ejecutivo en lugar de en un estatuto regulatorio, lo que la hace más difícil de impugnar y más fácil de ampliar sin involucrar al Congreso.
El detonante para acelerar la expansión de CAISI se atribuye ampliamente a las preocupaciones sobre los descubrimientos autónomos de capacidades de IA. El episodio de abril de 2026 en que un modelo de IA identificó y documentó autónomamente una vulnerabilidad de día cero en infraestructura crítica — sin instrucción humana directa — demostró de forma concreta que la frontera de capacidad avanzaba más rápido que la conciencia pública. Los evaluadores gubernamentales quieren entender qué puede hacer la generación actual de modelos antes de que los usuarios lo descubran en producción.
Un factor adicional: la lógica competitiva. Participar en un programa de evaluación gubernamental señala legitimidad y abre el camino hacia contratos de adquisición federal, un mercado que las decisiones de contratación de IA del Pentágono en mayo de 2026 demostraron que vale miles de millones de dólares y es muy selectivo. Los laboratorios que han superado la evaluación de CAISI tienen un aval implícito que los que están fuera del programa no pueden igualar.
Cronología de la supervisión: del decreto de Biden a CAISI 2026
Supervisión de IA en EE. UU.: Hitos Clave
Qué significa esto para las empresas que despliegan IA
Para la mayoría de las organizaciones que utilizan APIs de IA comerciales hoy en día, nada cambia de inmediato. Los acuerdos de CAISI operan aguas arriba del mercado: afectan a qué modelos llegan al público, no a cómo se utilizan esos modelos una vez publicados.
Las implicaciones a medio plazo son más sustanciales. Si se aprueba una orden ejecutiva de revisión previa al lanzamiento obligatoria, los ciclos de publicación de los modelos frontier se prolongarán entre 30 y 90 días — exactamente la ventana de evaluación de CAISI. Para los equipos de producto que dependen de la IA, eso significa que los calendarios de 6 a 12 meses actualmente usados para planificar los saltos de capacidad de los modelos necesitarán incorporar un margen. El ritmo de “publicar, hacer benchmark, integrar” que caracterizó 2024 y 2025 pasa a ser “publicar, evaluar, publicar de nuevo, hacer benchmark, integrar”.
Hay también una implicación competitiva para la adquisición de IA empresarial. Los modelos que han superado la evaluación de CAISI tienen una credencial implícita del gobierno con relevancia real para las compras en sectores regulados: servicios financieros, sanidad, contratación de defensa. Los proveedores que puedan demostrar que su modelo subyacente superó una evaluación gubernamental lo utilizarán como elemento diferenciador en las licitaciones empresariales. Es razonable anticipar que aparezca en las respuestas a pliegos de licitación antes de que finalice el año.
El componente de evaluación con barreras desactivadas plantea un problema más sutil para los desarrolladores. Los evaluadores de CAISI generan un registro clasificado de lo que los modelos frontier pueden hacer sin capas de seguridad, y ese registro no está disponible públicamente. Los equipos de seguridad empresarial y los probadores de penetración de IA no tendrán acceso a esos hallazgos. El resultado es una asimetría: el gobierno conoce capacidades que las empresas que despliegan esos modelos no conocen. Si su organización construye sobre APIs frontier y depende de la documentación de seguridad publicada por el proveedor como principal referencia de capacidades, esto es una señal de que vale la pena invertir en una evaluación interna de capacidades independiente.
Para los equipos que integran agentes de IA en procesos de negocio — el tipo de flujos de trabajo autónomos de múltiples pasos que soportan plataformas como AgentsGT — la expansión de CAISI es un contexto neto positivo: significa que los modelos que llegan a su infraestructura han sido revisados para detectar las combinaciones de capacidades autónomas más peligrosas antes del despliegue. Eso no sustituye a los controles de seguridad a nivel de aplicación, pero sí reduce el riesgo de cola.
El panorama general es que la gobernanza de la IA en EE. UU. converge hacia un modelo donde el encuadre de seguridad nacional proporciona la cobertura política para una supervisión que el encuadre de seguridad no pudo sostener. Para entender cómo este cambio de política afecta la estrategia de adopción de IA en empresas de todos los tamaños, nuestro artículo sobre cómo la IA transforma las operaciones de las pymes analiza el lado organizativo de construir sobre infraestructura de modelos en rápida evolución.
¿Listo para construir sobre IA frontier de forma responsable?
Entender qué evalúa el gobierno en los modelos frontier es contexto útil — pero la implementación es donde se crea o se pierde el valor empresarial. Si su equipo está navegando qué modelos usar, cómo estructurar flujos de trabajo de agentes de IA, o cómo evaluar capacidades y riesgos para su contexto de despliegue específico, DDR Innova trabaja directamente con equipos empresariales en exactamente esas cuestiones.
Contáctenos en info@ddrinnova.com o reserve una conversación con nuestro equipo.
Foto vía Unsplash.
Fuentes
Preguntas Frecuentes
¿Qué es CAISI y qué tipo de modelos evalúa?
CAISI (Centro de Innovación y Estándares de IA) es una división del NIST, el Instituto Nacional de Estándares y Tecnología de EE. UU. Evalúa modelos de IA frontier para detectar riesgos de seguridad nacional, umbrales de capacidad y propiedades de seguridad. A mayo de 2026 ha completado más de 40 evaluaciones, incluidas algunas de modelos que nunca llegaron al mercado.
¿Son obligatorios los acuerdos de prueba de IA de CAISI?
Por ahora son memorandos de entendimiento voluntarios, no requisitos legales. Sin embargo, la Casa Blanca está elaborando una orden ejecutiva que haría obligatoria la evaluación previa al lanzamiento para modelos que superen un umbral definido de cómputo de entrenamiento, sin fecha confirmada.
¿Por qué la administración Trump apoya la supervisión de la IA si revocó el decreto de Biden?
El giro se basa en un cambio de encuadre: la supervisión ahora se justifica como medida de seguridad nacional, no de seguridad del consumidor ni ética de la IA. Ese argumento encaja cómodamente con la autoridad ejecutiva existente y resulta políticamente viable para una administración que se opuso al enfoque regulatorio de Biden.
¿Qué laboratorios participan actualmente en el programa de evaluación previa al lanzamiento de CAISI?
A partir del 5 de mayo de 2026, los cinco grandes laboratorios de IA frontier de EE. UU. están en el programa: OpenAI, Anthropic, Google DeepMind, Microsoft y xAI. OpenAI y Anthropic se incorporaron en 2024 y renegociaron sus acuerdos en mayo de 2026. Google DeepMind, Microsoft y xAI firmaron nuevos acuerdos el 5 de mayo de 2026.