Infinite Briefing #1, inferencia, ciberseguridad y diagnóstico médico

TL;DR

El silicio propio de Amazon (Trainium) gana protagonismo a medida que la industria pivota de entrenamiento a inferencia.
Un estudio de Harvard muestra que un LLM diagnosticó correctamente más casos de urgencias que médicos de triaje.
El Pentágono firma acuerdos con Nvidia, Microsoft y AWS para desplegar IA en redes clasificadas.

🤖 Modelos & Capacidades

GPT-5.5 bajo la lupa de seguridad ofensiva. Simon Willison recoge la evaluación de capacidades cibernéticas de GPT-5.5 realizada por OpenAI. El ejercicio sigue el patrón ya habitual: el lab publica su propio análisis de riesgo antes del lanzamiento. Lo relevante para equipos técnicos no es el resultado concreto, sino el precedente metodológico: evaluar un modelo en escenarios ofensivos antes de ponerlo en producción es una práctica que cualquier empresa que integre LLMs con acceso a sistemas internos debería replicar a su escala. Si tu agente puede leer logs, ejecutar código o consultar APIs internas, conviene saber qué puede hacer antes que un atacante lo descubra.

🛠️ Herramientas para Equipos

Silico: depuración de LLMs desde dentro del entrenamiento. La startup Goodfire acaba de publicar una herramienta llamada Silico que permite inspeccionar y ajustar los parámetros internos de un modelo durante el propio proceso de entrenamiento. Hasta ahora, la interpretabilidad mecanicista era territorio de investigación académica; Silico intenta llevarlo a equipos de ingeniería que construyen modelos propios o hacen fine-tuning. Para empresas que entrenan modelos verticales, esto abre la posibilidad de intervenir en el comportamiento del modelo con más precisión que con prompts o RLHF clásico. Todavía es una herramienta temprana, pero la dirección es la correcta: más control, menos caja negra.

Codex CLI añade el comando /goal. Simon Willison documenta la versión 0.128.0 de Codex CLI, que incorpora /goal para definir objetivos de alto nivel que el agente persigue de forma autónoma en varias iteraciones. Es un paso pequeño pero significativo: el modelo deja de actuar solo sobre instrucciones puntuales y empieza a trabajar orientado a un resultado. Para equipos que automatizan flujos de desarrollo, conviene probar este patrón antes de asumir que necesitáis un framework de agentes más complejo.

📊 Adopción & Casos Reales

IA frente a médicos de triaje: un estudio de Harvard con cifras concretas. Un estudio recogido tanto por TechCrunch como por The Guardian muestra que al menos un modelo de lenguaje grande alcanzó mayor precisión diagnóstica que médicos de urgencias en casos reales. Según los datos publicados, el modelo clasificó correctamente el 67% de los pacientes, frente al rango del 50-55% de los médicos de triaje evaluados. Es un resultado que merece cautela metodológica: las condiciones de laboratorio no reproducen la presión y el contexto de una urgencia real. Aun así, para sectores distintos de la medicina (atención al cliente, soporte técnico, clasificación de incidencias) el dato es relevante: un LLM bien ajustado puede superar la precisión media de un humano en tareas de clasificación bajo presión de volumen.

Agentes de código "saliendo del contenedor". Latent Space analiza cómo los agentes de codificación están empezando a aplicarse a trabajo de conocimiento general, más allá de la generación de código. OpenAI Codex apunta a tareas cognitivas estructuradas; Claude aparece asociado a trabajo creativo. El patrón emergente es que los agentes especializados por dominio rinden mejor que los generalistas. Para equipos que evalúan agentes, la conclusión práctica es clara: definir bien el dominio de aplicación antes de elegir modelo o plataforma.

Soberanía de datos como condición de escala. El panel Operationalizing AI for Scale and Sovereignty de EmTech AI (MIT Technology Review) aborda el dilema al que se enfrentan empresas medianas: necesitan datos de alta calidad para obtener resultados fiables, pero ceder el control de esos datos a proveedores externos crea dependencias de gobernanza que en Europa tienen consecuencias regulatorias directas. La tendencia que describen es la de empresas que construyen "fábricas de datos" internas antes de escalar sus iniciativas de IA. No es la solución más rápida, pero sí la más sostenible para entornos regulados.

💼 Mercado & Estrategia

Amazon y el pivote de entrenamiento a inferencia. Stratechery analiza los resultados de Amazon y extrae una tesis clara: el sector está desplazando inversión desde el entrenamiento de modelos grandes hacia la inferencia y los agentes. En ese contexto, la apuesta de Amazon por su propio chip (Trainium) cobra sentido estratégico. Si la inferencia es el nuevo campo de batalla, tener silicio propio optimizado para ese workload reduce costes estructuralmente. Para empresas que consumen IA vía API, el mensaje indirecto es que los precios de inferencia seguirán bajando a medida que más proveedores entren con hardware propio.

El Pentágono diversifica su cartera de proveedores de IA. Según TechCrunch, el Departamento de Defensa de Estados Unidos ha firmado acuerdos con Nvidia, Microsoft y AWS para desplegar IA en redes clasificadas. El contexto importa: los acuerdos llegan tras una disputa con Anthropic por las condiciones de uso de sus modelos. El DOD ha optado por distribuir riesgo entre varios proveedores en lugar de depender de uno solo. Es una decisión que cualquier organización con requisitos de soberanía de datos debería considerar: concentrar toda la carga en un solo proveedor de IA crea una dependencia que puede volverse problemática cuando los términos de servicio cambian.

Meta entra en robótica humanoide con una adquisición. TechCrunch informa de que Meta ha adquirido Assured Robot Intelligence, una startup de robótica, para reforzar sus modelos de IA aplicados a robots humanoides. Es una señal de que las grandes plataformas de IA están moviéndose hacia la capa física. Para el mercado europeo, el impacto a corto plazo es limitado, pero la convergencia de LLMs con robótica es una tendencia que empieza a tener calendario real.

🇪🇺 Regulación & Política

La ciberseguridad en la era de la IA necesita rediseño, no capas adicionales. El panel Cyber-Insecurity in the AI Era de EmTech AI (MIT Technology Review) plantea que los enfoques heredados de seguridad no están diseñados para un contexto donde la IA amplía la superficie de ataque y añade nuevas variables. No se trata de añadir controles encima de arquitecturas existentes, sino de repensar la seguridad desde el principio con IA como componente central. Para empresas europeas sujetas a NIS2, esto tiene implicaciones directas: la directiva exige medidas proporcionales al riesgo, y ese riesgo ha cambiado de forma sustancial con la incorporación de agentes y LLMs a los stacks de producción.

OpenAI activa cookies de marketing por defecto para usuarios gratuitos. Wired informa de que la nueva política de privacidad de ChatGPT activa cookies de seguimiento por defecto para convertir usuarios gratuitos en suscriptores. En el contexto del RGPD, el consentimiento por defecto para cookies no esenciales es una práctica que ha generado sanciones millonarias a otras plataformas. Para equipos de compliance que tienen ChatGPT desplegado en su organización, conviene revisar qué versión (free vs. enterprise) están usando y bajo qué términos.

🎯 Para llevar

Evalúa el riesgo de tus agentes con acceso a sistemas internos: si un LLM puede leer logs, ejecutar código o consultar APIs propias, diseña un ejercicio de evaluación ofensiva básica antes de escalar. Referencia metodológica
Prueba /goal en Codex CLI si tu equipo ya usa agentes de codificación: define un objetivo de alto nivel y observa cuántas iteraciones necesita para resolverlo sin intervención. Es una señal práctica de madurez de los agentes actuales. Documentación
Revisa los términos de uso de ChatGPT en tu organización a la luz de los cambios en cookies y privacidad: si tienes usuarios en cuentas gratuitas, asegúrate de que el uso cumple con vuestras políticas internas de RGPD. Contexto

Infinite Briefing #1, inferencia, ciberseguridad y diagnóstico médico

TL;DR

🤖 Modelos & Capacidades

🛠️ Herramientas para Equipos

📊 Adopción & Casos Reales

💼 Mercado & Estrategia

🇪🇺 Regulación & Política

🎯 Para llevar

Comments

More from this blog

Infinite Briefing #1, inferencia manda, salud y seguridad

Cómo una PYME industrial ahorra 14.280€ por trimestre sin tocar su ERP

Command Palette

TL;DR

🤖 Modelos & Capacidades

🛠️ Herramientas para Equipos

📊 Adopción & Casos Reales

💼 Mercado & Estrategia

🇪🇺 Regulación & Política

🎯 Para llevar

Comments

More from this blog