Infinite Briefing #1, inferencia manda, salud y seguridad

TL;DR

La apuesta de Amazon por sus chips propios Trainium cobra sentido al desplazarse el gasto de entrenamiento a inferencia y agentes.
Un estudio de Harvard sitúa a modelos de IA por encima de médicos de urgencias en precisión diagnóstica.
La ciberseguridad exige rediseño desde la base: la IA amplía la superficie de ataque más rápido de lo que los equipos pueden parchear.

🤖 Modelos & Capacidades

GPT-5.5 tiene capacidades cibernéticas medibles, y eso importa. Simon Willison recoge la evaluación publicada por OpenAI sobre las capacidades ofensivas en ciberseguridad de GPT-5.5. El ejercicio sigue el patrón de los informes de seguridad previos a un lanzamiento: medir qué puede hacer el modelo en escenarios de ataque controlados antes de exponerlo a producción. Para equipos que integran modelos en flujos con datos sensibles, este tipo de evaluación es la señal más relevante que puede acompañar a un lanzamiento. Si el proveedor lo publica, léelo antes que el press release.

Agentes de código "rompen el contenedor". Latent Space analiza cómo los agentes de codificación, diseñados inicialmente para trabajo de desarrollo, empiezan a colonizar tareas de conocimiento general y trabajo creativo. La distinción entre "agente de código" y "asistente de conocimiento" se difumina. Para un equipo que evalúa dónde desplegar su primer agente, esto tiene consecuencias prácticas: las capacidades son más amplias de lo que el caso de uso original sugería, pero también más difíciles de auditar cuando salen del ámbito técnico.

🛠️ Herramientas para Equipos

Silico, la herramienta de depuración de LLMs que permite intervenir durante el entrenamiento. La startup Goodfire ha lanzado Silico, un sistema de interpretabilidad mecanicista que permite inspeccionar y ajustar los parámetros de un modelo mientras se entrena, no solo después. La promesa es concreta: más control sobre el comportamiento del modelo antes de que llegue a producción. Para equipos que hacen fine-tuning sobre modelos base, tener visibilidad sobre qué aprende el modelo en cada fase reduce el coste de corrección tardía. El campo de la interpretabilidad deja de ser investigación pura y empieza a tener herramientas concretas.

Codex CLI 0.128.0 añade el comando /goal. Simon Willison documenta la actualización de Codex CLI que incorpora /goal, una forma de declarar el objetivo de una sesión de trabajo antes de empezar a interactuar. El cambio parece menor, pero en la práctica mejora la coherencia del agente en sesiones largas. Si tu equipo ya usa Codex CLI en flujos de desarrollo, vale actualizar y probar el comando en tareas con múltiples pasos.

📊 Adopción & Casos Reales

La IA supera a los médicos de urgencias en diagnóstico, según Harvard. Un estudio recogido por TechCrunch evaluó modelos de lenguaje en casos reales de urgencias. Según los datos que circulan del estudio, al menos un modelo alcanzó mayor precisión diagnóstica que los médicos de triaje. The Guardian sitúa el rendimiento de OpenAI's o1 en un 67% de diagnósticos correctos frente al 50-55% de los médicos. Los matices importan: triaje no es diagnóstico completo, y el contexto clínico real introduce variables que un benchmark no captura del todo. Pero la dirección es clara. Las aplicaciones de IA en salud dejan de ser proyectos piloto para convertirse en infraestructura crítica con implicaciones de responsabilidad directa.

Google DeepMind publica su investigación sobre el co-clínico con IA. El blog de DeepMind detalla su enfoque para construir un sistema de IA que trabaje junto al médico, no en lugar de él. El modelo de "co-clínico" es relevante más allá de la salud: establece un patrón de colaboración humano-máquina donde la IA aporta velocidad y consistencia, y el profesional aporta juicio contextual y responsabilidad. Ese esquema es directamente aplicable a otros sectores regulados donde la automatización total no es viable a corto plazo.

💼 Mercado & Estrategia

El desplazamiento hacia inferencia valida la apuesta de Amazon por Trainium. Stratechery analiza los resultados de Amazon y llega a una conclusión estructural: el gasto en IA se está moviendo del entrenamiento hacia la inferencia y los agentes. Eso convierte los chips Trainium de AWS en una apuesta táctica acertada: el entrenamiento fue territorio de Nvidia, pero la inferencia a escala, con márgenes ajustados, es donde los chips propios de los grandes proveedores cloud pueden competir. Para empresas que usan AWS, esto tiene implicaciones de coste en el medio plazo: el acceso a inferencia optimizada vía hardware propio puede abaratar el coste por llamada.

El Pentágono firma contratos con Nvidia, Microsoft y AWS para IA en redes clasificadas. El Departamento de Defensa de Estados Unidos ha diversificado su exposición a proveedores de IA tras su disputa con Anthropic. El movimiento dice algo sobre la madurez del mercado: cuando el cliente más exigente del mundo en términos de seguridad y soberanía de datos empieza a desplegar IA en infraestructura clasificada con varios proveedores, el debate sobre si la IA está "lista para entornos críticos" cambia de registro. Para empresas europeas que evalúan proveedores cloud para cargas de trabajo sensibles, la pregunta ya no es "si" sino "con qué condiciones contractuales".

21 startups europeas de IA que el ecosistema sigue de cerca. TechCrunch publica una selección de startups europeas más allá de los nombres conocidos como Lovable y Mistral. El ecosistema europeo tiene más profundidad de la que sugiere su cobertura mediática. Para directores y gestores que evalúan proveedores o buscan señal sobre dónde se mueve la inversión en IA en Europa, la lista es un punto de partida razonable.

🇪🇺 Regulación & Política

La ciberseguridad necesita rediseño, no parches. MIT Technology Review recoge el debate de su conferencia EmTech AI sobre por qué los enfoques heredados de seguridad no escalan en un entorno donde la IA amplía la superficie de ataque. El argumento central: la seguridad no puede ser una capa que se añade al final del desarrollo, debe estar integrada desde el diseño. Para equipos que despliegan agentes o conectan LLMs a sistemas internos, esta tensión es inmediata. Un agente con acceso a APIs internas es una superficie de ataque nueva que los modelos de amenaza tradicionales no contemplan.

Soberanía de datos y escala: el reto de las "AI factories". MIT Technology Review examina cómo las empresas que toman el control de sus propios datos para entrenar o personalizar modelos se enfrentan a una tensión concreta: más control implica más responsabilidad sobre la calidad del dato y más coste de gobernanza. El concepto de "AI factory", infraestructura propia de datos e inferencia, está dejando de ser exclusivo de grandes corporativos. Para una empresa española de tamaño medio que evalúa si construir su propia capa de datos o depender de un proveedor externo, este análisis es relevante.

🎯 Para llevar

Lee la evaluación de capacidades cibernéticas de GPT-5.5 antes de ampliar permisos de tus agentes: entender qué puede hacer un modelo en escenarios ofensivos es el primer paso para diseñar guardrails razonables. Ver evaluación vía Simon Willison
Revisa tu modelo de amenaza si tienes agentes conectados a APIs internas: la superficie de ataque que introduce un LLM con acceso a sistemas no está cubierta por los controles de seguridad tradicionales. Contexto en MIT Tech Review
Mapea qué parte de tu gasto en IA va a entrenamiento y qué parte a inferencia: si el mercado se mueve hacia inferencia y agentes, los contratos y proveedores que optimizan para eso serán más relevantes en los próximos trimestres. Análisis de Stratechery

Infinite Briefing #1, inferencia manda, salud y seguridad

TL;DR

🤖 Modelos & Capacidades

🛠️ Herramientas para Equipos

📊 Adopción & Casos Reales

💼 Mercado & Estrategia

🇪🇺 Regulación & Política

🎯 Para llevar

Comments

More from this blog

Infinite Briefing #1, inferencia, ciberseguridad y diagnóstico médico

Cómo una PYME industrial ahorra 14.280€ por trimestre sin tocar su ERP

Command Palette

TL;DR

🤖 Modelos & Capacidades

🛠️ Herramientas para Equipos

📊 Adopción & Casos Reales

💼 Mercado & Estrategia

🇪🇺 Regulación & Política

🎯 Para llevar

Comments

More from this blog