M-02 · Entrada 03 de 25

W3 · IA agéntica & MCP

Qué es esto

Barrido de research W3 (dominio IA agéntica / MCP): benchmarks de autonomía 2024-2026, con 21 fuentes verificadas y etiquetadas.

Fase del Bridge

Bridge B (ejecutor) · SKU I-config del módulo M-02.

Journal · M-02 W3 (Bridge B · I-config)

W3 (M-02) · IA agéntica & MCP — benchmarks de autonomía 2024-2026 y fusión aprender↔ejecutar

Qué buscábamos

W3 cubre el dominio D2 (IA agentes/MCP). La consigna no era “listar benchmarks de moda”, sino alimentar una sola columna vertebral: categoría → colapso del lead-time → HII → bifurcación AI/Human Workforce → mapa de reemplazabilidad. Cada fuente entra solo si toca un eslabón de esa cadena; lo que no la toca es ruido y no entra. 21 fuentes verificadas, todas con URL resoluble (regla dura 1), con etiqueta MEDIDO / ILUSTRATIVO / N-A explícita.

Hallazgos clave (el thinking, no el resumen)

1. El colapso del lead-time tiene ahora una curva, no una anécdota. El eje narrativo del paper deja de ser cualitativo. La serie SWE-bench es la prueba telemétrica más limpia que hemos encontrado de que el tiempo entre “el agente aprende una tarea” y “el agente la ejecuta sin humano” se está comprimiendo: ~2% (Claude 2, 2023, D2-001) → 49,0% (Claude 3.5 Sonnet nuevo, finales 2024, D2-003) → 63,7%–70,3% (Claude 3.7, feb-2025, D2-004). Tres puntos, una pendiente, sobre el mismo protocolo público (Verified, D2-002). Esto es lo que convierte “la IA mejora” en una curva con fecha. Refuerza el eslabón colapso del lead-time con dato MEDIDO.

  • Matiz de honestidad intelectual incorporado en notas: D2-003 corrige el claim de la candidata (no era 33,4% a Opus; eran 22% Opus / 33% Sonnet antiguo). D2-002 se reetiquetó N-A: describe la construcción del dataset, no aporta cifra de capacidad. Mantener la disciplina de etiqueta es lo que separa un paper investor-grade de un pitch.

2. METR le pone reloj a la bifurcación (D2-005). El “horizonte temporal al 50%” (duración de tarea humana que la IA completa con 50% de éxito) se duplica cada ~7 meses desde 2019: ~50 min hoy → tareas de un mes en ~5 años. Este es el motor cuantitativo de la bifurcación de la curva capacidad-vs-trabajo-humano. Es la fuente que mejor convierte el relato en proyección defendible. Nota de rigor: el título exacto acota a “Long Software Tasks” — no genéricas; lo dejamos explícito para no sobre-generalizar.

3. El “mapa de reemplazabilidad” es empírico y específico de entorno — no una opinión. Cuatro benchmarks de ejecución real dan la brecha agente-vs-humano con números reproducibles: OSWorld 12,24% vs 72,36% (ordenador, D2-006), WebArena 14,41% vs 78,24% (web, D2-007), GAIA 15% vs 92% (asistente end-to-end, D2-010), AndroidWorld 30,6% (móvil, D2-009). VisualWebArena (D2-008) añade que la percepción visual sigue bloqueando. La lección estratégica para el paper: la reemplazabilidad NO es uniforme — es una frontera con relieve, dependiente del canal (escritorio vs móvil) y de la modalidad (texto vs GUI vs visión). Esto alimenta directamente M-03 (HII/reemplazabilidad), pero aquí solo se mide la frontera, no se interpreta (eso es W4, fuera de scope).

4. La fiabilidad —no la demo— es la bisagra de toda la tesis. τ-bench (D2-011) introduce pass^k: gpt-4o <50% de tareas, pass^8 <25% en retail. τ²-bench (D2-012) muestra que en control dual (humano+agente sobre estado compartido) el rendimiento cae respecto al escenario sin usuario. BFCL (D2-013) confirma: el tool-use single-turn está resuelto, el horizonte largo multi-turno NO. Este cluster es el que define la categoría (“ejecución agéntica fiable en flujos con herramientas”) y, a la vez, matiza el ritmo del colapso: el colapso solo se materializa donde la coordinación es fiable.

5. Contraevidencia deliberada (anti-hype, refuerza credibilidad). Dos fuentes refutan/frenan la bifurcación y por eso valen oro: StableToolBench (D2-014) documenta la fragilidad y no-reproducibilidad de la ejecución con APIs reales; “Defeating Nondeterminism” (D2-015, ILUSTRATIVO) da la raíz técnica de la variabilidad (batch-size dependency en los kernels, no el FP/GPU que todo el mundo asume). Donde esto no se resuelve, la ejecución sigue siendo demo no fiable y el humano se queda en el bucle. El paper gana autoridad precisamente por incluir las flechas que apuntan en contra.

6. La capa de herramientas enchufables dejó de ser hipótesis y es sustrato medible. MCP recorre en ~13 meses el arco completo: anuncio Anthropic (nov-2024, D2-016) → verificación independiente InfoQ (dic-2024, D2-017) → adopción cross-vendor OpenAI + Google (D2-018, D2-019, D2-020) → donación a la Agentic AI Foundation con >10.000 servidores MCP públicos y 97M+ descargas mensuales de SDK (dic-2025, D2-021, MEDIDO). El dato de D2-021 es el único telemétrico de escala del cluster: MIDE el colapso del lead-time de integración (MxN → 1xN). Estratégicamente esto es el eslabón anterior a la bifurcación: es lo que hace que el trabajo sea delegable a un agente en primer lugar. Que los tres hiperescaladores lo soporten de fábrica convierte la conexión agente↔herramienta en infraestructura común, no en ventaja propietaria.

Qué eslabón refuerza/refuta cada bloque

  • Categoría: τ-bench, BFCL (definen “ejecución fiable con herramientas”).
  • Colapso del lead-time: serie SWE-bench (001→002→003→004), τ²-bench (matiza), D2-021 (mide el colapso de integración).
  • Bifurcación AI/Human: METR (motor cuantitativo); StableToolBench + Defeating Nondeterminism (contraevidencia, mantienen al humano en el bucle).
  • Mapa de reemplazabilidad: OSWorld, WebArena, VisualWebArena, AndroidWorld, GAIA (la frontera empírica con relieve).
  • Herramientas enchufables (pre-bifurcación): cluster MCP 016-021.

Lo específico del foco W3

  • Pre-2024 con licencia explícita: SWE-bench (001), WebArena (007), GAIA (010) entran como BASE FUNDACIONAL justificada (§3 corpus-protocol): son las líneas base contra las que se mide el colapso/HII, no evidencia de la trayectoria actual. Se etiquetó en notas para que el lector no las confunda con dato vigente.
  • Disciplina de etiqueta MEDIDO vs N-A vs ILUSTRATIVO: 11 MEDIDO (benchmarks con protocolo y números reproducibles + D2-021 telemetría), 6 N-A (anuncios/specs sin cifra de capacidad), 1 ILUSTRATIVO (POV explicativo). Ningún vendor blog se trató como evidencia de capacidad.
  • NotebookLM: subidas SOLO las 11 fuentes primarias técnicas (10 papers arXiv + 1 poster ICML en OpenReview). Excluidos deliberadamente los 10 posts de marketing/POV de vendors (Anthropic news, OpenAI index, Google Cloud blog, InfoQ, Wikipedia, thinkingmachines.ai) — no son PDFs primarios con metodología.
  • Vocabulario: 4 términos nuevos acuñados (colapso del lead-time en su variante de ejecución agéntica — distinto del formativo ya existente; capa de herramientas enchufables; fiabilidad pass^k; horizonte temporal al 50%). Se omitió “mapa de reemplazabilidad” por solaparse con “Mapa empírico de reemplazabilidad” ya presente (evitar duplicado).

Límite W3 respetado

No se entra en interpretación HII ni en construcción del mapa de reemplazabilidad como tesis (eso es M-03/W4). Aquí solo se deja medida la frontera y datada la curva. Cero invención: todas las cifras con fuente resoluble; las correcciones a las candidatas (D2-002, D2-003, D2-005) quedan trazadas en las notas del Sheet.

W3 · A-retro

Semáforo: GREEN — Verdict V-review APPROVE (advisor_verdict_id 0dc2662e-b902-4905-9070-a8f8f99a0135, 2026-06-17T19:05:06Z).

Wins

  • Gate superado con holgura: 18 filas D2 (IA agentes/MCP) en 2024-2026 con url real + etiqueta de evidencia, frente a gate=12.
  • Muestra adversarial 3/3 OK: las tres URLs (METR arxiv, BFCL openreview, Anthropic AAF) resuelven y las cifras se confirman literalmente vía WebFetch; etiquetas MEDIDO correctas en los tres casos.
  • Columna vertebral intacta: la cadena categoría→colapso lead-time (SWE-bench 2%→64%, horizonte METR ~50min)→bifurcación AI/Human (gaps OSWorld/WebArena/GAIA/AndroidWorld)→mapa de reemplazabilidad está bien armada y cada fila tira de un eslabón explícito.
  • Disciplina de etiquetas ejemplar: N-A para anuncios/datasets sin telemetría (D2-002, D2-016 a D2-020), ILUSTRATIVO para claims explicativos (D2-015 nondeterminism). Sin inflado de “MEDIDO”.
  • Frontera M-03 respetada: la evidencia de reemplazabilidad/HII se cita como insumo pero NO se deriva el índice aquí (D2-010, D2-011 anotados como input W4/M-03). Cero W4 leak.
  • Honestidad de método visible: 403/anti-bot, espejos y timeouts documentados en notas; pre-2024 (D2-001/007/010) declarados BASE FUNDACIONAL justificada en vez de colarlos como trayectoria actual.

Debts

  • 11 filas D2 con subido_a_notebooklm = pendiente (incluye toda la familia MCP D2-016 a D2-021) — falta cerrar la ingesta NotebookLM del cluster MCP. nb_uploaded=11 global; reconciliar conteo por dominio.
  • D2-008 (VisualWebArena): la cifra 16,4%/910 no aparece en el abstract de arXiv al fetch; tratada como dato del cuerpo del paper. Re-confirmar al subir a NotebookLM (deuda menor de verificación).
  • Polo de mercado: dependencia parcial de espejos/búsqueda para fuentes con anti-bot (heredado de D1/D5, no D2); la URL de D1D5-003 sigue siendo espejo brianheger.com — sustituir por PDF IBM IBV primario cuando se localice.
  • Muestra adversarial = 3 filas (mandato): cobertura estadística limitada; las 15 filas D2 no muestreadas se aprueban por inspección de columnas, no por fetch.