Journal · M-04 W5 — síntesis de escenarios 2027-2030 (SKU D-spec)

Libro en tiempo real del thinking. Rationale, decisiones, cambios de opinión. El output formal vive en research/w5-escenarios-2027-2030.md; aquí va el por qué de cada decisión.

0. Encuadre del encargo

Soy el SKU D-spec/síntesis del COMBO W5 (M-04). No hago research nuevo (eso fue M-02/W4 y el panel M-04). Sintetizo: cojo los ejes que vinieron en la herencia R-context, los anclo a la evidencia ya medida del corpus, y escribo 3-4 escenarios arborescentes 2027-2030. Manda thesis-canon-v2.md + panel-synthesis-m04.md (leídos enteros) + corpus W4 (w4-hii-reemplazabilidad.md, filas D3).

Registrado en Dev OS: register_prompt(sku=D-spec) → artifact 1b4348c6-…, combo_state a3e08d20-…, sin COMBO_SEQUENCE_VIOLATION. La cadena estaba abierta y D-spec encajó.

freeze.lock: NO presente → procedo, commits permitidos (aunque no se me pide commit explícito).

1. La restricción que estructura TODO: no hay inferencia rol→desplazamiento

Antes de escribir una línea, el guardarraíl número uno. El panel puso Ethical/comms risk = 3 (el más bajo) precisamente por el salto agregado→individual y exposición→desplazamiento. Y el W4 ya tenía el material para matarlo en el texto:

EIG (D3-015): el quintil MÁS expuesto a IA subió el paro solo +0,30 p.p. vs +0,94 p.p. el MENOS expuesto. Patrón OPUESTO al esperado. Esto NO es un detalle: es la cota dura que prohíbe el salto exposición→paro. Va EN EL TEXTO de cada escenario, no en una nota al pie.
NBER kappa 0,36 (D3-016): la regla está hecha de lo mismo que mide. 3,6x divergencia entre modelos, 57% acuerdo. Esto fuerza que la medida primaria sea INTERNA (residuo de verificación en loop sobre el gold-standard del CLIENTE), nunca LLM-scoring de exposición O*NET (que tendría el mismo kappa circular).

Decisión: cada escenario abre o cierra citando EIG + NBER como límites. No como adorno: como la razón por la que el escenario habla de residuo de verificación agregado de proceso y nunca de “qué rol cae”. Verbos observacionales (“aún requiere verificación”), nunca normativos (“los humanos deben verificar”). El panel ordenó MATAR “where humans still need to judge/verify”.

role_displacement_inference del schema = false. No hay ni una. Lo verifiqué al cerrar: ningún escenario dice “el rol X se reemplaza” ni “se desplaza”. Hablan de % de outputs de un proceso que aún requieren firma/override/accountability.

2. Los cuatro ejes (de la herencia R-context) y cómo los cruzo

Eje 1 (vertical, técnico): Plateau agéntico (Toby Ord, D3-009, half-life → decaimiento exponencial en tareas largas) vs Aceleración sostenida (METR TH1.1, doubling ~131d post-2023, “20% más rápido”). Descontar SIEMPRE el benchmark-to-workplace gap: METR mismo declara “datasets designed to capture skills required for research or software engineering” → validez externa limitada a software.
Eje 2 (horizontal, social): Laissez-faire vs Supervisión humana obligatoria (works councils / EU AI Act / sindical; EDPS in/on-the-loop D3-013; EPAs ordinal D3-012).
Eje 3 (derivada 2ª-3ª, transversal INVIOLABLE): validez del instrumento externo COLAPSA vs SE CONSOLIDA. NBER 0,36 + EIG + ILO. Esto NO es un cuadrante: es restricción que atraviesa los cuatro escenarios y obliga a medida interna en continuo.
Eje 4 (derivada 4ª, serendipia · cierre): verificación como COMMODITY de plataforma (labs/incumbentes federan SSO+agentes+HRIS — señal Nadella) vs ACTIVO PROPIETARIO del cliente (gold-standard auditado, grafo exportable/propiedad). Determina si el residuo es defendible o lo absorbe el ecosistema.

Cruce elegido (el sugerido en la herencia, que es el correcto): Eje 1 × Eje 2 = 4 cuadrantes → 4 escenarios. Eje 3 = restricción transversal en los 4. Eje 4 = derivada de cierre que cada escenario resuelve al final.

A = Plateau + Laissez-faire
B = Aceleración + Laissez-faire
C = Aceleración + Supervisión obligatoria
D = Plateau + Supervisión obligatoria

Decisión: 4 escenarios, no 3. El encargo pide “3-4” y cubrir explícitamente A (plateau) y D (institucional). Con 4 cubro el cuadrante completo y los dos adversos quedan tratados a fondo, no de pasada. scenarios_count = 4.

3. Cambio de opinión durante la escritura

Primer instinto: hacer B (el optimista) el escenario “largo” y los otros breves. Lo descarté. El gate del panel y del W4 es justo lo contrario: la tesis ingenua muere en A y en D; el Plan B (residuo en loop) sobrevive en los 4 y MEJORA en D (tailwind regulatorio). Así que A y D reciben el mismo peso analítico que B y C. El escenario que más “vende” Momentum no es B, es D — y eso es contraintuitivo y honesto a la vez.

Segundo ajuste: la señal Satya. Tentación de meterla solo en B/C (donde el ecosistema acelera). Decisión: la señal Nadella (“a frontier without an ecosystem is not stable” + “this transition is different”) es Eje 4, y el Eje 4 se resuelve en LOS CUATRO escenarios. En B/C empuja hacia commodity de plataforma (riesgo de absorción del moat); en A/D el argumento “this transition is different” se lee distinto: si la curva técnica se estanca o la regula, el ecosistema no puede federar lo que no es estable, y el activo propietario del cliente (gold-standard auditado) gana defensibilidad. La señal cabe en los 4, con lectura distinta. Eso es pensamiento de 4ª derivada, no decoración.

4. Honestidad temporal y etiquetado (regla Telar + w4-hii)

Telar avisó: NO derivar ROI plausible, NO inventar cifras. Solo cifras del corpus (con fila D3) o etiqueta [HIPÓTESIS DESCRIPTIVA]. Aplicado:

Toda cifra MEDIDA que uso lleva su fila D3 y su limitación declarada (METR → “software only”).
Toda proyección 2027-2030 = [HIPÓTESIS DESCRIPTIVA], jamás causal. No hay ni un “porque X entonces Y” determinista. Son fotos descriptivas de mundos posibles.
Cero ROI inventado. Donde el lector esperaría un número de negocio, pongo el mecanismo (residuo agregado de proceso) y lo etiqueto hipótesis.
El Verified Capability Graph se trata como visión de 2º orden 2027+ (nodos con barras de error), nunca como claim de V1. V1 = Verified Execution.

5. El Execution-to-Capability Loop en cada escenario

El loop es el instrumento, no el mapa. En cada escenario describo cómo evoluciona su residuo agregado bajo ese mundo, con horizontes METR descontados. Mecánica fija (de la herencia + thesis-canon-v2):

Misión sobre herramienta real → Verified Output (criterio público del gold-standard del CLIENTE → rompe el LLM-judge circular del 0,36).
V1 = Verified Execution, NO capability.
Transfer Probe (re-ejecución sin andamiaje + demora) → Weighted Verified Outputs.
El loop mide el RESIDUO DE VERIFICACIÓN agregado = % de outputs que a nivel proceso aún requieren firma/override/accountability humana. NO mide “qué rol desaparece”.
Honestidad temporal: residuo + grafo = 2º orden 2027+.
El loop es el instrumento porque HII por rol NO es medible hoy (kappa 0,36 + EIG + ILO); el mapa es hipótesis falsable que el loop confirma o rompe con su propia telemetría. “El moat se construye, no se reclama.”

6. Qué NO hice (límites)

NO redacté el paper (eso es W7).
NO toqué nivel individual.
NO abrí Chrome ni otro 9255 (no hacía falta; todo era síntesis sobre corpus en disco).
NO inventé cifras ni ROI.
NO inferí rol→desplazamiento (verificado: 0 instancias).

7. Cierre

Output: research/w5-escenarios-2027-2030.md (4 escenarios, es-ES, voz McKinsey enterprise-first). Guardarraíles EIG + NBER explícitos en el texto de cada escenario. Señal Satya incorporada en los 4 (Eje 4). role_displacement_inference = false. Avanzo el work item con una note.

W5 · A-retro + verdict

Semáforo: 🟡 AMARILLO — el COMBO se ejecutó con disciplina y la arquitectura del documento es sólida, pero el gate V-review detectó un defecto de grounding real que impide cerrar la wave como está. No es cosmético: toca la regla dura “cero invención de cifras / solo entran cifras con fila D3 del corpus”.

Verdict V-review: REJECT (id ref. en Dev OS · advisor_verdict M-04 W5)

Causa raíz. Los rangos de minutos por modelo citados como D3-008 — Claude 3.7 Sonnet 56-59 min, o3 78-94 min, Sonnet 4.5 122-164 min, Opus 4.5 270-289 min (líneas 41 y 58 del doc) — no figuran en las filas D3 del corpus. Provienen de una consulta a NotebookLM, no de una fila D3 trazable de w4-hii-reemplazabilidad.md. Esto viola dos guardarraíles inviolables a la vez:

La regla del propio documento (§5, línea 5): “solo entran cifras con fila D3 del corpus, con su etiqueta MEDIDO/ILUSTRATIVO y su limitación declarada”.
El aviso de Telar / regla dura del MANDATO: NO inventar cifras/fuentes; usa solo cifras del corpus o etiqueta hipótesis. Un rango con apariencia de MEDIDO que no tiene fila D3 detrás es exactamente el fallo que el gate existe para cazar.

Matiz de honestidad (cross-check D3, obs. Engram 21551). El cross-check confirmó la trazabilidad del bloque D3-008 en lo estructural (el doubling ~131d, la serie histórica 195,8d [162,223], el benchmark-to-workplace gap METR son todos MEDIDO y trazables); la discrepancia se concentra en los minutos por modelo (notablemente Opus 4.5) que difieren entre fuentes. Es decir: el esqueleto del argumento está bien anclado; el defecto es un detalle numérico decorativo que no debió presentarse como cifra del corpus.

A-heartbeat (COMBO-CHECK del cierre)

Guardarraíl no-inferencia rol→desplazamiento: ✅ 0 instancias (verificado, todo a nivel agregado de proceso/rol/equipo).
Guardarraíl nivel individual (EU AI Act / GDPR): ✅ respetado; toda la analítica es agregada.
Etiquetado [HIPÓTESIS DESCRIPTIVA] en toda proyección 2027-2030: ✅ presente y consistente, jamás causal.
Guardarraíles EIG (+0,30 vs +0,94 p.p.) y NBER (kappa 0,36 / 3,6×) explícitos en el texto de los 4 escenarios: ✅.
Cero ROI inventado: ✅.
Cifras MEDIDAS con fila D3: ❌ — fallo puntual en los rangos de minutos por modelo (D3-008). Único defecto material.

Qué corregir antes de W7 (no se redacta el paper hasta cerrar esto)

Retirar los rangos de minutos por modelo de las líneas 41 y 58, o re-etiquetarlos honestamente como ILUSTRATIVO/no-D3 si se conserva la fuente NotebookLM con su limitación declarada — nunca presentados como MEDIDO/D3-008.
Reafirmar la cita D3-008 solo con lo trazable: doubling ~131d (TH1.1), serie 195,8d [162,223], benchmark-to-workplace gap. El mecanismo de Ord (D3-009) y la decadencia exponencial por longitud de tarea se sostienen sin necesidad de los minutos por modelo.
Re-pasar V-review sobre el doc corregido antes de avanzar a redacción.

Lección para el corpus

La frontera entre “cifra del corpus con fila D3” y “cifra recordada/consultada que suena plausible” es justo donde el gate adversarial gana su sueldo. El documento es enterprise-grade en estructura y disciplina de guardarraíles; el aprendizaje es operativo: toda cifra numérica debe resolverse contra una fila D3 explícita en el momento de escribirla, no a posteriori. Wave M-04 W5 = entregable sólido con un defecto de grounding acotado y corregible → AMARILLO, no VERDE.

Avanzo el work item con una note honesta (verdict REJECT registrado, fix pendiente pre-W7).

W5-fix · re-verdict

Fecha: 2026-06-17 23:42 GMT+2 · SKU A-retro (cierre del fix).

El REJECT de la iteración 1 (b11bef8f) tenía un único defecto de grounding, acotado y corregible: en research/w5-escenarios-2027-2030.md L41 (Escenario A) se había colado un fragmento METR por-modelo fabricado —“Claude 3.7 Sonnet 56-59 min, o3 78-94 min, Sonnet 4.5 122-164 min, Opus 4.5 270-289 min, D3-008”— no trazable a ninguna fila D3 del corpus (origen NotebookLM, no corpus).

Fix aplicado (I-code): eliminado el fragmento fabricado; reemplazado por las cifras literales del corpus con fila D3 inline — Opus 4.5 = 320 min, GPT-5 = 214 min (D3-008), con Claude 3.7 Sonnet en ~50 min en la medición previa (D3-007). Corregida también la atribución del harness a “Vivaria→Inspect”.

Verificación (V-review):

Sweep grep -nE '56-59|78-94|122-164|270-289|o3 ' → exit 1, NO_FABRICATED_RANGES_REMAIN. Ningún rango fabricado ni “o3” persiste.
Inventario numérico final del doc, todo trazable: 131 días (D3-008), 320/214/~50 min (D3-008/D3-007), 195,8 días [162, 223] (D3-008/007). Toda cifra restante lleva fila D3 o etiqueta [HIPÓTESIS DESCRIPTIVA].
L58 (Escenario B) “~131 días (TH1.1) … serie histórica 195,8 días [162,223], D3-008/007” YA era trazable — no tocada.
Guardarraíles intactos (no tocados): EIG +0,30 vs +0,94 p.p. (D3-015), NBER kappa=0,36 / 3,6× divergencia (D3-016), prohibición rol→desplazamiento, nivel agregado de proceso, etiquetas [HIPÓTESIS DESCRIPTIVA]. Paper W7 NO redactado.
Diff mínimo: 1 línea cambiada.

Re-verdict: advisor APPROVE iter 2 (13ce778e-969d-4ee9-b043-090ee2c15bfa), supera el REJECT b11bef8f. Work item 178b21e8 → V-review (step 5) gate PASS, avanzado a A-retro (step 6).

Semáforo A-retro: 🟢 VERDE. El defecto de grounding que dejó W5 en AMARILLO está cerrado y verificado por sweep. La lección operativa de la iteración 1 —toda cifra numérica se resuelve contra una fila D3 explícita en el momento de escribirla, no a posteriori— queda confirmada como guardarraíl del corpus de cara a W7.

W5-fix2 · re-verdict (APPROVE)

Fecha: 2026-06-17 23:53 GMT+2 · SKU A-retro (cierre del fix-2).

Tras el fix-1 (APPROVE iter 2, defecto METR por-modelo fabricado en L41), se ejecutó una auditoría adversarial de procedencia numérica cifra a cifra sobre research/w5-escenarios-2027-2030.md, cotejando cada cifra contra fila del Google Sheet corpus (18xMnjka7kLFAQLhA377VGqA77gAnQOB3s8urn7nFgd4) o contra research/w4-hii-reemplazabilidad.md, con el id citado inline.

Resultado del V-review (id f38b4faa-ef2e-4ba6-bb45-304c0eeb779e, iteración 3, reviewer_role critic_final, agente “V-review adversarial · default-REJECT”):

APPROVE. Las 15 cifras numéricas son TODAS trazables + exactas con id citado inline: EIG +0,30/+0,94 p.p. (D3-015); NBER 3,6×/57%/kappa 0,36/2,4× (D3-016); METR TH1.1 ~131d, Opus 4.5 320min, GPT-5 214min, 14 modelos/228 tareas (D3-008); Claude 3.7 ~50min (D3-007); GAIA 92% vs 15%/466 preguntas (D2-010); WebArena 78,24% vs 14,41% (D2-007); GDPval 44 ocupaciones/1.320 gold [dato de cuerpo] (D3-010); EPAs 5 niveles (D3-012). Sin cifras huérfanas, sin ROI derivado, sin invención. UpBench (D3-011) declarado como marco sin pass-rate, etiquetado [HIPÓTESIS DESCRIPTIVA].

Gates inviolables (verbatim del verdict) — PASS: cero rol→desplazamiento causal (todas refutaciones); EIG (7×) + NBER (8×) en cada escenario; nivel agregado (11×); [HIPÓTESIS DESCRIPTIVA] (10×) en toda proyección 2027-2030; señal Satya Nadella 14-jun-2026; escenarios A/D adversos a fondo.

Cierre: el doc que falló 2 veces por cifras supera ahora la procedencia. Work item 178b21e8 → status DONE (todos los steps terminales, sin falso-completar). Paper W7 NO redactado. Guardarraíles intactos (EIG, NBER, prohibición rol→desplazamiento, nivel agregado).

Semáforo A-retro: 🟢 VERDE. Verdict final = el del V-review verbatim = APPROVE. La lección operativa queda promovida a guardarraíl del corpus: toda cifra del doc de escenarios es trazable a una fila D2/D3 del Sheet o a w4-hii-reemplazabilidad.md, con el id inline en el momento de escribirla.