Journal · M-02 W4 (Bridge B · D-spec síntesis) — HII / reemplazabilidad: el gate crítico

W4 es el eslabón HII de la columna vertebral (categoría → colapso del lead-time → HII → bifurcación AI/Human → mapa de reemplazabilidad). W2 acumuló la evidencia de mercado sin derivar HII; W3 midió la frontera y dató la curva, dejando explícito que la interpretación HII era M-03/W4. Aquí se cobra esa deuda. Y aquí se decide si la tesis sobrevive o se reconvierte.

1. El encargo, sin adornos

El panel VC-hostil va a hacer una sola pregunta, y la formuló el MoE (measurability_question):

“¿De verdad puedes MEDIR la reemplazabilidad del trabajo —la Human Input Intensity por rol—, o es una metáfora con tabla de Excel? Enséñame quién, hoy (2024-2026), mide algo equivalente con datos y metodología declarada; y si lo que tienes son proxies, justifícame cada salto proxy→HII y dime por qué tu cifra de HII por rol no es simplemente una hipótesis ilustrativa disfrazada de medida. Y si solo es ilustrativa: ¿qué te queda como moat?”

El axioma frágil A5 del MoE dice la verdad incómoda de entrada: que HII sea medible barata, repetible y a escala NO está demostrado. Mi trabajo no es disfrazar eso. Es decidir honestamente si aguanta, y si no, construir el Plan B meta-nivel como tesis principal.

2. El movimiento intelectual central (el thinking, no el resumen)

He recorrido los 16 filas D3 y la conclusión es inequívoca: ninguna fuente del corpus mide HII directamente. Todo lo disponible son PROXIES de la intensidad de input humano. Esa es la cuña. Y lo honesto no es esconderla: es ponerla en el título.

He organizado la evidencia en dos columnas adversariales, que es lo que el Estándar A punto 2 exige y lo que W3 no podía aún entregar (el substrate lo dice: “el corpus NO contiene aún la lista EN-CONTRA”). Ahora sí la tengo, porque W4 trajo las refutaciones:

A FAVOR de la medibilidad (6 filas SOSTIENE): Anthropic Economic Index primitives (D3-001) + labor market impacts (D3-002), ILO WP140 índice refinado (D3-003), METR Time Horizon 1.1 (D3-008), EPAs/escala de entrustment (D3-012), EDPS in-the-loop vs on-the-loop (D3-013).
EN CONTRA / REFUTA (6 filas): Toby Ord vida media (D3-009), ILO Research Brief “exposure ≠ outcome” (D3-014), EIG “AI and Jobs: the final word” (D3-015), NBER WP35110 “when the ruler is made of the thing it measures” (D3-016). Más los NEUTRO/proxy que matizan (D3-004 GPTs-are-GPTs mide potencial no impacto, D3-005 OCDE ILUSTRATIVO prospectivo, D3-006 WEF cifra forward-looking, D3-007 METR original, D3-010 GDPval one-shot, D3-011 UpBench).

El hallazgo que destruye la versión ingenua de la tesis es D3-016 (NBER): cuando replicas el scoring de exposición ocupacional con varios modelos LLM, divergen 3,6x, el acuerdo es 57%, kappa=0,36 — un modelo marca 14% de tareas expuestas y otro 51%. La regla está hecha de lo mismo que mide. Esto, junto con D3-015 (EIG: cinco medidas de exposición vs microdatos de paro → SIN correlación; el quintil más expuesto sube +0,30 p.p. de paro vs +0,94 p.p. del menos expuesto, patrón OPUESTO al esperado) y D3-014 (ILO: “exposure indicators reveal technological susceptibility, not labour market outcomes”), forma un muro de contraevidencia 2024-2026 que un VC competente ya conoce. Si yo no lo pongo encima de la mesa, lo pone él, y entonces pierdo toda la credibilidad.

3. La decisión honesta: measurability_holds = PLAN_B

No fuerzo. La medibilidad de HII como medida directa, barata, repetible y a escala NO aguanta hoy. Aguanta como proxy declarado, pero el salto proxy→HII-por-rol-como-número-de-Excel es exactamente lo que la triada NBER+EIG+ILO refuta sobre repetibilidad y validez externa.

Por tanto la tesis principal del documento NO es “Momentum mide la reemplazabilidad del mundo”. Es el Plan B meta-nivel, que resulta ser más fuerte y más defendible:

Momentum no reclama un mapa de reemplazabilidad: lo trata como hipótesis falsable, y la falsa con su propia telemetría. Lo que sí mide, barato y repetible, es el residuo de verificación: cuánto criterio humano exige cada output dentro de la plataforma (Weighted Verified Outputs + telemetría de ejecución del grafo de competencia, sostén pedagógico D3-006/sistemática authentic assessment). El mapa de HII por rol del mercado es la hipótesis externa; el moat es la telemetría interna que la confirma o la rompe rol a rol. El moat se construye, no se reclama.

Esto convierte la debilidad (no puedo medir HII a escala desde fuera) en la razón de existir del producto: el único sitio donde HII se mide de verdad es dentro de un loop de ejecución verificada, y ese loop es Momentum. Los cinco proxies medidos del corpus son la mejor aproximación pública disponible — y son justamente lo que la plataforma sustituye por medida primaria.

4. La cadena de proxies declarada (cada salto justificado)

Esto es lo que el Estándar A punto 4 exige y lo que blinda el documento ante “¿de dónde sale tu número?”:

Task-level exposure → HII (D3-001/002/003/004): mide patrón de uso o exposición teórica a nivel tarea, NO criterio humano requerido. Salto = asumir que “tarea tocada por IA” ≈ “input humano reducido”. Débil: D3-014/015 lo refutan (susceptibilidad ≠ resultado).
Autonomy gap (benchmarks) → HII (GAIA/WebArena vía W3, D3-010 GDPval, D3-011 UpBench): mide brecha de capacidad agregada en tareas reales. Salto = de brecha poblacional a HII por rol individual. Es brecha, no intensidad por tarea.
Human-in-the-loop intensity → HII (τ-bench/τ²-bench vía W3): el proxy MÁS FUERTE — mide directamente la intervención humana necesaria para el éxito (pass^8 <25% en retail). Salto mínimo, pero es de entorno benchmark a rol del mundo real.
Time-to-competency → HII (D3-007/008 METR): proxy temporal de la frontera. Salto = de horizonte de tarea software a HII genérica; el propio paper declara límites de validez externa.
Escalas de supervisión retrospectiva → HII (D3-012 EPAs): plantilla psicométrica/ordinal de “cuánta supervisión necesita un actor”, importada de medicina. Salto de dominio que debe justificarse explícitamente.

Cada salto declarado = cada salto atacable, y eso es la fortaleza, no la debilidad.

5. Robustez bajo escenarios A y D (no solo el optimista B)

Escenario A (plateau agéntico): si la capacidad se estanca, el mapa estático de HII envejece mal — pero el Plan B gana, porque la telemetría interna captura el plateau en tiempo real (D3-009 Toby Ord: vida media bajo hazard constante = la capacidad puede decaer/estancarse en tareas largas). El producto que mide el residuo no depende de que la curva siga subiendo.
Escenario D (reacción institucional/sindical): si llega regulación de supervisión humana obligatoria, D3-013 (EDPS in-the-loop vs on-the-loop) convierte el residuo de verificación en requisito legal, no en lujo. La HII deja de ser métrica de eficiencia y pasa a ser métrica de cumplimiento. El Plan B se refuerza: Momentum mide exactamente lo que el regulador va a exigir demostrar.

La tesis ingenua (mapa estático medido desde fuera) NO sobrevive ni a A ni a D. El Plan B sobrevive a ambos. Esa es la prueba de que el pivote es correcto, no cosmético.

6. Notas de método y deuda

16 filas D3 todas con URL resoluble (regla dura 1), etiqueta MEDIDO/ILUSTRATIVO/N-A honesta. NUNCA una ilustrativa vendida como medida (D3-005 OCDE y D3-006 WEF cifra forward-looking = ILUSTRATIVO explícito; D3-013/014 = N-A porque son marco/brief sin cifra de capacidad).
La tabla MEDIDO↔ILUSTRATIVO del documento etiqueta CADA cifra HII/exposición citada. Una sola ambigüedad = REJECT.
NotebookLM: el notebook ya tenía METR (2503.14499), WebArena, GAIA, OSWorld, τ-bench, τ²-bench, Anthropic Economic Index, authentic assessment systematic review. Subo las D3 primarias nuevas clave que faltaban (Toby Ord half-life, GDPval, UpBench, METR Time Horizon 1.1, NBER WP35110, ILO WP140, GPTs-are-GPTs, ILO Research Brief, EIG).
Deuda: subido_a_notebooklm = pendiente en las 16 filas D3 del Sheet → reconciliar flag tras ingesta. D3-008/D3-001/D3-016 son fuentes 2026 (recientes, prioritarias).

7. Lectura honesta para el VC (self-assessment)

Si presento la versión “medimos la reemplazabilidad del mundo”, el VC me revienta con NBER+EIG+ILO en treinta segundos y tiene razón. Si presento el Plan B —“el mapa es hipótesis falsable, el moat es la telemetría de verificación interna”— el documento sobrevive, porque (a) reconozco la contraevidencia antes de que me la enseñen, (b) declaro cada salto proxy→HII, (c) muestro que el producto gana en los escenarios adversos A y D. El gate se pasa por honestidad intelectual, no por optimismo.

W4 · A-retro + verdict panel

Veredicto final del gate: APPROVE (binario · §S24). Panel adversarial dual — reviewer#1 APPROVE · reviewer#2 APPROVE. Regla respetada: APPROVE binario SOLO si AMBOS APPROVE. verdict_id Dev OS = a0590024-4f8b-490f-a9af-138d97501210 · timestamp 2026-06-17T19:56:48Z.

Cómo se pasó el gate crítico. No por declarar HII medible —no lo es a escala desde fuera, y ese era el riesgo de REJECT automático—, sino por la honestidad estructural del documento: measurability = PLAN_B se declara en el cuerpo (líneas 7 y 128), la cifra más vendible (HII por rol = reemplazabilidad) se etiqueta ILUSTRATIVA en la tabla MEDIDO↔ILUSTRATIVO, y el axioma frágil A5 se reconoce roto citando la evidencia que lo rompe (NBER D3-016, kappa=0,36). El documento se auto-refuta antes de que lo haga el panel. Eso es exactamente lo que el Estándar A premia: el pitch deshonesto habría ocultado D3-016/D3-015/D3-014; este los pone en la columna EN-CONTRA (6 refutan vs 6 sostienen vs 4 neutro — equilibrio real, no decorativo).

Verificación en vivo de dos cifras MEDIDO (no auto-reporte numérico, evidencia de tercer tipo): D3-015 EIG confirmado verbatim (quintil MÁS expuesto +0,30 p.p. de paro vs +0,94 p.p. del MENOS expuesto — patrón opuesto al esperado, la fuente lo sostiene); D3-008 METR Time Horizon 1.1 confirmado (doubling 131 días, Opus 4.5 = 320 min, GPT-5 = 214 min, 228 tareas). Ninguna falla. Trazabilidad contra el Sheet 18xMnjka: 16 filas D3 (Corpus 56-71) con etiquetas, URLs resolubles y notas adversariales coherentes (correcciones “escala validada”→“escala ordinal estándar” en D3-012, R²=0,83 no confirmado en D3-007). Cero cifra huérfana.

Semáforo A-retro: GREEN. W4 entregó un gate honesto con dientes: APPROVE sostenido por un Plan B meta-nivel coherente y demostrado como necesidad lógica (sobrevive a los escenarios adversos A-plateau y D-reacción institucional; la tesis ingenua no sobrevive a ninguno). El Plan B NO es un fallo: es la salida honesta y, además, la más fuerte —convierte “no puedo medir HII desde fuera” en la razón de existir del producto (la telemetría de verificación interna como moat construido, no reclamado). No hay deuda de invención: ninguna ilustrativa vendida como medida (= condición de REJECT automático, evitada). Deuda menor arrastrada (no bloqueante): reconciliar flag subido_a_notebooklm en las 16 filas D3 tras ingesta.

Implicación de scope para M-04. Con measurability = PLAN_B, W5 (escenarios 2027-30) y W7 (síntesis → outline paper) se replanifican sobre la tesis del residuo de verificación, no sobre el mapa estático de HII. El mapa entra como hipótesis externa falsable; el eje narrativo del paper es la medida interna. Esto es replanificación normal de M-04, no un retroceso.

📍 Estás aquí: M-03 W4 → A-heartbeat (COMBO-CHECK) + A-retro completados · gate HII/reemplazabilidad cerrado APPROVE (panel dual) measurability = PLAN_B · semáforo GREEN · verdict a0590024 registrado en Dev OS

➡️ Siguiente paso recomendado: M-04 (W5 escenarios 2027-30 + W7 síntesis) — replanificados sobre la tesis del residuo de verificación. NO ejecutar en este COMBO.

🗺️ Recorrido COMBO W4: ✅ COMBO-OPEN (R-context + P-plan) ✅ IMPL (D-spec síntesis HII/reemplazabilidad) ✅ COMBO-CHECK (A-heartbeat) 👉 COMBO-CLOSE (A-retro + verdict panel) ← aquí ⬜ M-04 (W5/W7) — fuera de este COMBO

💡 ¿Sabías que?: el gate se pasó por honestidad intelectual (auto-refutación con NBER/EIG/ILO antes que el panel), no por optimismo — el Plan B meta-nivel es más defendible que la tesis ingenua que pretendía sustituir.