W4 · Human Input Intensity y reemplazabilidad: ¿medida o metáfora?

Documento de síntesis del eslabón HII de la columna vertebral del paper. Cadena: categoría → colapso del lead-time → HII (Human Input Intensity) → bifurcación AI/Human Workforce → mapa de reemplazabilidad. Este documento responde, sin atajos, a la pregunta que un comité de inversión hostil hará primero: ¿de verdad puedes medir la reemplazabilidad del trabajo, o es una metáfora con tabla de Excel?

Veredicto de medibilidad: PLAN_B. La HII no es hoy medible de forma directa, barata, repetible y a escala. Es inferible vía proxies, y cada proxy es atacable. La tesis defendible no es “Momentum mide la reemplazabilidad del mundo”, sino: Momentum trata el mapa de reemplazabilidad como hipótesis falsable y la falsa con su propia telemetría de verificación. El moat se construye, no se reclama.

0. Tesis en una frase, y por qué no es la que parece

El instinto de pitch es decir: “Momentum mide la Human Input Intensity por rol y construye el mapa de reemplazabilidad del trabajo.” Esa frase no sobrevive a un panel competente, y este documento explica por qué con la evidencia 2024-2026 encima de la mesa —incluida la que nos refuta—.

La tesis que sí sobrevive es de segundo orden: ninguna fuente pública mide HII directamente; todas miden proxies. El residuo de criterio humano que cada output exige solo se mide de verdad dentro de un loop de ejecución verificada. Ese loop es el producto. Por tanto el mapa de reemplazabilidad por rol es una hipótesis externa que la plataforma confirma o rompe rol a rol con su telemetría; el activo defendible (moat) no es el mapa, es el instrumento que lo falsa.

Toda afirmación de este documento referencia su fila D3-NNN del Google Sheet (dominio “Futuro del trabajo/HII”). Cifra sin fila no entra (regla dura 1). Etiqueta de evidencia MEDIDO / ILUSTRATIVO / N-A obligatoria y honesta: una cifra ilustrativa presentada como medida es rechazo automático.

1. Elemento 1 — Tabla MEDIDO ↔ ILUSTRATIVO de cada cifra HII / exposición / reemplazabilidad

Regla de lectura: MEDIDO = cifra con metodología declarada y dato observado/reproducible. ILUSTRATIVO = proyección, escenario o cifra prospectiva sin telemetría que la respalde hoy. N-A = la fuente aporta marco/distinción conceptual, no una cifra de capacidad. Ninguna cifra de la columna ILUSTRATIVO puede usarse como si fuera MEDIDO en el pitch.

Cifra / claim	Valor	Etiqueta	Qué mide REALMENTE (y qué NO)	Fila
Ocupaciones con uso de IA en ≥1/4 de tareas (telemetría task-level O*NET)	~36% (ene-2025; 49% pooled); top-10 = 24%	MEDIDO	Patrón de uso observado en conversaciones, NO criterio humano requerido por rol. Es lo más cercano a una medida poblacional de intensidad de input, pero es uso, no necesidad.	D3-001
”Observed exposure” híbrida (teoría + telemetría) nivel tarea, ~800 ocupaciones US	medida nueva	MEDIDO	Exposición observada a nivel tarea. Sigue siendo exposición, no reemplazabilidad consumada.	D3-002
Trabajadores con exposición a IA generativa (índice refinado ILO, 29.753 tareas)	~1/4 con exposición; 3,3% exposición máxima	MEDIDO	Exposición ocupacional refinada con validación humana + Delphi. Mide susceptibilidad técnica, no resultado laboral (ver D3-014, misma casa).	D3-003
Workforce con ≥10% de tareas afectadas por LLM (rúbrica O*NET)	~80% (≥10%); ~19% (≥50%); ~46% con software	MEDIDO del POTENCIAL	Mide potencial de impacto, NO impacto consumado ni HII. El propio paper lo acota a “potencial”.	D3-004
Brecha de capacidad IA por dominio (OCDE, 9 dominios, unidad = ocupación)	índice prospectivo 5-10 años	ILUSTRATIVO	Proyección de capacidad a nivel ocupación, NO telemetría, NO HII por tarea. Forward-looking.	D3-005
Reparto de tareas humano/tecnología/colaborativo (encuesta empleadores WEF)	47% humano / 22% tecnología / 30% colaborativo (actual, MEDIDO por encuesta); proyección 2030	MEDIDO (reparto actual) / ILUSTRATIVO (cifra 2030)	El reparto actual es encuesta; la cifra forward-looking a 2030 es proyección. No mezclar.	D3-006
Horizonte temporal al 50% (tiempo humano experto, tareas software)	~50 min (Claude 3.7); se duplica cada ~7 meses	MEDIDO	Proxy temporal de frontera de competencia en tareas software. Validez externa limitada por declaración del propio paper.	D3-007
Horizonte temporal al 50% — actualización (14 modelos, 228 tareas)	duplica ~131 días; Opus 4.5 = 320 min; GPT-5 = 214 min	MEDIDO	Igual que D3-007, actualizado y con sensibilidad de harness declarada (Vivaria→Inspect). Sigue siendo software.	D3-008
Vida media de la tasa de éxito de agentes (hazard constante)	horizonte 50% = vida media; decaimiento exponencial	MEDIDO	Reinterpreta el horizonte METR como vida media → la capacidad en tareas largas puede estancarse/decaer. Contraevidencia a la extrapolación lineal.	D3-009
Desempeño IA en tareas económicamente valiosas reales (GDPval, 44 ocupaciones)	modelos “approaching experts”; tareas one-shot	MEDIDO	”Se acercan a expertos” en tareas one-shot, NO reemplazan flujos completos. 1.320 tareas (dato de cuerpo).	D3-010
Benchmark freelance real anti-saturación (UpBench, human-centric)	proxy de intensidad HITL	MEDIDO	Mide intervención human-in-the-loop en mercado laboral real simulado. Proxy, no HII por rol.	D3-011
Escala de entrustment/supervisión (EPAs, 5 niveles ordinales)	5 niveles de supervisión requerida	MEDIDO (estándar ordinal)	Plantilla de “cuánta supervisión necesita un actor” importada de medicina, no de trabajo IA. Salto de dominio.	D3-012
Distinción in-the-loop vs on-the-loop (supervisión humana)	marco regulatorio EDPS	N-A	Aporta la distinción conceptual de modos de supervisión, no una cifra. Relevante para escenario D.	D3-013
”Exposure indicators reveal technological susceptibility, not labour market outcomes” (ILO Research Brief)	claim cualitativo	N-A	Refuta el salto exposición→resultado. Susceptibilidad ≠ resultado laboral.	D3-014
Correlación exposición-IA ↔ paro real (EIG, 5 medidas vs microdatos)	SIN correlación; quintil más expuesto +0,30 p.p. paro vs +0,94 p.p. el menos expuesto (patrón OPUESTO)	MEDIDO	Mide que las medidas de exposición NO predicen desempleo. Refutación dura de la validez predictiva.	D3-015
Estabilidad del scoring de exposición ocupacional entre modelos (NBER, réplica multi-modelo)	divergencia 3,6x; acuerdo 57%; kappa=0,36; un modelo 14% vs otro 51% de tareas expuestas; coef diff-in-diff varía 2,4x	MEDIDO	Mide que la repetibilidad del scoring de exposición es baja: “la regla está hecha de lo mismo que mide”. Refuta el axioma A5 (repetibilidad).	D3-016

Conclusión de la tabla: todo lo etiquetado MEDIDO mide exposición, potencial, brecha de capacidad, horizonte temporal o intensidad HITL — ninguna fila mide HII por rol como reemplazabilidad consumada. La HII por rol presentada como número es, a día de hoy, ILUSTRATIVA. Decirlo así no es debilidad: es lo que separa este documento de un pitch.

2. Elemento 2 — A favor vs en contra de la medibilidad de HII (lado a lado)

A FAVOR de que HII es medible (2024-2026)	EN CONTRA / la refuta (2024-2026)
Telemetría task-level existe y escala (D3-001/002): millones de conversaciones mapeadas a O*NET dan exposición observada a nivel tarea, no solo teórica.	La exposición no es resultado (D3-014, ILO): los indicadores de exposición revelan susceptibilidad técnica, no resultados laborales. El puente exposición→reemplazabilidad no está probado.
Índice refinado con validación humana (D3-003, ILO WP140): 29.753 tareas + 1.640 trabajadores + Delphi + dual-model → metodología declarada y auditable.	La exposición no predice el paro (D3-015, EIG): cruzar 5 medidas de exposición con microdatos da correlación nula y hasta de signo opuesto. La medida no tiene validez predictiva sobre el outcome que importa.
El horizonte temporal es reproducible y datado (D3-007/008, METR): ~50 min → duplica cada ~7 meses (o ~131 días en la actualización), con harness público.	El scoring de exposición no es repetible (D3-016, NBER): réplica multi-modelo diverge 3,6x, kappa=0,36, un modelo marca 14% y otro 51%. “La regla está hecha de lo mismo que mide.” Refuta directamente el axioma A5 (repetibilidad barata).
La intensidad human-in-the-loop se mide directamente (τ-bench/τ²-bench vía W3; D3-011 UpBench): pass^k cuantifica cuánta intervención humana exige el éxito. Es el proxy más fuerte del corpus.	La capacidad puede estancarse, no extrapolar (D3-009, Toby Ord): el horizonte = vida media bajo hazard constante → la proyección lineal de “tareas de un mes en 5 años” es frágil; la mejora puede saturar en tareas largas.
Existe plantilla psicométrica de supervisión (D3-012, EPAs): la medicina ya mide “cuánta supervisión requiere un actor” con escala ordinal — marco transferible.	El marco viene de otro dominio (D3-012, mismo): es medicina, no trabajo IA; el salto de dominio no está validado para roles laborales generales.
El regulador empuja a medir la supervisión (D3-013, EDPS): la distinción in/on-the-loop institucionaliza la necesidad de cuantificar el residuo humano.	El “potencial” no es “impacto” (D3-004, GPTs-are-GPTs; D3-005 OCDE; D3-006 WEF 2030): las cifras grandes y citables miden potencial/proyección, no reemplazabilidad consumada.

Balance honesto: la columna A FAVOR sostiene que se pueden medir proxies con metodología declarada (eso es cierto e importante). La columna EN CONTRA demuestra que el salto de esos proxies a “HII por rol = reemplazabilidad medida, repetible y predictiva” no aguanta (NBER + EIG + ILO son demoledores y un VC los conoce). De ahí el veredicto PLAN_B: la medibilidad de proxies HOLDS; la medibilidad de HII-como-medida-directa NO.

3. Elemento 3 — Robustez bajo escenario A (plateau agéntico) y escenario D (reacción institucional/sindical)

No basta con que la tesis aguante en el escenario optimista B (capacidad agéntica sigue subiendo). El gate exige robustez en los adversos.

Escenario A — Plateau agéntico (la capacidad se estanca)

La tesis ingenua se rompe. Un mapa estático de HII por rol, medido desde fuera hoy, envejece mal y queda como foto de un momento. D3-009 (Toby Ord) da el mecanismo: si el éxito decae como vida media bajo hazard constante, la extrapolación lineal del horizonte (D3-007/008) no se sostiene y la frontera se estanca antes de lo proyectado.
El Plan B gana. Un producto que mide el residuo de verificación en tiempo real no necesita que la curva siga subiendo: si hay plateau, su telemetría lo detecta rol a rol y reasigna el currículo hacia donde el criterio humano sigue siendo el cuello de botella. El plateau es información, no amenaza, para un instrumento que mide en continuo.
Veredicto A: tesis estática NO sobrevive; Plan B SÍ. Fuente de la robustez: D3-009 como contraevidencia que el producto convierte en señal.

Escenario D — Reacción institucional / sindical (regulación de supervisión humana)

La tesis ingenua se vuelve irrelevante. Si la presión institucional/sindical impone supervisión humana obligatoria, el “mapa de reemplazabilidad máxima” deja de ser el número que importa: lo que importa es demostrar cuánto humano hay en el loop por cumplimiento.
El Plan B se refuerza. D3-013 (EDPS) ya distingue in-the-loop vs on-the-loop como categorías regulatorias. Si esa distinción se vuelve requisito legal, el residuo de verificación que mide Momentum pasa de métrica de eficiencia a métrica de cumplimiento auditable. D3-012 (EPAs) muestra que un sector regulado (medicina) ya opera con escalas ordinales de supervisión — precedente de que “cuánta supervisión humana” es una métrica que las instituciones aceptan y exigen.
Veredicto D: tesis estática NO sobrevive; Plan B SÍ, y además captura un tailwind regulatorio. Fuente: D3-013 + D3-012.

Síntesis de robustez: la tesis “medimos el mapa desde fuera” no sobrevive ni a A ni a D. El Plan B sobrevive a ambos y mejora en D. Esto no es retórica defensiva: es la prueba lógica de que el pivote de primer a segundo orden es correcto, no cosmético.

4. Elemento 4 — Cadena de proxies declarada (cada salto proxy→HII justificado)

La HII por rol se infiere, no se mide. Declarar cada salto es lo que blinda el documento ante “¿de dónde sale tu número?”. Cada salto es, por diseño, atacable —y esa transparencia es la fortaleza—.

#	Proxy (lo que SÍ se mide)	Etiqueta	Salto hacia HII	Justificación / fragilidad del salto	Filas
1	Exposición task-level (uso observado / exposición teórica a nivel tarea)	MEDIDO	”tarea tocada por IA” → “input humano reducido en ese rol”	Salto débil: D3-014/015 refutan que exposición prediga resultado. Útil como cota superior de exposición, no como HII.	D3-001/002/003/004
2	Autonomy gap (brecha de capacidad agente-vs-humano en tareas reales)	MEDIDO	brecha poblacional agregada → HII por rol individual	Salto medio: es brecha de capacidad, no intensidad de input por tarea. GDPval (D3-010) lo acota: “approaching experts” en one-shot ≠ reemplazo de flujo.	GAIA/WebArena (W3), D3-010/011
3	Human-in-the-loop intensity (intervención humana necesaria para el éxito, pass^k)	MEDIDO	intensidad HITL en benchmark → HII en rol del mundo real	Salto mínimo (el más fuerte): mide exactamente la intervención humana requerida. Fragilidad: de entorno benchmark controlado a rol real.	τ-bench/τ²-bench (W3), D3-011
4	Time-to-competency (horizonte temporal al 50%, frontera de competencia)	MEDIDO	horizonte de tarea software → HII genérica	Salto medio-alto: el propio METR acota a “software”; generalizar a todos los roles excede la validez declarada. D3-009 advierte del plateau.	D3-007/008/009
5	Escalas de supervisión retrospectiva (entrustment ordinal)	MEDIDO (estándar ordinal)	“supervisión requerida en medicina” → HII en trabajo IA	Salto de dominio: marco psicométrico de medicina importado a trabajo IA; transferencia plausible pero no validada empíricamente fuera de medicina.	D3-012

Cadena completa declarada: Proxy 1 (exposición) acota el universo de roles tocables; Proxy 2 (autonomy gap) da la brecha de capacidad; Proxy 3 (HITL) es el que más se acerca a HII real; Proxy 4 (time-to-competency) da la dinámica temporal; Proxy 5 (entrustment) aporta la plantilla de medición de supervisión. La HII por rol es la composición ilustrativa de estos cinco proxies — y lo declaramos como tal. La plataforma sustituye esta composición inferida por medida primaria interna (residuo de verificación medido en ejecución).

5. Elemento 5 — Trazabilidad total (cada claim → su fila D3)

Todas las fuentes son del dominio “Futuro del trabajo/HII”, verificadas (status VERIFIED), con URL resoluble. Ninguna cifra de este documento existe sin fila.

Fila	Fuente	Año	Evidencia	Postura sobre medibilidad HII
D3-001	Anthropic Economic Index: New building blocks (primitives)	2026	MEDIDO	SOSTIENE
D3-002	Labor market impacts of AI: new measure & early evidence (Anthropic)	2026	MEDIDO	SOSTIENE
D3-003	ILO WP140 — Refined Global Index of Occupational Exposure	2025	MEDIDO	SOSTIENE
D3-004	GPTs are GPTs (Eloundou et al., Science)	2024	MEDIDO (potencial)	NEUTRO/proxy
D3-005	OECD AI Exposure Measure	2025	ILUSTRATIVO	NEUTRO/proxy
D3-006	WEF Future of Jobs Report 2025	2025	ILUSTRATIVO (cifra 2030)	NEUTRO/proxy
D3-007	METR — Measuring AI Ability to Complete Long Tasks	2025	MEDIDO	NEUTRO/proxy
D3-008	METR — Time Horizon 1.1 (actualización)	2026	MEDIDO	SOSTIENE
D3-009	Toby Ord — Half-life of AI agent success rates	2025	MEDIDO	REFUTA (plateau, escenario A)
D3-010	GDPval (OpenAI) — Real-world economically valuable tasks	2025	MEDIDO	NEUTRO/proxy
D3-011	UpBench — Dynamically evolving labor-market agentic benchmark	2025	MEDIDO	NEUTRO/proxy
D3-012	Nuts and Bolts of EPAs / Entrustment-Supervision Scale (ten Cate)	2024	MEDIDO (ordinal)	SOSTIENE
D3-013	EDPS TechDispatch #2/2025 — Human Oversight of ADM	2025	N-A	SOSTIENE (escenario D)
D3-014	ILO Research Brief — Workers’ exposure to AI: what indicators tell us	2026	N-A	REFUTA
D3-015	EIG — AI and Jobs: The Final Word (Until the Next One)	2025	MEDIDO	REFUTA
D3-016	NBER WP35110 — When the ruler is made of the thing it measures	2026	MEDIDO	REFUTA (repetibilidad, axioma A5)

Conteo: 6 sostienen · 6 refutan/matizan en contra · 4 neutro/proxy. Equilibrio adversarial real, no decorativo.

6. Decisión honesta y Plan B como tesis principal

measurability_holds = PLAN_B.

La medibilidad de HII como medida directa, barata, repetible y a escala NO aguanta hoy. La refutan tres fuentes 2024-2026 que cualquier VC competente conoce: NBER (D3-016, repetibilidad baja, kappa=0,36), EIG (D3-015, sin correlación con el paro real) e ILO (D3-014, exposición ≠ resultado). El axioma frágil A5 del MoE se confirma empíricamente.

Lo que sí aguanta, y se convierte en la tesis del paper:

El mapa de reemplazabilidad por rol es una hipótesis, no un dato. Momentum no lo reclama: lo falsa con su propia telemetría.

Lo que la plataforma mide —barato, repetible, a escala, porque ocurre dentro del loop— es el residuo de verificación: cuánto criterio humano exige cada output. Operacionalización: Weighted Verified Outputs + telemetría de ejecución del grafo de competencia (sostén pedagógico: la revisión sistemática de evaluación auténtica respalda demonstrates-not-passes, evaluar por evidencia de desempeño, D3-006 / sistemática de authentic assessment del corpus M-02). Los cinco proxies públicos del §4 son la mejor aproximación externa disponible; la telemetría interna los sustituye por medida primaria, rol a rol.

Por qué esto es un moat y no una excusa: el único lugar donde HII se mide de verdad es dentro de un loop de ejecución verificada. Construir ese loop, capturar su telemetría y refinar el mapa con ella es difícil de replicar y mejora con el uso (efecto de datos). El competidor que compra un índice de exposición (D3-005, OCDE) tiene una foto pública y envejecida; Momentum tiene la película privada y viva. El moat se construye con la telemetría, no se reclama con un mapa.

7. Lo que un VC hostil intentará, y la respuesta preparada

Ataque del panel	Respuesta (con fila)
“Tu HII por rol es una metáfora con Excel.”	Correcto si la vendiera como medida. La vendo como hipótesis ilustrativa compuesta de 5 proxies declarados (§4) y la falsa con telemetría interna (§6).
”Las medidas de exposición no predicen el paro.”	Lo sé y lo cito yo primero: EIG (D3-015). Por eso no apuesto el negocio al mapa externo, sino a la medida interna.
”Tu scoring no es repetible entre modelos.”	NBER (D3-016): cierto, kappa=0,36. Es exactamente la razón por la que el instrumento de medida tiene que ser propietario y basado en ejecución, no en LLM-scoring de O*NET.
”¿Y si la capacidad agéntica se estanca?”	Escenario A (§3): el Plan B gana, la telemetría detecta el plateau (D3-009) y reasigna.
”¿Y si llega regulación sindical?”	Escenario D (§3): el residuo de verificación pasa a métrica de cumplimiento (D3-013 in/on-the-loop; D3-012 precedente médico). Tailwind, no amenaza.
”Entonces, ¿cuál es el moat?”	La telemetría de verificación interna que ningún índice público tiene (§6). Construido, no reclamado.

Documento D-spec · COMBO W4 · M-03 · prompt_artifact 8a4036f7-bce8-41a7-99f2-d39e935b53bd. Sujeto al veredicto binario APPROVE/REJECT del panel adversarial (PRISM-DevMet §S24). Trazabilidad: 16 filas D3 verificadas en el Google Sheet de bibliografía, dominio “Futuro del trabajo/HII”.