W5 · Escenarios 2027-2030 — la trayectoria del residuo de verificación
Documento de síntesis de escenarios (M-04 · W5). No es research nuevo: es la proyección arborescente de la evidencia ya medida en
w4-hii-reemplazabilidad.md(filas D3), gobernada porthesis-canon-v2.mdypanel-synthesis-m04.md.Regla que estructura el documento entero. Aquí no se infiere, en ningún punto, qué rol desaparece ni qué trabajo se desplaza. Toda la analítica vive a nivel agregado de proceso/rol/equipo (EU AI Act Anexo III(4) + GDPR Art. 22 / precedente Schufa), y toda proyección 2027-2030 está etiquetada [HIPÓTESIS DESCRIPTIVA] — descriptiva, nunca causal. No se deriva ningún ROI ni se inventa ninguna cifra: solo entran cifras con fila D3 del corpus, con su etiqueta MEDIDO/ILUSTRATIVO y su limitación declarada.
0. Cómo leer estos escenarios (y por qué están construidos así)
Un comité de inversión hostil hará dos preguntas antes que ninguna otra: (1) ¿y si la capacidad agéntica se estanca? y (2) ¿y si la regulación obliga a poner un humano en el lazo? Un documento de escenarios que solo dibuja el mundo optimista no sobrevive a esa sala. Por eso aquí se desarrollan cuatro escenarios con el mismo peso analítico, y los dos adversos —el plateau técnico y la reacción institucional— se tratan a fondo, no de pasada.
Los escenarios cruzan dos ejes y se restringen con un tercero, cerrando con una cuarta derivada:
- Eje 1 — trayectoria de capacidad agéntica (vertical, técnico): PLATEAU vs ACELERACIÓN.
- Eje 2 — reacción institucional/regulatoria (horizontal, social): LAISSEZ-FAIRE vs SUPERVISIÓN HUMANA OBLIGATORIA.
- Eje 3 — validez del instrumento de medida externo (restricción transversal INVIOLABLE): COLAPSA vs SE CONSOLIDA. No es un cuadrante: atraviesa los cuatro escenarios e impone que la medida primaria sea interna (residuo de verificación medido en el loop, contra el gold-standard del cliente), nunca scoring externo de exposición.
- Eje 4 — estructura del mercado (derivada de cierre, serendipia): VERIFICACIÓN COMO COMMODITY DE PLATAFORMA vs ACTIVO PROPIETARIO DEL CLIENTE. Cada escenario lo resuelve al final.
| Laissez-faire | Supervisión obligatoria | |
|---|---|---|
| Plateau | A — la foto externa envejece, gana la medida interna en continuo | D — doble refuerzo del Plan B: residuo como métrica institucional |
| Aceleración | B — el autonomy gap se estrecha en software, pero el residuo de proceso persiste | C — el residuo de verificación se vuelve cumplimiento auditable (tailwind) |
Los dos guardarraíles que prohíben la lectura ingenua, presentes en el texto de cada escenario:
- EIG — el anti-apocalipsis (D3-015, MEDIDO). Entre 2022 e inicio de 2025, el quintil más expuesto a IA (AIOE Q5) vio subir el paro solo +0,30 p.p., mientras el menos expuesto (Q1) subió +0,94 p.p. — patrón opuesto al esperado. La exposición a IA no predice el desempleo (confundida por mayor nivel educativo/salarial). Cualquier salto “expuesto → desplazado” queda refutado por el dato. Por eso ningún escenario habla de roles que caen.
- NBER kappa = 0,36 — la regla circular (D3-016, MEDIDO). El scoring de exposición ocupacional diverge 3,6× entre tres modelos frontera sobre tareas idénticas; acuerdo entre anotadores tan bajo como 57%; en diff-in-differences los coeficientes individuales varían 2,4× y las estimaciones a nivel condado cambian de signo según el anotador. La regla está hecha de lo mismo que mide. Por eso la medida no puede ser LLM-scoring de O*NET (heredaría el mismo kappa 0,36): tiene que ser propietaria, interna y basada en ejecución.
El instrumento (común a los cuatro escenarios). El Execution-to-Capability Loop no mide “qué rol desaparece”; mide el residuo de verificación agregado = porcentaje de outputs que, a nivel de proceso, aún requieren firma, override o accountability humana. (1) Una misión sobre la herramienta real del cliente produce un Verified Output, evaluado contra un criterio público derivado del gold-standard auditado del cliente —nunca de la taxonomía de la plataforma—, lo que rompe el juez-LLM circular del 0,36 (kappa NBER, D3-016). (2) V1 afirma Verified Execution (corrió end-to-end), no capability. (3) Con outputs repetidos, autonomía creciente y al menos una re-ejecución sin andamiaje y con demora (Transfer Probe), la evidencia se acumula en Weighted Verified Outputs. (4) El Verified Capability Graph —nodos con barras de error, nunca binario— es visión de 2º orden 2027+, no claim de V1. No afirmamos saber qué roles desaparecerán; construimos el instrumento que deja a la empresa descubrir, con sus propios datos de trabajo y su propia rúbrica, dónde la IA puede ejecutar y dónde el trabajo aún requiere verificación humana — y solo afirmamos una capability cuando la evidencia, con su incertidumbre, lo muestra. El moat se construye, no se reclama.
La señal de plataforma (Satya Nadella, 14-jun-2026): “a frontier without an ecosystem is not stable… the future of the firm in an AI-driven economy… this transition is different than any previous platform shift.” Es la materia del Eje 4 y, como se verá, se lee de forma distinta en cada cuadrante: en los de aceleración empuja la verificación hacia commodity de plataforma (riesgo de absorción del activo); en los de plateau/regulación, lo que “no es estable” es precisamente la frontera técnica, y el activo propietario del cliente gana defensibilidad por contraste.
Escenario A — Plateau + Laissez-faire
”La foto externa envejece; gana la medida interna en continuo”
Eje 1 = plateau · Eje 2 = laissez-faire.
Trayectoria técnica [HIPÓTESIS DESCRIPTIVA]. El mecanismo de Toby Ord (D3-009, MEDIDO como reinterpretación del horizonte METR; el propio autor declara desconocida la generalización a otras suites → ilustrativo/contraevidencia, no medida universal) describe el rendimiento en tareas largas como una tasa de fallo constante por minuto-humano → la tasa de éxito decae exponencialmente con la longitud de la tarea, y cada agente tiene su half-life. En este escenario ese mecanismo domina: el doubling de horizonte que METR midió en software (TH1.1: ~131 días post-2023 (D3-008); horizonte al 50% por modelo medido en el harness Vivaria→Inspect — Opus 4.5 = 320 min, GPT-5 = 214 min (D3-008), con Claude 3.7 Sonnet en ~50 min en la medición previa (D3-007)) satura antes de lo que la extrapolación lineal sugería al pasar de tareas de minutos a tareas de horas/días. Y aun en su pico, esa cifra es software: METR declara “datasets designed to capture skills required for research or software engineering” → benchmark-to-workplace gap, validez externa limitada. Descontado ese gap, la frontera medida fuera del software no se mueve apreciablemente en 2027-2030. [HIPÓTESIS DESCRIPTIVA].
Residuo de verificación a nivel agregado de proceso. Aquí la tesis ingenua —“medimos desde fuera el mapa de reemplazabilidad por rol”— muere: un mapa estático medido hoy queda como foto de un momento que envejece mal. El residuo agregado de proceso se estabiliza en una meseta: el porcentaje de outputs que a nivel de proceso aún requieren firma/override/accountability humana deja de caer, porque la capacidad que lo reduciría no llega. Guardarraíl EIG en el texto: este plateau no se traduce en menos paro para los procesos más expuestos —el dato es el opuesto (+0,30 vs +0,94 p.p., D3-015)—, así que el escenario describe estabilización de residuo, jamás un balance de puestos. Guardarraíl NBER en el texto: un observador externo que intentara “medir el plateau” con LLM-scoring de exposición obtendría lecturas que divergen 3,6× según el modelo (kappa 0,36, D3-016); la única lectura fiable del plateau es interna, la que el loop produce sobre el gold-standard del cliente.
Evolución del Execution-to-Capability Loop. El plateau es información, no amenaza, para un instrumento que mide en continuo: si la curva no sube, el loop lo detecta como un residuo agregado que no decrece, proceso a proceso, y reorienta la inversión de enablement hacia donde el criterio humano sigue siendo el cuello de botella. Los Weighted Verified Outputs dejan de ganar peso por nuevas re-ejecuciones autónomas exitosas (el Transfer Probe falla más en este mundo: la re-ejecución sin andamiaje con demora cae justo donde Ord predice). El Verified Capability Graph muestra nodos cuyas barras de error dejan de estrecharse — y eso, dicho con honestidad, es señal de mercado de primer orden.
Eje 4 — estructura de mercado. Si la frontera técnica se estanca, “a frontier without an ecosystem is not stable” se lee al revés de lo que un incumbente querría: no hay frontera que federar, los labs no pueden ofrecer verificación como commodity sobre una capacidad que no avanza. El activo propietario del cliente —su gold-standard auditado, su grafo exportable— gana defensibilidad por contraste: es lo único que sigue produciendo señal cuando la curva no se mueve. [HIPÓTESIS DESCRIPTIVA].
Lectura para la firma. En A, el producto que mide el residuo en tiempo real no necesita que la curva siga subiendo. La tesis estática no sobrevive; el Plan B (residuo en loop) sí.
Escenario B — Aceleración + Laissez-faire
”El autonomy gap se estrecha en software, pero el residuo de proceso persiste”
Eje 1 = aceleración · Eje 2 = laissez-faire.
Trayectoria técnica [HIPÓTESIS DESCRIPTIVA]. Domina la lectura METR: el doubling post-2023 de ~131 días (D3-008, MEDIDO; TH1.1, 14 modelos / 228 tareas, Vivaria→Inspect) se sostiene en software, y el autonomy gap —la brecha agente-vs-humano en tareas reales— se estrecha en ese dominio (cifras MEDIDAS del corpus: GAIA 92% humano vs 15% GPT-4+plugins, 466 preguntas, D2-010; WebArena humano 78,24% vs 14,41% mejor agente GPT-4, D2-007; GDPval “approaching industry experts” en deliverable quality pero en tareas one-shot, 44 ocupaciones / 1.320 gold tasks [dato de cuerpo], D3-010). El benchmark freelance human-centric UpBench (D3-011, MEDIDO) ancla la medida a mercado laboral real, pero el corpus no carga una cifra de pass-rate por modelo: el autonomy gap se estrecha en software, no se cuantifica aquí un porcentaje de viabilidad operativa [HIPÓTESIS DESCRIPTIVA]. El descuento del benchmark-to-workplace gap es lo que separa este escenario del hype: la aceleración medida es de software/research; su transferencia a procesos reales fuera de ese dominio es justamente lo que el corpus declara como no validado.
Residuo de verificación a nivel agregado de proceso. El error de lectura caro en B es asumir que aceleración en benchmark = residuo de proceso que se evapora. No ocurre así: el autonomy gap se cierra en el banco de pruebas, pero a nivel de proceso el residuo agregado persiste, porque el one-shot del benchmark no es el flujo completo con accountability del mundo real (GDPval lo acota explícitamente). El residuo cae más despacio que la curva técnica — y la distancia entre ambas curvas es información de negocio. Guardarraíl EIG en el texto: incluso con la curva subiendo, el dato 2022-2025 dice que los procesos más expuestos no vieron más paro (+0,30 vs +0,94 p.p., D3-015); por tanto este escenario describe dónde la IA puede ejecutar end-to-end, nunca qué rol se sustituye. Guardarraíl NBER en el texto: el hype de B es exactamente el terreno donde el scoring externo miente más —3,6× de divergencia, kappa 0,36 (D3-016)—; la única manera de distinguir señal de hype es el Transfer Probe sobre el gold-standard interno del cliente, no el ranking de exposición de un tercero.
Evolución del Execution-to-Capability Loop. En B el loop es un filtro de hype. Los Verified Outputs aumentan en volumen y autonomía; el Transfer Probe (re-ejecución sin andamiaje + demora) es el que decide si un Verified Execution se ha ganado el peso para entrar en Weighted Verified Outputs: en este mundo de aceleración, distingue la capability real de la demo asistida que no sobrevive sin andamiaje. El Verified Capability Graph ve estrecharse las barras de error en los nodos de procesos software-adyacentes, y mantenerse anchas en los nodos de proceso donde el gap workplace sigue abierto.
Eje 4 — estructura de mercado. Aquí “this transition is different than any previous platform shift” muerde de verdad: con la frontera avanzando y un ecosistema (SSO + agentes M365/Salesforce/IDE + federación de skills taxonomy en el HRIS) consolidándose, la verificación corre el riesgo de convertirse en commodity de plataforma que labs e incumbentes federan. La defensa de Momentum no es reclamar el grafo —copiable— sino poseer el criterio: el gold-standard auditado del cliente, exportable y propiedad del cliente, es lo que ningún ecosistema puede federar sin el dato de trabajo del propio cliente. [HIPÓTESIS DESCRIPTIVA].
Lectura para la firma. B es el único escenario donde la presión competitiva es real (absorción por el ecosistema). El residuo de proceso y el criterio propietario son el activo que el commodity de plataforma no replica.
Escenario C — Aceleración + Supervisión obligatoria
”El residuo de verificación se vuelve cumplimiento auditable (tailwind)”
Eje 1 = aceleración · Eje 2 = supervisión obligatoria.
Trayectoria técnica [HIPÓTESIS DESCRIPTIVA]. Igual que en B —doubling ~131d en software (D3-008), autonomy gap estrechándose en ese dominio, mismo descuento del benchmark-to-workplace gap—, pero con una capa institucional encima: works councils, EU AI Act y presión sindical imponen supervisión humana obligatoria sobre la decisión automatizada. La distinción EDPS in-the-loop vs on-the-loop (D3-013, N-A: aporta la categoría regulatoria, no una cifra) deja de ser doctrina y se vuelve requisito; el precedente médico de las EPAs (D3-012, MEDIDO como estándar ordinal de 5 niveles de entrustment/supervisión) demuestra que un sector regulado ya opera con escalas de “cuánta supervisión humana se exige”.
Residuo de verificación a nivel agregado de proceso. Este es el escenario donde el residuo cambia de naturaleza: pasa de métrica de eficiencia a métrica de cumplimiento auditable. El ”% de outputs que a nivel de proceso requieren firma/override/accountability” deja de ser un nice-to-have analítico y se convierte en la evidencia que el regulador y el works council exigen ver. Guardarraíl EIG en el texto: la supervisión obligatoria refuerza, no contradice, el anti-apocalipsis — si los más expuestos no vieron más paro, la regulación protege procesos, no “salva roles condenados”; el residuo se mide como cumplimiento de proceso, jamás como ranking de personas. Guardarraíl NBER en el texto: un régimen de cumplimiento que se apoyara en scoring externo de exposición sería legalmente frágil (kappa 0,36, D3-016 → la misma tarea cambia de signo según el anotador, base impugnable); el cumplimiento auditable exige una medida interna, reproducible y basada en ejecución sobre el gold-standard del cliente, con bias audit y derecho de impugnación incorporados.
Evolución del Execution-to-Capability Loop. El loop capta un tailwind regulatorio: cada Verified Output con su criterio público y su trazabilidad es, simultáneamente, prueba de cumplimiento de la supervisión exigida. El Transfer Probe adquiere doble función —psicométrica (¿es capability real?) y de cumplimiento (¿la autonomía concedida está justificada por evidencia?)—. El Verified Capability Graph se convierte en el registro auditable, agregado, “no es scoring de rendimiento ni base para decisiones de RRHH”, con grafo exportable y propiedad del cliente. La aceleración técnica empuja la autonomía; la regulación exige documentar el residuo; el loop hace ambas cosas con el mismo dato.
Eje 4 — estructura de mercado. En C, “the future of the firm in an AI-driven economy” pasa por el cumplimiento. El ecosistema puede federar capacidad agéntica, pero no puede federar la accountability del adopter: la firma que despliega la IA es responsable ante el regulador, y necesita un activo propietario y auditable que demuestre su residuo. La verificación-como-commodity de plataforma no satisface al works council; el activo propietario del cliente sí. [HIPÓTESIS DESCRIPTIVA].
Lectura para la firma. C es donde Momentum más “vende” en términos de defensibilidad, y es contraintuitivo: no es el mundo más tecnológicamente optimista quien más necesita el instrumento, sino el más regulado.
Escenario D — Plateau + Supervisión obligatoria
”Doble refuerzo del Plan B: el residuo como métrica institucional”
Eje 1 = plateau · Eje 2 = supervisión obligatoria.
Trayectoria técnica [HIPÓTESIS DESCRIPTIVA]. El mecanismo de Ord (D3-009) domina como en A —la frontera técnica se estanca, el half-life limita las tareas largas, el doubling METR ~131d (D3-008) no transfiere fuera del software por el benchmark-to-workplace gap— y además la capa institucional de C está activa: supervisión humana obligatoria (EDPS in/on-the-loop D3-013; EPAs ordinal D3-012). Es el cuadrante doblemente adverso a la tesis ingenua, y por eso el más exigente como prueba.
Residuo de verificación a nivel agregado de proceso. La tesis estática se vuelve doblemente irrelevante: el mapa medido desde fuera envejece (plateau) y, aunque no envejeciera, lo que importa por ley deja de ser “reemplazabilidad máxima” y pasa a ser “cuánto humano hay en el lazo” (regulación). El residuo agregado de proceso se estabiliza alto y se institucionaliza: no decrece (no llega la capacidad que lo reduciría) y, simultáneamente, se vuelve obligatorio medirlo y demostrarlo. Guardarraíl EIG en el texto: en el mundo doblemente adverso, la tentación apocalíptica es máxima y el dato la corta de raíz —los más expuestos no vieron más paro (+0,30 vs +0,94 p.p., D3-015)—, así que el escenario describe estabilización institucional de residuo, nunca destrucción de empleo. Guardarraíl NBER en el texto: con plateau y régimen de cumplimiento, apoyarse en scoring externo (kappa 0,36, D3-016) sería el peor error posible —medida circular sobre la que se construirían obligaciones legales impugnables—; la medida interna, reproducible, basada en ejecución sobre el gold-standard del cliente, es la única defendible.
Evolución del Execution-to-Capability Loop. D es donde el Plan B recibe doble refuerzo: la telemetría interna sigue produciendo señal cuando la curva no sube (refuerzo A) y esa señal es exactamente la métrica que el regulador exige (refuerzo C). Los Weighted Verified Outputs no crecen por nuevas hazañas de autonomía (el Transfer Probe falla más, como en A), pero el residuo estabilizado es el entregable de cumplimiento. El Verified Capability Graph se vuelve el registro institucional de “dónde el proceso aún requiere verificación humana” —agregado, exportable, propiedad del cliente, con bias audit y derecho de impugnación—, y su valor no depende de que la frontera avance.
Eje 4 — estructura de mercado. En D, “a frontier without an ecosystem is not stable” alcanza su lectura más fuerte para Momentum: si la frontera técnica está estancada y regulada, el ecosistema de plataforma no tiene una frontera estable que federar como commodity; lo que queda es el activo propietario y auditable del cliente. El plateau más la regulación es, paradójicamente, el cuadrante donde el moat construido (no reclamado) es más difícil de absorber. [HIPÓTESIS DESCRIPTIVA].
Lectura para la firma. D combina los dos peores supuestos para cualquier tesis de “IA que reemplaza” — y es el escenario donde el instrumento de Momentum es más necesario y más defendible. Que la tesis sobreviva a A y a D, no solo a B y C, es la prueba lógica de que el pivote de primer a segundo orden (del mapa al instrumento) es correcto, no cosmético.
8. Síntesis transversal
| Residuo agregado de proceso | Loop / Transfer Probe | Eje 4 (mercado) | Veredicto para la firma | |
|---|---|---|---|---|
| A Plateau+Laissez | Se estabiliza en meseta | Plateau = información; Transfer Probe falla más | Activo propietario gana por contraste | Tesis estática muere; Plan B sobrevive |
| B Acel+Laissez | Persiste; cae más despacio que la curva | Loop = filtro de hype; Transfer Probe separa señal | Riesgo de commodity; criterio propietario defiende | Única presión competitiva real |
| C Acel+Supervisión | Cambia de naturaleza → cumplimiento auditable | Transfer Probe doble función (psicom. + compliance) | Accountability no federable | Máxima defensibilidad (contraintuitivo) |
| D Plateau+Supervisión | Se estabiliza alto y se institucionaliza | Doble refuerzo del Plan B | Frontera no estable → moat difícil de absorber | Instrumento más necesario y defendible |
Lo que estos cuatro escenarios comparten —y es la tesis del documento—: en ninguno de ellos sobrevive la afirmación “medimos desde fuera qué rol se reemplaza”. En los cuatro sobrevive el instrumento que mide, en continuo y a nivel agregado, el residuo de verificación de proceso sobre el gold-standard del cliente. El plateau lo convierte en señal; la aceleración lo convierte en filtro de hype; la regulación lo convierte en cumplimiento. Los guardarraíles EIG (la exposición no predice el paro) y NBER (la regla es circular) no son notas defensivas: son la razón estructural por la que la medida tiene que ser interna, propietaria y agregada — y por la que no afirmamos saber qué roles desaparecerán.
Etiquetado. Toda proyección 2027-2030 de este documento es [HIPÓTESIS DESCRIPTIVA], descriptiva y no causal. Las cifras MEDIDAS llevan su fila del corpus y su limitación declarada: METR/TH1.1 (D3-008), Ord half-life (D3-009), EIG (D3-015), NBER (D3-016), GDPval (D3-010), EPAs (D3-012), EDPS (D3-013), y los autonomy-gap del barrido W3 GAIA (D2-010) y WebArena (D2-007). UpBench (D3-011) entra como marco, sin cifra de pass-rate por modelo en el corpus. No se ha derivado ningún ROI ni inventado ninguna cifra (regla Telar +
w4-hii). Ninguna afirmación infiere desplazamiento de rol.