W7 · Outline del paper de visión — Momentum Skills

OUTLINE, no el paper. Esqueleto investor-grade con la cadena argumental, la evidencia trazable (id de fila/etiqueta) y la frontera claim↔hipótesis de cada sección. La prosa se redacta en W7-write a partir de este esqueleto.

Grounding que MANDA: thesis-canon-v2.md + panel-synthesis-m04.md §49 (directiva M-04) + corpus (Sheet 18xMnjk…, 71 filas D1D5/D2/D3/D6). Voz McKinsey/Bain/BCG, es-ES en prosa, inglés en términos técnicos. SKU D-spec del COMBO W7 · 2026-06-17.

Lector nº1 = CHRO/CLO/CAIO (comprador enterprise). Lector nº2 = VC haciendo DD. Pirámide invertida: wedge tocable al H1; teoría (Verification Economy / Verified Capability Layer / Verified Capability Graph) SOLO al cuerpo, nunca al headline. Lead vocab = Verified Output (ancla) + Transfer Probe (validez).

Regla de oro de cifras: cada número lleva su id de fila + etiqueta MEDIDO / ILUSTRATIVO / N-A, o se marca [HIPÓTESIS / a validar con telemetría propia]. El ROI propio de Momentum NO existe en corpus → es un slot etiquetado, jamás un número fabricado (W5 cayó 2× por inventar cifras).

H1 (titular del paper — el wedge, no la categoría)

“Tu primer output verificado sobre tu herramienta real. No vídeos.” (Verified Execution — construible HOY. La categoría —Verification Economy, Verified Capability Layer— vive en el cuerpo, §2.)

Subtítulo / dek con el ROI atribuible en UNA frase:

“Momentum convierte la ejecución asistida en Verified Outputs auditables y, sobre el stack real de tu organización, estima la reducción de time-to-competence [en un X% — a validar con telemetría propia de Momentum] — en un mercado donde el 39% de las competencias actuales se transformará u obsolescerá de aquí a 2030 (WEF, Future of Jobs 2025, D1D5-001, MEDIDO).”

El número del ROI propio = slot etiquetado [a validar con telemetría propia]. NO se inventa. Es la honestidad VC-grade: un placeholder etiquetado pasa la DD; una cifra refutable la suspende.
La cifra del titular que SÍ es trazable (D1D5-001, MEDIDO) dimensiona el dolor del comprador, no el ROI del producto.

§1 · El wedge y su ROI (sección i) — enterprise-first, lo tocable arriba

Qué argumenta: el comprador (CHRO/CLO/CAIO) no necesita otra plataforma de vídeos; necesita evidencia auditable de que su gente ejecuta sobre las herramientas reales. El wedge construible hoy es el primer Verified Output.

Estructura (pirámide invertida):

El gancho (Commander Intent): “el titular no es el colapso del lead-time, es lo que el colapso te permite medir” (00-context-brief.md §a). Lo que se mide es el Verified Output.
El wedge en una frase: misión sobre la herramienta real → artefacto que corre end-to-end → Verified Output evaluado contra un criterio público que el cliente posee. No vídeos, no certificados.
El ROI atribuible — estructura de dos niveles (ver journal D2):
- NIVEL 1 (claim ROI propio = SLOT): “reducción de time-to-competence [en X%] / [Y% de tareas de proceso que pasan a ejecución autónoma verificada] / [coste de reskilling evitado por empleado = Z] — a validar con telemetría propia de Momentum”. Ninguno de estos tres números existe en el corpus a nivel proceso/firma → slot etiquetado.
- NIVEL 2 (cifras MEDIDAS que enmarcan el DOLOR, NO el ROI):
  - 39% de competencias transformadas/obsoletas 2025-30 — WEF (D1D5-001, MEDIDO, demanda declarada).
  - 70% de las competencias de la mayoría de empleos cambian para 2030 — LinkedIn Economic Graph (D1D5-002, MEDIDO, comportamiento; triangula con WEF por otro método).
  - 40% de directivos prevé reentrenar plantilla en 3 años — IBM IBV (D1D5-003, MEDIDO, intención corporativa).
  - half-life de skills técnicas ~2,5 años — HBR vía Deloitte (D1D5-004, ILUSTRATIVO: gancho retórico, no telemetría propia).
- Prueba del colapso del lead-time (lead-time compression): RCT OSCE 69,79 (práctica deliberada) vs 51,38 (clase magistral), p≈2e-6 — Kanoksin 2025 (D6-002, MEDIDO). La práctica sobre la tarea comprime la curva de competencia de forma medible.
Cierre de §1: el comprador firma por el Verified Output auditable hoy; la categoría (§2) explica por qué eso es defendible mañana.

Frontera claim↔hipótesis: todo lo de NIVEL 2 es MEDIDO/ILUSTRATIVO con id; el ROI de NIVEL 1 es slot [a validar]. Cero invención.

Vocabulario que aparece aquí: Verified Output (ancla), Verified Execution (claim honesto de V1). NO aparece “Verification Economy” ni “Capability Graph”.

§2 · Partición temporal: V1 Verified Execution vs end-state 2027 (sección ii) — aquí baja la teoría

Qué argumenta: honestidad temporal investor-grade. Lo que se construye HOY (Verified Execution, 2 mecanismos núcleo) es distinto del end-state 2027 (Verified Capability Graph + residuo). No se vende el futuro como presente.

Estructura:

V1 = Verified EXECUTION (HOY) — 2 mecanismos núcleo:
- Mecanismo 1 · Verified Output: misión sobre herramienta real → artefacto producido y corriendo end-to-end → evaluado contra el gold-standard auditado del cliente (no la taxonomía de la plataforma). Afirma que corrió, no capability.
- Mecanismo 2 · Transfer Probe: re-ejecución sin andamiaje + demora → primera señal de que la capacidad no es del scaffold.
- Construct collapse fix (thesis-canon-v2 §fix): V1 mide EXECUTION; “capability” es claim de 2º orden, acumulado, con barras de error. Se nombra el límite explícitamente.
El puente · Execution-to-Capability Loop (4 pasos, w5 línea 30): misión → Verified Output contra gold-standard del cliente → Verified Execution V1 → Weighted Verified Outputs vía Transfer Probe → Verified Capability Graph (2º orden, 2027+).
End-state 2027 = Verified Capability Graph + residuo de verificación:
- Nodos = niveles de evidencia con barras de error, nunca binario. Dependiente de verificación externa + acumulación de Weighted Verified Outputs.
- Aquí —y solo aquí, en el cuerpo— se nombran “Verification Economy” y “Verified Capability Layer” como tesis de fondo de 2º orden.
Horizontes técnicos que datan el loop [HIPÓTESIS DESCRIPTIVA, descontando benchmark-to-workplace gap]:
- METR: doubling ~131 días post-2023; horizonte al 50% Opus 4.5 = 320 min, GPT-5 = 214 min (D3-008, MEDIDO — pero software: validez externa limitada, descontar gap).
- Contraevidencia del plateau: half-life de agente bajo hazard constante (Ord, D3-009, MEDIDO como reinterpretación; el autor declara desconocida la generalización → la extrapolación lineal es frágil).

Frontera claim↔hipótesis: V1 = construible hoy (claim). End-state 2027 + horizontes = [HIPÓTESIS DESCRIPTIVA], descriptiva no causal. Ninguna inferencia rol→desplazamiento.

§3 · Validez psicométrica con Transfer Probe (sección iii) — el corazón epistémico

Qué argumenta: por qué un Verified Output repetido estima capacidad (con incertidumbre) y no es marketing. Responde al construct collapse (Product truth = 4, el score más bajo del panel).

Estructura:

Definición operativa (juez Wittgenstein): capability = hipótesis marcada hasta re-producción en ≥N contextos sin asistencia equivalente. Una observación asistida NO autoriza el término.
Transfer Probe (acuñación propia): re-ejecución sin scaffold + demora. Es lo que convierte “capability” de adjetivo de marketing en medición. Sostén: McKay 2024 (D6-001, MEDIDO) — learning g=0,73 pero transfer conductual g=0,34 (n.s.); el efecto inmediato g=0,86 se desploma a g=0,40 en diferido → formar ≠ transferir → el producto mide output transferido, no formación.
Firewall de verificación (rompe el LLM-judge circular): los criterios derivan del gold-standard auditado del CLIENTE, nunca de la taxonomía de la plataforma. Si se usara LLM-scoring de la propia plataforma, heredaría el kappa 0,36 (NBER, D3-016, MEDIDO — divergencia 3,6× entre modelos sobre tareas idénticas). El criterio público del cliente es el único firewall.
La verificación por rúbrica es psicométricamente defendible y escalable: Yavuz 2024 (D6-013, MEDIDO) — ICC ChatGPT afinado = 0,972 vs humanos. DEMONSTRATES-not-PASSES sostenido por OSCE/práctica deliberada (D6-002, MEDIDO).
Nodos con barras de error: capability = estimación acumulada con incertidumbre (thesis-canon-v2). Toda afirmación de capacidad lleva su intervalo; nunca binaria.

Frontera claim↔hipótesis: D6-001/D6-013/D6-002 son MEDIDOS con id. El umbral N concreto del Transfer Probe (≥N contextos) = [HIPÓTESIS / a calibrar con telemetría propia].

Vocabulario líder de esta sección: Transfer Probe + Verified Output. Weighted Verified Outputs aparece como agregación.

§4 · Governance-by-design (sección iv) — nivel AGREGADO inviolable, el riesgo legal más alto

Qué argumenta: la medida es defendible porque es agregada y propietaria. Responde al Ethical/comms risk = 3 (el riesgo más alto del panel) y blinda contra EU AI Act + GDPR.

Estructura:

Nivel AGREGADO by-design (inviolable): toda salida a nivel proceso / rol / equipo, NUNCA individual. Medir al empleado individual sobre un constructo invalidado = HIGH-RISK EU AI Act Anexo III(4) + GDPR Art.22 / precedente Schufa.
Texto literal del producto (contractual): “no es scoring de rendimiento ni base para decisiones de RRHH”.
Razón dura de prohibir el uso individual (las citas que lo justifican):
- NBER kappa 0,36 (D3-016, MEDIDO): la misma tarea cambia de signo según el anotador → base impugnable; un régimen apoyado en scoring externo sería legalmente frágil.
- EIG +0,30 vs +0,94 p.p. (D3-015, MEDIDO): el quintil más expuesto a IA vio menos subida de paro que el menos expuesto — patrón opuesto. La exposición no predice desplazamiento. Por eso ninguna formulación infiere “rol expuesto → rol desplazado”.
- Exposición ≠ resultado (ILO, D3-014, N-A): los indicadores revelan susceptibilidad técnica, no resultados laborales.
MATAR la formulación prohibida: se elimina “where humans still need to judge/verify” de toda la comunicación. Verbos observacionales (“the process still requires human verification”), nunca normativos (“humans must judge”). Lo que se reporta es residuo de verificación observado a nivel de proceso, no un mandato sobre personas.
Cumplimiento auditable (tailwind regulatorio): in-the-loop vs on-the-loop (EDPS, D3-013, N-A: categoría regulatoria) + precedente médico EPAs 5 niveles ordinales (D3-012, MEDIDO, estándar ordinal). El residuo de verificación agregado se convierte en evidencia de cumplimiento que el regulador y el works council exigen ver.
Garantías incorporadas: bias audit · derecho de impugnación · grafo exportable / propiedad del cliente.

Frontera claim↔hipótesis: todas las citas de esta sección son MEDIDO/N-A con id. El diseño agregado es un compromiso de producto (claim), no una proyección.

Vocabulario: “AI adoption you can audit”. NO “mapa de reemplazabilidad”, NO residuo a nivel individual.

§5 · Modelo de integración + cierre de la circularidad B2C→B2B (sección v) — el moat real

Qué argumenta: sin integración nativa la herramienta es huérfana (sub-5% MAU, objeción 6); y el dato org-visible exige misiones sobre el stack del empleador → eso ya es venta B2B (objeción 7). El moat es la telemetría interna construida, no reclamada.

Estructura:

Integración (anti-huérfana): SSO/SCIM + agentes nativos sobre M365 / Salesforce / IDE + federación de la skills taxonomy con el HRIS. Sin esto, no hay misiones sobre el stack real → no hay Verified Output org-visible.
Sustrato agéntico real (no hipótesis): >10.000 servidores MCP públicos, 97M+ descargas mensuales de SDK (D2-021, MEDIDO — único telemétrico de escala del cluster) + adopción cross-vendor OpenAI/Google (D2-018/019/020, N-A, anuncios sin cifra de capacidad). La capa agente↔herramienta es infraestructura común → habilita la delegación de trabajo, pero por sí sola NO es ventaja propietaria.
Cierre de la circularidad B2C→B2B: el B2C es el wedge de entrada (el profesional obtiene su primer Verified Output); el dato se vuelve org-visible solo cuando las misiones corren sobre el stack del empleador → eso ya es la venta B2B. No es un círculo vicioso: es la rampa.
El moat (defensa contra verificación-como-commodity): señal Satya Nadella (14-jun-2026) “a frontier without an ecosystem is not stable” → riesgo de que la verificación se comoditice como feature de plataforma. Defensa = poseer el criterio: el gold-standard auditado del cliente, exportable y propiedad del cliente. El moat = telemetría interna construida sobre ese criterio (w4 §6), no un activo reclamado ni copiable por el ranking de exposición de un tercero.

Frontera claim↔hipótesis: D2-021 MEDIDO; D2-018/019/020 N-A. El % MAU sin integración (sub-5%) = afirmación del panel (objeción 6), etiquetar como [supuesto de producto].

Vocabulario: moat construido, no reclamado; “AI adoption you can audit”.

Apéndice de gobernanza del outline (para W7-write y el verdict)

Orden de pirámide invertida verificado: H1 = wedge (Verified Execution, hoy) · §1 ROI+dolor · §2 teoría (aquí y solo aquí Verification Economy / Capability Layer / Capability Graph) · §3 validez · §4 governance · §5 integración+moat.
Términos prohibidos en headline (ausentes del H1 y de los títulos de sección): “Verification Economy”, “Verified Capability Layer”, “Verified Capability Graph”. ✅ confinados a §2 cuerpo.
Nivel individual: ausente en todo el outline. Todo agregado proceso/rol/equipo. ✅
Formulación “where humans still need to judge/verify”: MATADA; verbos observacionales. ✅
Cifras: 16 entradas, cada una con id + etiqueta MEDIDO/ILUSTRATIVO/N-A (tabla en journal/m04-W7.md). ROI propio = slot [a validar con telemetría propia]. Cero invención. ✅
Lead vocab: Verified Output + Transfer Probe al frente; Capability Graph al cuerpo. ✅
Pendiente W7-write: redactar prosa McKinsey por sección; calibrar N del Transfer Probe; sustituir el slot de ROI cuando exista telemetría del Execution-to-Capability Loop.