Tu primer output verificado sobre tu herramienta real. No vídeos.
Verified Execution — construible hoy. La categoría que lo sostiene a largo plazo vive en el cuerpo de este documento, §2, no en el titular.
Momentum convierte la ejecución asistida en Verified Outputs auditables y, sobre el stack real de tu organización, estima la reducción de time-to-competence [en un X% — a validar con telemetría propia de Momentum] — en un mercado donde el 39% del conjunto de competencias actuales se transformará u obsolescerá de aquí a 2030 (D1D5-001, MEDIDO).
Este documento se dirige, en primer lugar, a quien firma el presupuesto: el CHRO, el CLO o el CAIO que ya no necesita otra plataforma de vídeos, sino evidencia auditable de que su gente ejecuta sobre las herramientas reales del negocio. En segundo lugar, al inversor que hará due diligence sobre esa promesa. A ambos les debemos la misma disciplina: una sola cifra fabricada suspende la DD; un slot etiquetado y honesto la pasa. Por eso el único número que dimensiona el ROI propio de Momentum aparece, deliberadamente, como un hueco a rellenar con telemetría propia, y la única cifra trazable del titular —el 39% (D1D5-001, MEDIDO)— mide el dolor del comprador, no el rendimiento del producto.
El léxico que ancla todo lo que sigue es deliberadamente estrecho: Verified Output (la unidad), Verified Execution (lo que afirmamos hoy con honestidad) y Transfer Probe (lo que convierte una capacidad de adjetivo de marketing en medición). El resto del vocabulario de categoría se reserva para el cuerpo, donde corresponde.
§1 · El wedge y su ROI
El gancho: lo que el colapso te permite medir
El titular de esta década no es el colapso del lead-time de la competencia. Es lo que ese colapso te permite medir. Cuando la práctica deliberada sobre la tarea real comprime la curva de aprendizaje, deja de tener sentido certificar horas de vídeo consumidas: lo único que importa es el artefacto que el profesional produjo y que corre. A eso lo llamamos un Verified Output, y es la unidad de cuenta de toda la tesis.
La compresión es medible, no retórica. En un ensayo controlado aleatorizado con adultos, la práctica deliberada arrojó un OSCE de 69,79 frente a 51,38 de la clase magistral, con p≈0,000002 (D6-002, MEDIDO). El método que mide ejecución sobre la tarea bate al método que mide exposición a contenido, y lo hace con un margen y una significación que un comité de inversión puede auditar.
El wedge en una frase
El producto construible hoy es esto: una misión sobre la herramienta real de tu organización → un artefacto que se produce y corre end-to-end → un Verified Output evaluado contra un criterio público que el cliente posee. No vídeos, no certificados de asistencia, no taxonomías de la plataforma. El comprador no adopta una nueva categoría; adopta una pieza de evidencia que puede enseñar a su comité, a su works council y a su regulador.
El ROI atribuible, en dos niveles
La honestidad investor-grade exige separar lo que afirmamos de nosotros mismos de lo que está medido en la literatura.
Nivel 1 — el ROI propio de Momentum, declarado como slot. El valor que un comprador querrá ver —reducción de time-to-competence [en un X%], [Y% de tareas de proceso que pasan a ejecución autónoma verificada], [coste de reskilling evitado, agregado por-FTE = Z]— no existe en el corpus a nivel de proceso o de firma. Por tanto se declara como hueco etiquetado [a validar con telemetría propia de Momentum], nunca como número. Estos tres valores se rellenan cuando el Execution-to-Capability Loop haya generado telemetría suficiente sobre el stack del cliente; antes de eso, fabricarlos sería exactamente el error que suspende una DD.
Nivel 2 — las cifras MEDIDAS que enmarcan el dolor, no el ROI. Aquí sí hay evidencia trazable, y converge desde fuentes y métodos distintos:
- El 39% del conjunto de competencias actuales se transformará u obsolescerá entre 2025 y 2030 —frente al 44% en 2023 y el 57% en 2020—, según una encuesta a más de 1.000 empleadores en 55 economías que representan a más de 14 millones de trabajadores (D1D5-001, MEDIDO). Es demanda declarada por el empleador, no proyección de un analista.
- Para 2030, el 70% de las competencias usadas en la mayoría de empleos cambiará, con la IA como catalizador, según datos de comportamiento del LinkedIn Economic Graph (D1D5-002, MEDIDO). Triangula la cifra anterior por un método radicalmente distinto: comportamiento observado, no encuesta de intención.
- El 40% de los directivos prevé reentrenar a su plantilla en los próximos tres años por la adopción de IA, según una encuesta a 3.000 ejecutivos C-level en 28 países más 21.000 trabajadores (D1D5-003, MEDIDO). Es intención corporativa con presupuesto detrás.
- La vida media de algunas competencias técnicas ronda los ~2,5 años (D1D5-004, ILUSTRATIVO). Esta cifra entra como gancho retórico —no es telemetría propia— y se etiqueta como tal para no contaminar el aparato probatorio.
Tres fuentes independientes (encuesta de empleadores, comportamiento de red profesional, intención de directivos) apuntan en la misma dirección y dimensionan un dolor que el comprador ya siente. La cuarta ilustra la urgencia sin pretender medirla.
Cierre de §1
El comprador firma hoy por algo concreto: un Verified Output auditable sobre su propia herramienta, contra su propio criterio. La categoría que explica por qué eso será defendible mañana —y por qué no es una feature copiable— se desarrolla en §2. Pero el orden importa: primero lo tocable, luego la teoría.
§2 · Partición temporal: V1 Verified Execution hoy vs. end-state 2027
La trampa de casi todo producto de IA es vender el futuro como si fuera el presente. Aquí lo separamos explícitamente. Lo que se construye y se cobra hoy es Verified Execution, sostenido por dos mecanismos núcleo. Lo que se proyecta para 2027 y más allá es un end-state de segundo orden, dependiente de verificación externa y de acumulación de evidencia. No son lo mismo, y este documento no los confunde.
V1 = Verified EXECUTION, hoy — dos mecanismos núcleo
Mecanismo 1 · Verified Output. Una misión se ejecuta sobre la herramienta real; el artefacto producido corre end-to-end; y se evalúa contra el gold-standard auditado del cliente —el criterio que el cliente posee y mantiene—, nunca contra la taxonomía de la plataforma. La afirmación que hace V1 es estricta y honesta: el artefacto se produjo y corrió. No afirma capacidad.
Mecanismo 2 · Transfer Probe. Una re-ejecución sin andamiaje y con demora temporal. Es la primera señal de que lo que se observó no es mérito del scaffold sino del profesional. Sin esta segunda observación, una capacidad asistida no autoriza el término “capacidad”.
Corrección del construct collapse (deuda explícita). El panel adversarial marcó este punto como el más débil de la tesis: confundir “ejecución asistida” con “capacidad medible” es un salto no autorizado. Por eso V1 mide execution; “capability” es un claim de segundo orden, acumulado, con barras de error y con su límite nombrado en voz alta. No se vende como sinónimo.
El puente: Execution-to-Capability Loop (cuatro pasos)
El tránsito de una cosa a la otra es un loop explícito, no un acto de fe:
- Misión sobre la herramienta real.
- Verified Output evaluado contra el gold-standard del cliente.
- Verified Execution (el claim honesto de V1).
- Weighted Verified Outputs vía Transfer Probe → que acumulados, y solo entonces, alimentan el Verified Capability Graph (segundo orden, 2027+).
Cada paso es observable y auditable. El cuarto introduce la incertidumbre de forma estructural: la agregación pondera por la evidencia de transferencia, no por el número bruto de outputs.
End-state 2027 = el grafo de evidencia + residuo de verificación
El estado final es el Verified Capability Graph: un grafo cuyos nodos son niveles de evidencia con barras de error, nunca un binario. Depende de verificación externa al sistema y de la acumulación de Weighted Verified Outputs. Es aquí, y solo aquí en el cuerpo del documento, donde nombramos las dos tesis de fondo de segundo orden: la Verification Economy —el desplazamiento del mercado desde la gestión del aprendizaje hacia la verificación de la capacidad— y la Verified Capability Layer como la capa de infraestructura que la materializa. Ninguna de las dos sube al titular: son la explicación de por qué el wedge es defendible, no el producto que se cobra hoy.
Horizontes técnicos que datan el loop [HIPÓTESIS DESCRIPTIVA]
¿Cuándo madura el loop? Lo que sigue es descriptivo, no causal, y se descuenta explícitamente por el benchmark-to-workplace gap: lo medido en software no se traslada uno a uno al trabajo real.
La frontera de horizonte temporal de los agentes se duplica aproximadamente cada 131 días post-2023 (frente a 165 días en la serie anterior); el horizonte al 50% de éxito de Claude Opus 4.5 se sitúa en 320 minutos (IC 170-729) y el de GPT-5 en 214 minutos (IC 117-480), sobre 14 modelos y 228 tareas (D3-008, MEDIDO). Pero esta evidencia es de software: su validez externa al puesto de trabajo es limitada y debe descontarse el gap.
Y existe contraevidencia del plateau que obliga a la prudencia. La reinterpretación de Ord muestra que el horizonte al 50% equivale a la “vida media” de un agente bajo una tasa de fallo constante por minuto-humano —un decaimiento exponencial—, y el propio autor declara incierta la generalización a tareas largas (D3-009, MEDIDO como reinterpretación). Conclusión operativa: la extrapolación lineal de estos horizontes es frágil, y este documento la trata como hipótesis descriptiva, no como hoja de ruta garantizada.
Frontera claim ↔ hipótesis
V1 (Verified Execution, dos mecanismos) es un claim construible hoy. El end-state 2027 y los horizontes técnicos son [HIPÓTESIS DESCRIPTIVA], descriptivos y no causales. En ningún punto se infiere “rol expuesto → rol desplazado”.
§3 · Validez psicométrica con Transfer Probe
Esta es la sección que decide si Momentum es un instrumento de medición o una pieza de marketing. El panel le puso al producto su nota más baja —Product truth = 4— por un único motivo: un output observado una vez, con asistencia, no es una capacidad. Aquí se responde a eso de frente.
Definición operativa (el juez Wittgenstein)
Capacidad = una hipótesis marcada, hasta su re-producción en ≥N contextos sin asistencia equivalente. Una observación asistida no autoriza el término “capacidad”. Esta no es una sutileza semántica: es la regla de tránsito que separa lo que afirmamos de lo que insinuaríamos. El umbral N concreto es [HIPÓTESIS / a calibrar con telemetría propia] —no lo fijamos a ciegas—, pero la forma de la regla es inamovible.
Transfer Probe: de adjetivo a medición
El Transfer Probe —re-ejecución sin scaffold más demora— es exactamente el mecanismo que convierte “capacidad” de adjetivo de marketing en medición. La literatura explica por qué es imprescindible y no opcional.
El meta-análisis de creatividad organizacional de McKay (2024) reporta un efecto global g=0,68 y, sobre el aprendizaje, g=0,73; pero la transferencia conductual cae a g=0,34, no significativa (D6-001, MEDIDO). Más revelador aún: el efecto inmediato g=0,86 se desploma a g=0,40 en medición diferida. La lección es contundente y es la columna vertebral de este producto: formar no es transferir. Un sistema que midiera la observación inmediata asistida estaría midiendo el g=0,86 que se evapora; Momentum mide el output transferido —lo que sobrevive a la demora y a la retirada del andamiaje—, no la formación.
El firewall de verificación (rompe el LLM-judge circular)
La objeción más seria de la DD es: ¿quién verifica al verificador? Si Momentum puntuara con su propia taxonomía o con un LLM-judge de la plataforma, heredaría la divergencia documentada en la literatura. Replicando una misma rúbrica con tres modelos frontera sobre datos idénticos hay una divergencia de 3,6× en la exposición media estimada, con acuerdo tan bajo como el 57% y un Cohen’s kappa = 0,36 —un modelo marca el 14% de tareas como expuestas y otro el 51%—, y los coeficientes diff-in-diff varían 2,4× (D3-016, MEDIDO). Un juez circular heredaría ese kappa 0,36 y la medición sería impugnable.
El firewall es estructural: los criterios derivan del gold-standard auditado del cliente, nunca de la plataforma. El criterio público que el cliente posee es el único anclaje que rompe la circularidad. No se trata de tener un mejor modelo-juez; se trata de no ser el juez.
La verificación por rúbrica es psicométricamente defendible y escalable
Una vez fijado el criterio del cliente, la verificación por rúbrica es a la vez rigurosa y escalable. La fiabilidad inter-evaluador entre un modelo afinado y evaluadores humanos sobre grading por rúbrica alcanza un ICC = 0,972 (default 0,947; Bard 0,919) frente a humanos (D6-013, MEDIDO). Es decir: cuando el criterio es público y estable, la concordancia con el juicio humano es altísima —lo que falla en D3-016 no es la rúbrica, es la ausencia de un criterio anclado—. Y la lógica DEMONSTRATES-not-PASSES se sostiene sobre la evidencia de práctica deliberada ya citada (D6-002, MEDIDO).
Nodos con barras de error
De todo lo anterior se sigue la regla epistémica que gobierna el grafo: una capacidad es una estimación acumulada con incertidumbre, jamás un binario. Toda afirmación de capacidad lleva su intervalo. El léxico líder de esta sección es, por tanto, Transfer Probe y Verified Output; Weighted Verified Outputs aparece como la operación de agregación que pondera por evidencia de transferencia.
Frontera claim ↔ hipótesis
D6-001, D6-013 y D6-002 son MEDIDOS con id. El umbral N del Transfer Probe (≥N contextos) es [HIPÓTESIS / a calibrar con telemetría propia].
§4 · Governance-by-design: el nivel AGREGADO es inviolable
Esta es la sección de mayor riesgo de toda la tesis —el panel le asignó el peor score, Ethical/comms risk = 3— y por eso es también la que más blinda al producto. La afirmación central es contraintuitiva pero firme: la medida es defendible precisamente porque es agregada y propietaria del cliente.
Nivel AGREGADO by-design (inviolable)
Toda salida de Momentum es a nivel de proceso, rol o equipo. Nunca a nivel individual. Medir a un empleado individual sobre un constructo cuya validez es disputada constituiría un caso de alto riesgo bajo el Anexo III(4) del EU AI Act, con exposición adicional bajo el GDPR Art. 22 y el precedente Schufa. No es una preferencia de diseño: es la línea que separa un instrumento auditable de un sistema legalmente frágil. Las métricas se expresan por-FTE agregado, a nivel equipo-rol-proceso, nunca por empleado.
Texto literal del producto (contractual)
El producto declara, de forma contractual y verificable: “no es scoring de rendimiento ni base para decisiones de RRHH”. Esta frase no es marketing defensivo; es el compromiso que un works council y un DPO exigen ver por escrito antes de aprobar el despliegue.
La razón dura de prohibir el uso individual
La prohibición no se sostiene sobre prudencia, sino sobre evidencia:
- El kappa 0,36 (D3-016, MEDIDO): la misma tarea cambia de signo según el anotador-modelo, con divergencia de 3,6× entre frontera. Una decisión individual apoyada en un scoring externo de este tipo sería impugnable por construcción.
- El patrón opuesto de exposición (D3-015, MEDIDO): probando cinco medidas de exposición contra microdatos de empleo, no hay correlación exposición→paro; entre 2022 y comienzos de 2025, el quintil más expuesto a IA vio subir su paro 0,30 p.p., frente a 0,94 p.p. del quintil menos expuesto —un patrón exactamente opuesto al que predeciría la narrativa del desplazamiento—. La exposición no predice desplazamiento. Por eso ninguna formulación de Momentum infiere “rol expuesto → rol desplazado”.
- Exposición ≠ resultado (D3-014, N-A): los indicadores de exposición revelan susceptibilidad técnica, no resultados laborales, y deben tratarse como señales de alerta temprana, no como predicciones de pérdida de empleo.
Matar la formulación prohibida
Se elimina de toda la comunicación la frase “where humans still need to judge/verify”. El lenguaje del producto usa verbos observacionales —“el proceso aún requiere verificación humana”— y nunca verbos normativos —“los humanos deben juzgar”—. Lo que Momentum reporta es un residuo de verificación observado a nivel de proceso, no un mandato sobre personas. La diferencia entre describir lo que se observa y prescribir lo que la gente debe hacer es, aquí, la diferencia entre un instrumento de cumplimiento y un sistema de scoring laboral.
Cumplimiento auditable como tailwind regulatorio
El marco regulatorio, lejos de ser un freno, es un viento de cola para un diseño agregado y auditable. La distinción entre human-in-the-loop (rol activo) y human-on-the-loop (monitorización con capacidad de intervenir) está formalizada por el regulador europeo (D3-013, N-A), y existe un precedente médico maduro de escalas ordinales de supervisión —cinco niveles, de “observar” a “supervisar a novicios”— que demuestra que medir el grado de autonomía con que se ejecuta una tarea es una práctica estándar y defendible (D3-012, MEDIDO). El residuo de verificación agregado se convierte así en la evidencia de cumplimiento que el regulador y el works council exigen ver —no en un mapa de personas.
Garantías incorporadas
El diseño incluye, de fábrica: bias audit, derecho de impugnación y un grafo exportable y propiedad del cliente. La portabilidad del dato no es una concesión: es parte de la defensa legal y, como se verá en §5, parte del moat.
Frontera claim ↔ hipótesis
Todas las citas de esta sección son MEDIDO o N-A con id. El diseño agregado es un compromiso de producto (claim), no una proyección. El vocabulario es “AI adoption you can audit”; quedan prohibidos “mapa de reemplazabilidad” y cualquier residuo a nivel individual.
§5 · Modelo de integración y cierre de la circularidad B2C→B2B
La última pregunta de un inversor serio es: ¿dónde está el moat? Y la objeción gemela del CAIO es: ¿no será esto una herramienta huérfana que nadie usa? Esta sección responde a ambas mostrando que la integración no es un detalle de implementación, sino la condición de existencia del dato que da valor —y que ese dato construido, no reclamado, es la defensa.
Integración: la condición anti-huérfana
Sin integración nativa, Momentum no tiene misiones sobre el stack real y, por tanto, no genera Verified Outputs org-visibles. La integración requerida es concreta: SSO/SCIM para identidad y aprovisionamiento; agentes nativos sobre M365, Salesforce y el IDE; y federación de la skills taxonomy con el HRIS. El supuesto de producto del panel —que sin esto la adopción cae por debajo del 5% de MAU— se etiqueta como [supuesto de producto]: no es una cifra medida, es la objeción del comprador que justifica la inversión en integración.
El sustrato agéntico ya existe (no es hipótesis)
La capa que hace posible que un agente ejecute trabajo sobre las herramientas del empleador no es una promesa: es infraestructura desplegada. A diciembre de 2025 hay más de 10.000 servidores MCP públicos activos y más de 97 millones de descargas mensuales de los SDK (Python más TypeScript), y el protocolo se ha donado a la Agentic AI Foundation de la Linux Foundation, con Block y OpenAI entre los participantes (D2-021, MEDIDO) —el único dato telemétrico de escala de este cluster—. La adopción es además cross-vendor: OpenAI lo adoptó en marzo de 2025 en ChatGPT desktop y Google DeepMind en abril de 2025 (D2-018, N-A); el Agents SDK de Python de OpenAI soporta MCP de forma nativa, con múltiples transportes, filtrado de tools, caching y tracing (D2-019, N-A); y Google Cloud expone, desde el 11 de diciembre de 2025, servidores MCP remotos gestionados que dan acceso a Maps, BigQuery, Compute Engine y GKE a través de un endpoint unificado de nivel enterprise (D2-020, N-A).
La lectura estratégica es precisa: esta capa agente↔herramienta es infraestructura común. Habilita la delegación de trabajo —y por tanto las misiones de Momentum—, pero por sí sola no es una ventaja propietaria de nadie. El moat no puede estar ahí.
El cierre de la circularidad B2C→B2B
La objeción del panel es real: el dato org-visible exige misiones sobre el stack del empleador, lo que ya es una venta B2B —¿no es eso un círculo vicioso? No lo es: es la rampa. El B2C es el wedge de entrada —el profesional obtiene su primer Verified Output sobre su propia herramienta—; y el dato se vuelve org-visible únicamente cuando esas misiones corren sobre el stack del empleador, momento en el que ya estamos en la venta B2B. La circularidad aparente es, leída correctamente, la secuencia natural de adopción: el individuo entra, la organización compra cuando el dato deja de ser individual y pasa a ser de proceso.
El moat: telemetría construida, no reclamada
La señal externa marca el riesgo. Satya Nadella (14 de junio de 2026): “a frontier without an ecosystem is not stable”. Si la verificación se comoditiza como feature de plataforma, el valor se evapora. La defensa de Momentum no es tener un mejor verificador —eso es copiable— sino poseer el criterio: el gold-standard auditado del cliente, exportable y propiedad del cliente. El moat es la telemetría interna construida sobre ese criterio, output verificado a output verificado —un activo que se acumula con el uso y que ni un incumbente ni un ranking de exposición de un tercero pueden replicar, porque no poseen el criterio del cliente ni su historia de Verified Outputs—. Es un moat construido, no reclamado.
Frontera claim ↔ hipótesis
D2-021 es MEDIDO; D2-018, D2-019 y D2-020 son N-A (anuncios sin cifra de capacidad). El umbral de sub-5% MAU sin integración es [supuesto de producto]. El vocabulario de cierre es “AI adoption you can audit”: un moat construido, no reclamado.
Nota de procedencia. Cada cifra de este documento lleva el id de su fila en el corpus (D1D5-/D2-/D3-/D6-NNN) con su etiqueta MEDIDO / ILUSTRATIVO / N-A. Toda afirmación sin id trazable se marca como [HIPÓTESIS DESCRIPTIVA] o [a validar con telemetría propia]. El ROI propio de Momentum es, por diseño, un slot etiquetado: la honestidad que pasa una DD. Todas las métricas son a nivel agregado proceso/rol/equipo, por-FTE agregado; nunca individuales.