Momentum Skills · Research & Vision

El libro del proceso

Journal en tiempo real — rationale, decisiones y cambios de opinión. Render v1 (capa research). 2026-06-18.

00 · Foundation — Journal del proceso

Libro en tiempo real del research de Momentum Skills (Visión & Research, repo M-01).
Aquí vive el thinking: rationale, decisiones, cambios de opinión. El resultado pulido sin rastro no vale (soul.md valor #4).
Compartido por los SKUs del COMBO-OPEN: P-tosca (este encuadre), P-decompose, R-brief.

P-tosca · Encuadre TOSCA del problema de research

_Autor: SKU P-tosca · 2026-06-17 · Dev OS decision 85fadc89-6c4e-4a52-bca3-82544357c1b5_

Por qué empezamos por el encuadre (y no por buscar fuentes)

La tentación en un research es abrir cien pestañas y descargar papers. Es un error de altitud. Antes de leer nada hay que fijar qué problema estamos resolviendo de verdad, porque eso determina qué fuentes son señal y cuáles son ruido. El encuadre TOSCA es esa disciplina: obliga a nombrar la tensión, el dueño, el criterio de éxito, los límites y los actores antes de gastar un solo token de research. Lo que sigue es el razonamiento detrás de cada letra.

T — Trouble: dos tensiones, no una

La tensión superficial es de categoría. El mercado mete a Momentum en el cajón "plataforma de cursos de IA". Ese cajón está saturado, se comoditiza y —lo importante— no captura el valor que Momentum crea. Si nos dejamos leer así, competimos en precio contra Coursera, Udemy y cien bootcamps. El reencuadre que defendemos —de "cursos" a "capa de capacidad de la fuerza laboral nativa en IA", con la unidad pasando de clase/certificado a output verificado— no es cosmética de marketing: es la diferencia entre un océano rojo y una categoría propia.

Pero debajo hay una tensión de segunda derivada, y es la que de verdad mueve el paper. El lead time entre aprender y ejecutar —que durante toda la era pre-IA fue el espacio que la formación gestionaba— está colapsando. Con IA agéntica, aprender y ejecutar se funden en un solo acto: ejecución-aprendizaje. Aprender deja de ser un prerrequisito almacenado y pasa a ser el residuo de haber producido un output real.

La tercera derivada —la que convierte esto en tesis de inversor y no en charla de tendencias— es la observación: durante esa fusión se puede medir una variable nueva, la Human Input Intensity (HII): cuánto criterio humano constante necesita una tarea para producir su output. Y la cuarta derivada es la consecuencia: según la HII, cada rol/tarea bifurca hacia AI Workforce (HII bajo, tendencia reemplazable) o Human Workforce (HII alto, perdura). Momentum, al observar la ejecución-aprendizaje, se convierte en el primer mapa empírico de reemplazabilidad del trabajo — un data moat que ninguna plataforma de cursos puede replicar.

Esa cadena (categoría → colapso lead-time → HII → bifurcación → mapa empírico) es el verdadero Trouble. El research existe para anticiparlo, datarlo con evidencia y blindarlo.

O — Owner: el CEO, y por qué importa

El owner es el CEO (Higini / Rubén). No es un tecnicismo de governance: la decisión que este research alimenta —reposicionar la categoría, acuñar el vocabulario, elegir qué tesis blindar— es irreversible en términos de marca. Quien define la categoría es quien la posee. El equipo de research instruye; el CEO ratifica scope, vocabulario y la tesis a defender. Esto fija el listón de calidad: el output tiene que poder ponerse delante de un inversor sin sonrojo.

S — Success: tres entregables y un principio innegociable

Ganamos si producimos, todo verificable:

Paper de visión investor-grade que sostenga la cadena lead-time → HII → bifurcación → data moat con fuentes reales 2024-2026.
Landing espectacular que supere la live paper de Lovable (bloom-canvas-13.lovable.app) en narrativa, visual y stack — su evolución, no su clon.
Vocabulario propietario acuñado: HII, ejecución-aprendizaje, Weighted Verified Outputs, la taxonomía de madurez (Explorador → Operador → Constructor → Orquestador → Arquitecto de enjambres) y la bifurcación AI/Human Workforce. Ser dueños del léxico es ventaja de marketing pura (soul.md valor #3).

El principio innegociable que envuelve los tres: trazabilidad total. Cero fuentes o cifras inventadas. Los datos de HII por rol que aparecen en la live paper son ilustrativos y deben marcarse como tales hasta que exista telemetría real. La credibilidad del paper se cae con una sola cifra inventada que un inversor pueda refutar.

C — Constraints: los límites que no se cruzan

Fuentes reales y recientes (2024-2026 prioritarias); cero invención (soul.md valor #1, por encima de velocidad).
Voz McKinsey/Bain/BCG en toda la prosa: concreto, derivadas sucesivas, serendipia en tendencias no aparentes, sin hype sin sustancia.
es-ES en prosa; inglés en términos técnicos.
Las fuentes académicas (arXiv / Semantic Scholar / OpenAlex) aún no están ratificadas (OD-004 PROPUESTO) → tratarlas como asunción pendiente de OK CEO, no como hecho.
Anna's Archive solo para corpus de lectura propia, nunca como input de producto comercial.
Límite de fase (duro): este COMBO-OPEN encuadra; no ejecuta research masivo ni descarga corpus. Eso es M-02, tras aprobación CEO.

A — Actors: a quién servimos y quién juega

B2C — el profesional que hoy busca "formarse en IA para X" y al que migramos del aprender la herramienta al obtener el output verificado.
B2B — orgs de 5-15k empleados, donde el problema real no es la tecnología sino la adopción masiva y el reskilling continuo (half-life de skills cada vez más corto).
VC/inversores — leen paper y landing; lo que compran no es un curso, es el data moat (el mapa de reemplazabilidad).
Equipo de research — instruye la tesis, construye corpus/bibliografía y, sobre todo, blinda HII contra el escrutinio.

Cambio de opinión / nota de método (lo que aprendimos al encuadrar)

El instinto inicial era vender "el colapso del lead-time" como el titular. Al aplicar TOSCA caímos en que el titular no es el colapso, es lo que el colapso te permite medir: la HII y, con ella, el mapa de reemplazabilidad. El colapso es el mecanismo; el moat es la observación. Esa inversión de énfasis es la diferencia entre sonar a futurólogo y sonar a alguien que tiene un activo de datos.

Y un aviso a navegantes para P-decompose y R-brief: la tesis HII → reemplazabilidad es la más diferenciadora y la más expuesta a refutación (el panel MoE ya la señaló como la principal a blindar). El issue tree de P-decompose debe dedicarle una rama propia: qué evidencia 2024-2026 la sostiene, qué la refuta, y cómo separamos lo medido de lo ilustrativo. Si esa rama no aguanta, el paper no aguanta.

P-decompose · Descomposición MECE del research (issue tree)

_Autor: SKU P-decompose · 2026-06-17 · hereda el encuadre TOSCA y el aviso del panel MoE (blindar HII)._

Método: por qué un árbol y no una lista

Una lista de "temas a investigar" se solapa consigo misma y deja huecos. El criterio MECE (mutuamente excluyente, colectivamente exhaustivo) obliga a que cada dominio tenga una frontera nítida —un scope que diga tanto lo que cubre como lo que NO— para que dos sub-agentes no investiguen lo mismo ni quede un flanco sin cubrir. El árbol se organiza por la cadena del Trouble (categoría → colapso lead-time → HII → bifurcación → mapa de reemplazabilidad), no por convenios académicos. Cada rama existe para sostener o refutar un eslabón de esa cadena.

Los seis dominios de research (raíces MECE)

EdTech para adultos / reskilling corporativo — mercado, modelos pedagógicos de adultos (andragogía), evidencia de eficacia de la formación corporativa en IA, half-life de skills. NO cubre: el mecanismo agéntico (dominio 2) ni la medición de reemplazabilidad (dominio 3). Es el "estado del arte del cajón del que queremos salir".

IA agéntica, agentes y MCP — capacidades actuales y trayectoria de agentes que ejecutan trabajo real, el protocolo MCP como capa de herramientas enchufables, benchmarks de autonomía. NO cubre: el impacto laboral (dominio 3) ni la pedagogía (dominio 1). Sostiene el eslabón "ejecución-aprendizaje": sin agentes capaces, no hay fusión aprender↔ejecutar.

Futuro del trabajo + tesis HII / reemplazabilidad — la rama más cargada y la más expuesta a refutación (flag MoE). Evidencia 2024-2026 sobre exposición de tareas/ocupaciones a IA, qué se automatiza vs. qué requiere criterio humano constante, intentos previos de medir "intensidad de input humano" o equivalentes. Debe separar lo MEDIDO (estudios con datos) de lo ILUSTRATIVO (la HII por rol que hoy es hipótesis nuestra). NO cubre: escenarios futuros especulativos (dominio 4). Aquí se blinda o se cae el data moat.

Escenarios IA 2027-2030 — proyecciones, roadmaps de laboratorios, dinámicas de adopción y de mercado laboral a 3-5 años. Material para stress-test, explícitamente etiquetado como prospectivo. NO cubre: evidencia presente medida (dominio 3). Sirve para datar cuándo colapsa el lead-time y bajo qué supuestos.

Mercado y competencia — Coursera/Udemy/bootcamps/LMS corporativos y, crítico, quién más reclama la categoría "capa de capacidad" o "verified outputs". Pricing, posicionamiento, ventana de owner-categoría. NO cubre: la tecnología subyacente (dominio 2). Mide cuán abierta está la ventana para ser dueños del léxico.

Pedagogía y ciencia del aprendizaje aplicada — evidencia sobre learning-by-doing, evaluación por evidencia de desempeño vs. examen (sostén académico del principio DEMONSTRATES-not-PASSES), diseño de competencias/skill atoms, validez de la evaluación basada en outputs. NO cubre: el mercado EdTech (dominio 1). Da rigor académico a Weighted Verified Outputs y a la taxonomía de madurez.

Derivadas sucesivas (lo que el árbol debe hacer aflorar)

2ª derivada — si aprender es el residuo de producir, el certificado pierde valor y el output verificado lo gana; el activo del proveedor deja de ser el catálogo de cursos y pasa a ser el grafo de competencia + la telemetría de ejecución.
3ª derivada — al observar la ejecución-aprendizaje se mide la HII; esa medición es en sí misma un producto vendible (un mapa de reemplazabilidad) además de un input pedagógico. La formación se vuelve instrumento de captura de datos.
4ª derivada (serendipia) — el mapa de reemplazabilidad reconfigura la demanda de la propia formación: las orgs ya no compran "cursos de IA" sino "saber qué roles sobreviven y cómo reconvertir los que no". Momentum pasa de proveedor de formación a capa de inteligencia de fuerza laboral. Tendencias no aparentes a vigilar: presión sindical/regulatoria sobre medir reemplazabilidad (riesgo y palanca a la vez), y el efecto de que el half-life de skills tienda a cero (la formación puntual muere, la suscripción a capacidad continua nace).

Escenarios IA 2027-2030 a stress-testear

El paper no puede apostar a un solo futuro. Cuatro escenarios cubren el espacio de incertidumbre:

A — Plateau agéntico: la autonomía se estanca; HII alta persiste en casi todo; el reskilling sigue siendo el negocio y el mapa de reemplazabilidad cambia despacio.
B — Difusión acelerada: agentes fiables se generalizan; bifurcación AI/Human Workforce nítida y rápida; ventana de owner-categoría se cierra pronto (urgencia máxima).
C — Adopción fragmentada por vertical/regulación: el colapso del lead-time llega a ritmos muy distintos por sector y geografía; el mapa empírico vale precisamente por capturar esa heterogeneidad.
D — Reacción institucional: regulación laboral/sindical frena o condiciona la sustitución; medir HII se vuelve sensible políticamente (riesgo reputacional y, a la vez, foso si lo hacemos con governance).

Cada eslabón de la tesis debe aguantar bajo A y D (los adversos), no solo bajo B.

Equipo de research (sub-agentes para M-02+)

Diseñado para ejecutar el árbol en paralelo sin solapes, con un guardián de trazabilidad transversal:

Lead de research / sintetizador — dueño del issue tree; asigna ramas, integra hallazgos, mantiene el journal y arbitra solapes. Misión: que el corpus responda a la cadena del Trouble, no a curiosidad dispersa.
Analista EdTech & mercado — dominios 1 y 5. Misión: dimensionar el cajón del que salimos y la ventana de owner-categoría con cifras verificables.
Analista IA agéntica / MCP — dominio 2. Misión: fundamentar técnicamente la ejecución-aprendizaje y la viabilidad de MCPs enchufables con benchmarks reales.
Economista del trabajo / HII — dominio 3, la rama crítica. Misión: reunir evidencia a favor y en contra de la tesis HII, y diseñar la separación medido↔ilustrativo. Es quien blinda el moat ante el escrutinio MoE/inversor.
Futurista / escenarios — dominio 4. Misión: construir y datar los escenarios 2027-2030 y stress-testear cada eslabón bajo los adversos.
Pedagogo / ciencia del aprendizaje — dominio 6. Misión: respaldo académico de DEMONSTRATES-not-PASSES, Weighted Verified Outputs y la taxonomía de madurez.
Curador de corpus & guardián de trazabilidad (transversal) — gestiona corpus/bibliografía (Google Sheet, NotebookLM, annas-archive solo lectura propia) y audita que CADA cifra tenga fuente y que lo ilustrativo esté etiquetado. Veta cualquier afirmación sin fuente.

Workflows de B previstos (cadena de COMBOs para M-02+)

Cada workflow = 1 COMBO (OPEN → I-work → CHECK → CLOSE con verdict). Secuencia propuesta, sujeta a ratify CEO del scope de M-02:

W1 · Setup de corpus & bibliografía — Sheet canónico (tab corpus + tab vocabulario), estructura NotebookLM, protocolo de trazabilidad. Habilita los demás.
W2 · Barrido EdTech & mercado/competencia — dominios 1+5. Mapa del cajón + ventana de categoría.
W3 · IA agéntica / MCP & evidencia ejecución-aprendizaje — dominio 2.
W4 · Tesis HII & mapa de reemplazabilidad (rama crítica) — dominio 3. COMBO con gate reforzado: no cierra sin la tabla medido↔ilustrativo y la lista a-favor/en-contra.
W5 · Escenarios 2027-2030 & stress-test de la tesis — dominio 4, depende de W4.
W6 · Pedagogía & blindaje de Weighted Verified Outputs / taxonomía — dominio 6.
W7 · Síntesis → outline del paper de visión — integra W2-W6 en la cadena narrativa investor-grade.
W8 · Planning de landing (narrativa, storyboard, piezas animadas) — supera la live paper de Lovable; consume la síntesis de W7.

W4 es el cuello de botella de credibilidad: si su gate no aguanta, W5 y W7 se replanifican. El orden respeta dependencias (corpus antes que barridos; HII antes que escenarios; síntesis antes que landing).

R-brief · Consolidación del brief de research

_Autor: SKU R-brief · 2026-06-17 · Dev OS artifact f022b31d-c2e2-49fa-a637-a8c7dd749dc7 · cierra el COMBO-OPEN de M-01._

Por qué un brief separado y no "el journal vale"

El journal es el thinking (rationale, dudas, cambios de opinión); sirve para que cualquiera entienda por qué decidimos lo que decidimos. Pero un agente de research que arranca M-02 no necesita revivir la deliberación: necesita un contrato de ejecución — qué problema, qué dominios con frontera nítida, quién hace qué, qué reglas no se cruzan. Ese es el papel de research/00-context-brief.md: la spec consolidada. Mezclar ambos rompería la altitud (el ejecutor se perdería en el debate) y la trazabilidad (no sabríamos qué es decisión cerrada vs reflexión). De ahí la separación: journal = libro del proceso; brief = orden de operaciones.

La decisión de redacción que más importó

El brief abre con un Commander Intent de un solo párrafo que termina en una frase-ancla: "el titular no es el colapso del lead-time, es lo que el colapso te permite medir". Es deliberado. En un research multi-agente, el mayor riesgo no es la falta de fuentes sino la deriva de foco: cada analista tira hacia su dominio y el corpus se dispersa. Anclar el intent en la HII y el mapa de reemplazabilidad —no en el colapso, que es solo el mecanismo— mantiene a los siete roles tirando del mismo eslabón. Es la misma inversión de énfasis que P-tosca registró como su cambio de opinión; aquí se hace operativa.

Lo que blindé en las reglas duras

Subí a regla dura, con número propio, la separación medido ≠ ilustrativo (regla 4) y la columna vertebral HII (regla 3). No son matices: son las dos cosas que el panel MoE marcó como punto de caída. Que un agente de M-02 las lea como reglas, no como recomendaciones, es lo que hace que el gate reforzado de W4 (D3) tenga dientes. También dejé explícito el derecho de veto del guardián de trazabilidad en el diseño del equipo: sin veto, "cero invención" es un deseo; con veto, es un mecanismo.

Estado del COMBO-OPEN al cerrar R-brief

Encuadre (P-tosca) ✅ · descomposición MECE (P-decompose) ✅ · brief de research (R-brief) ✅. La fundación queda lista para que el CEO ratifique el scope de M-02 y arranque la cadena de workflows W1→W8. No se ejecutó research masivo ni descarga de corpus (límite de fase respetado). Sin freeze.lock; bridge-active.lock activo.

_COMBO-OPEN de M-01 cerrado. Siguiente: ratify CEO del scope de M-02 → workflows W1-W8._

I-config · Cierre del COMBO-IMPL de M-01 — infraestructura de corpus

_Autor: SKU I-config · 2026-06-17 · cierra el COMBO-IMPL de M-01._

La fundación pasa de plan a infraestructura viva. Lo que en el COMBO-OPEN era "estructura prevista" (W1) queda ya provisionado, vacío y listo para que M-02 lo llene:

Google Sheet bibliografía (tab corpus + tab vocabulario/frases): https://docs.google.com/spreadsheets/d/18xMnjka7kLFAQLhA377VGqA77gAnQOB3s8urn7nFgd4/edit — el canónico de trazabilidad. Toda cifra del paper apuntará a una fila aquí; sin fila, no entra (regla 4 medido ≠ ilustrativo).
NotebookLM corpus: https://notebooklm.google.com/notebook/238984eb-8edf-4302-8a9f-4d16d981281d — el grounding documental que reduce alucinación vía respuestas con cita.

No se ejecutó research masivo ni descarga de corpus (eso es M-02; límite de fase respetado). Sin freeze.lock; bridge-active.lock activo. La cadena W1→W8 ya tiene dónde escribir.

A-retro · cierre M-01

Semáforo: GREEN. La fundación queda en pie: secuencia COMBO completa (OPEN → IMPL → CHECK → V-review APPROVE → CLOSE), infraestructura de research instanciada y trazable, y el work item Dev OS recorrido sin saltos. El gate adversarial (advisor verdict e06ee9e7) cerró en APPROVE, lo que autoriza pasar de la mesa de montaje al trabajo real de M-02. No hay deuda bloqueante; las dos deudas vivas son acotadas y conocidas de antemano.

Wins

COMBO-CLOSE completo: V-review APPROVE + research-plan.md emitido + retro cerrada. La cadena W1→W8 tiene plan y destino de escritura.
Infraestructura de research en pie y verificable: Google Sheet bibliografía (tab corpus + tab vocabulario), NotebookLM corpus, brief y journal — todos committeados (bfca9aa).
Disciplina de fase respetada: cero research masivo y cero descarga de corpus dentro de M-01 (eso es M-02, tras gate de aprobación CEO). El límite del encargo se cumplió.
Trazabilidad gobernada: work item Dev OS 2f648a9d recorrido secuencialmente (I-code → V-review → A-retro) con evidencia honesta, sin no-ops ni saltos de step.

Debts (vivas)

D1 · Sheet sin header congelado ni anchos de columna. El MCP google-drive no expone tool de frozen-rows ni de column-widths. El formato del Sheet (fila de cabecera fija + anchos legibles) queda pendiente — vía manual o batchUpdate futuro. No bloquea el research; es pulido de UX del dashboard.
D2 · OD-004 (stack de research) sigue PROPUESTO, sin ratify CEO. Mientras no haya OK explícito, la elección de fuentes académicas es una asunción, no una decisión cerrada. M-02 no debe tratar el stack como ratificado hasta el gate del CEO.

Lectura de cierre. M-01 era montar la mesa, no servir el plato. La mesa está montada, nivelada y con el mapa del menú (research-plan.md) encima. El siguiente movimiento (M-02 · research + corpus) está gated por aprobación del CEO sobre OD-004 — y así debe seguir.

W1 (M-02) · setup corpus & trazabilidad

_Autor: SKU A-retro · 2026-06-17 · cierra el COMBO-IMPL de W1 (M-02) · V-review APPROVE 43e8d719 · A-heartbeat 0f399997 reseteó el contador COMBO-CHECK._

El thinking del setup — por qué W1 es contrato, no biblioteca

W1 no descarga ni una fuente. Su entregable es un contrato operativo: el documento research/corpus-protocol.md que convierte las reglas duras del brief (cero invención, recencia 2024-2026, separación medido ≠ ilustrativo) en convenciones verificables sobre el Google Sheet canónico y el NotebookLM corpus. La disciplina de altitud que defendió P-tosca se hace aquí infraestructura: antes de que W2/W3/W6 abran cien pestañas, ya está fijado qué hace que una fuente entre como fila y qué la veta. Sin ese contrato, cada barrido reinterpretaría las reglas a su manera y la trazabilidad se erosionaría fila a fila.

La decisión de redacción que más importó fue anclar toda fila a la columna vertebral (categoría → colapso → HII → bifurcación → mapa). Una fuente no entra por ser interesante: entra si sostiene o refuta un eslabón, y debe declarar cuál en notas. Esto es lo que separa research de curiosidad (regla dura 3) y lo que da dientes al gate reforzado de W4.

La pieza nueva y deliberada es la columna evidencia (K): dropdown MEDIDO | ILUSTRATIVO | N-A. Materializa en el propio Sheet la separación que el panel MoE marcó como punto de caída. La HII por rol es ILUSTRATIVA hasta haber telemetría real, y esa etiqueta se propaga a toda cita derivada en paper y landing. Confundir medido con ilustrativo tumba la credibilidad ante un VC; ahora la confusión es estructuralmente imposible de ocultar, porque sin etiqueta la fila no cierra el gate W4. Se situó en K (al final, tras notas) para no desplazar el orden histórico de columnas que el equipo ya conoce, y queda documentada en el tab README.

El VETO del guardián de trazabilidad (§8) es el mecanismo que convierte el «cero invención» de deseo en regla: cualquier fila sin URL resoluble, con cifra ilustrativa no etiquetada, fuera de la columna vertebral o fuera de recencia sin justificación de contexto fundacional, se veta. La sincronía Sheet↔NotebookLM (ledger subido_a_notebooklm) garantiza que cada source ingerido tenga su fila trazable.

Estado al cierre de W1

Tabs del Sheet canónico: Corpus, Vocabulario, README, Log_Cambios. El protocolo está fijado, no poblado: cero filas cargadas (la carga real es W2/W3/W6, dentro de M-02). Límite de fase respetado — W1 es setup, no barrido. Sin freeze.lock; bridge-active.lock activo. El work item Dev OS 866254dc quedó DONE en el COMBO-IMPL previo (I-config): get_next_step devuelve done:true, sin steps que avanzar — no se forzó ningún no-op.

A-retro · semáforo W1

Semáforo: GREEN. El contrato de trazabilidad existe, es verificable y respeta el límite de fase. La separación medido ≠ ilustrativo dejó de ser aspiración y es ahora columna obligatoria con gate. La cadena COMBO de W1 cerró completa (OPEN → IMPL → CHECK reset vía A-heartbeat → V-review APPROVE → CLOSE). No hay deuda bloqueante.

Wins

corpus-protocol.md emitido: contrato único que W2/W3/W6 siguen sin reinterpretar — taxonomía de columnas, QUALIFY, recencia, dominios MECE, VETO y convención NotebookLM.
Columna evidencia (K · MEDIDO | ILUSTRATIVO | N-A) materializa la regla dura 4 en el propio Sheet; sin etiqueta no se cierra el gate W4.
Tabs README + Log_Cambios añadidos al Sheet: la taxonomía queda documentada y los cambios auditables — el dashboard se autodescribe.
V-review APPROVE (43e8d719) sobre el protocolo; A-heartbeat (0f399997) reseteó el contador COMBO-CHECK; A-retro registrado. Trazabilidad de gobierno intacta, sin saltos de step.
Disciplina de fase respetada: cero filas pobladas, cero descarga de corpus en W1.

Debts (vivas)

D1 (heredada) · Sheet sin header congelado ni anchos de columna. El MCP google-drive no expone frozen-rows ni column-widths; pendiente vía batchUpdate futuro. No bloquea el research.
D2 (heredada) · OD-004 (stack de research) sigue PROPUESTO, sin ratify CEO. W2 no debe tratar las fuentes académicas como ratificadas hasta el gate del CEO.
D3 (nueva) · devos-outbox.jsonl no flusheable vía MCP. Dev OS no expone tool de creación de runtime_event; el outbox de hechos mecánicos queda local hasta que exista vía de flush. Es deuda de telemetría, no de research.

Lectura de cierre. W1 fijó las reglas del juego antes de jugar. El contrato está escrito y con dientes (VETO + columna evidencia + gate W4). El primer barrido real (W2 · EdTech & mercado) hereda un Sheet vacío pero gobernado — y sigue gated por el OK del CEO sobre OD-004.

Journal · M-02 W2 — EdTech & mercado/competencia (Bridge B · I-config)

Barrido W2 del módulo M-02. Foco: EdTech para adultos + mercado/competencia. Columna vertebral del paper: categoría → colapso del lead-time formativo → HII → bifurcación AI/Human Workforce → mapa de reemplazabilidad. Todo lo que no toca esa cadena = ruido, no entra. HII y reemplazabilidad por rol = W4/M-03; aquí sólo se acumula la evidencia de mercado que los alimenta, sin derivarlos.

W2 (M-02) · EdTech & mercado — mapa de stakeholders y zonas dónde competir/no

1. Hallazgos clave (qué eslabón refuerzan o refutan)

Eslabón 1 — Colapso del lead-time formativo (REFORZADO, evidencia MEDIDA convergente).

La tesis central del paper —la vida útil de una competencia se acorta más rápido que el tiempo de adquirirla y amortizarla— recibe respaldo de cuatro fuentes independientes con metodologías distintas, lo que reduce el riesgo de sesgo de fuente única:

WEF Future of Jobs 2025 (D1D5-001): 39% de las competencias actuales se transformará u obsolescerá en 2025-2030. Encuesta de empleadores (>1.000 firmas, 55 economías). Dato de demanda declarada.
LinkedIn Work Change Report 2025 (D1D5-002): 70% de las competencias de la mayoría de empleos cambiará para 2030. Dato de comportamiento (Economic Graph), no de encuesta — triangula con WEF desde otro método.
IBM IBV Augmented Work 2024 (D1D5-003): 40% de directivos prevé reentrenar plantilla en 3 años; 87% cree que la GenAI augmenta en vez de eliminar. Dato de intención corporativa.
Deloitte (D1D5-004): vida media de algunas skills técnicas ~2,5 años. Marcado ILUSTRATIVO (cifra citada de HBR, no telemetría propia de Deloitte) — sirve de gancho retórico, no de prueba.

Lectura senior: la convergencia encuesta-de-empleadores (WEF) + telemetría-de-comportamiento (LinkedIn) sobre el mismo horizonte 2030 es lo que hace la tesis defendible ante un VC. La cifra de Deloitte es la que el mercado "cita de memoria", pero es la más débil — usarla sólo de apertura, nunca como prueba.

Eslabón 4 — Bifurcación AI/Human Workforce (REFORZADO, con la mejor evidencia telemétrica del barrido).

Anthropic Economic Index (D1D5-010): ~1M de conversaciones Claude.ai mapeadas a O*NET → 57% tareas augmentadas vs 43% automatizadas; concentración en Computer & Mathematical (37,2%). Es la evidencia directa y observada de qué tareas toca la IA primero. Es el puente natural hacia el mapa de reemplazabilidad de M-03 — pero aquí se cita sólo como evidencia de mercado, sin derivar HII (disciplina de scope W2 vs W4).
Stanford Canaries in the Coal Mine (D1D5-005): caída relativa del 13% del empleo en trabajadores de 22-25 años en ocupaciones muy expuestas a IA desde finales de 2022 (16% controlando shocks de empresa); nómina ADP. Segunda evidencia telemétrica, esta del lado del empleo. Aporta el matiz de secuencia: las competencias de entrada se devalúan primero → la inversión formativa puntual del recién titulado es la primera en perder retorno.
McKinsey MGI (D1D5-008): ~27% horas Europa / ~30% EE.UU. automatizables para 2030. Enmarca la magnitud agregada.

Lectura senior: Anthropic + Stanford son los dos datos que un comité de inversión no puede desestimar como "marketing de consultora", porque son telemetría (uso de IA y nómina). Son el ancla empírica del paper. La serendipia: ambos apuntan a que el daño empieza por los junior/entry-level, lo que tiene implicación de producto (Momentum debería capturar al recién titulado antes de que su título se devalúe — no después).

Eslabón "categoría / tamaño de mercado" (CONTEXTO, con honestidad de rango).

HolonIQ $404B EdTech para 2025, 16,3% CAGR (D1D5-014): techo de gasto. Marcado con nota de recencia (base 2019 → objetivo 2025; borderline regla dura 2; entra como dimensionamiento, no como trayectoria de agentes).
E-learning corporativo: dos polos deliberadamente enfrentados — Precedence (D1D5-012, CAGR 4,06% conservador) vs Grand View (D1D5-015, CAGR 21,7% alcista). La dispersión metodológica entre firmas de research ES el hallazgo: citarlas juntas es lo honesto ante un VC y desactiva la objeción "te has quedado con la cifra que te conviene".

Eslabón "señal de capital" (REFORZADO — serendipia fuerte).

HolonIQ EdTech hits $2.6B 2026 (D1D5-013): el VC EdTech 2025 fue 2,6B USD (~+11% sobre 2024) y el capital fluye hacia "workflow-embedded, agentic AI integrated platforms" ligadas a empleabilidad. El mercado de capital ya premia exactamente la tesis de Momentum (capacidad continua + IA agéntica + outcomes medibles). No es que Momentum proponga algo que el mercado tenga que aprender a valorar; es que el mercado ya está reasignando capital hacia esa forma de producto. Esto cambia el ángulo del pitch: de "educar al inversor" a "estás llegando a la ola en el momento correcto".

2. Mapa de stakeholders (dónde competir / dónde no)

Stakeholder	Rol en el tablero	Evidencia (fila)	Postura Momentum
Coursera	Incumbente upskilling adultos. 168M registrados, FY24 694,7M USD, 1.612 enterprise, >450 cursos GenAI	D1D5-006	NO competir de frente en catálogo de cursos universitarios/credenciales. Distancia: capacidad continua > cursos discretos.
Udemy	Incumbente upskilling, FY24 786,6M USD; consumo skills IA +60% YoY	D1D5-009	NO competir en marketplace de cursos. Sí leer su dato de demanda (la migración técnica↔humana) como señal de hacia dónde mover el currículo.
Duolingo	Caso de monetización recurrente con IA. FY24 748M USD (+41%), 9,5M suscriptores, Duolingo Max	D1D5-007	Referencia de modelo, no competidor. Prueba que la "suscripción a capacidad" con IA es viable y de alto crecimiento. Aprender su loop de engagement, no su vertical.
LinkedIn (Learning + Economic Graph)	A la vez fuente de demanda y distribuidor potencial	D1D5-002, D1D5-011	Zona ambigua: competidor en L&D corporativo, pero su Economic Graph es la mejor señal de mercado. Posible aliado de datos antes que rival.
WEF / McKinsey / Deloitte / IBM	Generadores de la narrativa de demanda	D1D5-001, 003, 004, 008	Aliados narrativos: su research es la munición del pitch. No compiten; legitiman la categoría.
Anthropic / Stanford	Generadores de la evidencia telemétrica dura	D1D5-005, D1D5-010	Aliados de evidencia: ancla empírica del paper. Anthropic además es proveedor de modelo (relación de dependencia/stack a vigilar).
VC EdTech (vía HolonIQ)	El capital que decide	D1D5-013, D1D5-014	El cliente del pitch. Ya premia la tesis → competir por atención en la categoría "agentic, workflow-embedded", no en "otro LMS".

3. Zonas No-Go (dónde NO competir)

Catálogo de cursos genéricos / MOOCs — Coursera y Udemy tienen escala (168M y consumo IA +60%) y coste marginal cero. Entrar aquí es perder. La cadena del paper lo justifica: el curso discreto es justamente lo que el colapso del lead-time vuelve obsoleto; Momentum no debe vender el producto que su propia tesis declara muerto.
Credenciales/títulos académicos formales — terreno de universidades + Coursera. El valor de Momentum es la capacidad continua, no el papel.
Reskilling "evento único" corporativo — IBM/Deloitte muestran que el reskilling se vuelve flujo continuo; vender proyectos puntuales de formación es vender contra la propia tendencia.
L&D enterprise de frente contra LinkedIn Learning — su distribución (1.000M miembros) es inabordable de frente; mejor flanquear vía outcomes medibles + integración en workflow, o aliarse por datos.

4. Dónde SÍ competir (espacio defendible)

La intersección que ninguna fila contradice y varias refuerzan: suscripción a capacidad continua, embebida en el workflow del adulto/empleador, con IA agéntica y outcomes medibles, capturando al profesional joven antes de que su competencia de entrada se devalúe (insight de secuencia de Stanford). Es exactamente la categoría que HolonIQ dice que el capital de 2026 premia. Esa coincidencia es la serendipia central del barrido W2.

5. Señal estratégica pendiente — tweet de Satya Nadella

Tarea 4 pedía incorporar el tweet de Satya Nadella (RT por Elon Musk) https://x.com/satyanadella/status/2066182223213293753 como señal para el mapa de stakeholders.

No se pudo leer por API. WebFetch devolvió HTTP 402 Payment Required (X/Twitter cierra el acceso de scraping/lectura tras su muro de pago de API). Por disciplina del workflow no se abrió Chrome (regla: el agente de workflow no toca Chrome 9255). En cumplimiento de la regla dura 1 (cero invención): no se transcribe ni parafrasea el contenido del tweet, porque no se ha podido verificar su texto. Queda como pendiente de captura manual (Ventana A / sesión Chrome dedicada) para una futura iteración. Implicación de stakeholder a confirmar tras lectura: Microsoft (Nadella) opera aguas arriba en el stack (modelos, Copilot, Azure); cualquier postura suya sobre IA-y-trabajo afecta a la capa de proveedor de la que dependen plataformas como Momentum, no a la capa de producto-formativo donde compite. Hasta verificar el texto literal, esto es hipótesis de encuadre, no hallazgo.

6. Notas de método y deuda

Evidencia MEDIDO vs ILUSTRATIVO: 14 filas MEDIDO, 1 ILUSTRATIVO (Deloitte 2,5 años, cifra de HBR no telemetría propia). Etiqueta aplicada en columna evidencia del Sheet.
Anti-bot / verificación: WEF, Udemy, McKinsey, Duolingo, Grand View dieron 403/timeout al fetch directo; cifras confirmadas vía búsqueda de la página oficial. URLs resolubles. Re-confirmar cifras exactas de McKinsey y Grand View al releer.
NotebookLM: subidas 10 fuentes primarias de calidad. Grand View (D1D5-015) y Udemy (D1D5-009) NO se marcaron como subidas: NotebookLM ingirió una página de challenge de Cloudflare ("Just a moment...") en vez del contenido real → no es fuente válida. Excluidas también las páginas de resultados financieros de Coursera/Duolingo (IR, no research primario) y el espejo de IBM (brianheger.com, secundario).
Scope W2 ≠ W4: Anthropic Economic Index y Stanford Canaries entran como evidencia de mercado/bifurcación; no se ha derivado HII ni mapa de reemplazabilidad por rol (es M-03). Disciplina respetada.

W2 · A-retro

Semáforo: VERDE. Verdict V-review = APPROVE (ID 7d7ba7cc-d19a-44ac-9240-d4bbb0ba5476, 2026-06-17T19:03Z). Gate=15 cumplido exacto (15 filas D1+D5). Muestra adversarial 3/3 OK con URLs resueltas en vivo y etiquetas MEDIDO/ILUSTRATIVO correctas.

Wins

Convergencia de evidencia MEDIDA de fuentes independientes (WEF 39%, LinkedIn 70%, IBM 40%, Stanford −13%) sobre el eslabón colapso del lead-time → tesis robusta frente a sesgo de fuente única.
Honestidad metodológica: el polo alcista (Grand View 21,7% CAGR) y el conservador (Precedence 4,06%) citados juntos hacen creíble el rango de mercado ante un VC.
Etiquetado evidencia disciplinado: la única cifra retórica (Deloitte 2,5 años, cita HBR) marcada ILUSTRATIVO en vez de colarse como MEDIDO.
NO-W4 respetado: Anthropic Index/Stanford usados como evidencia de mercado sin derivar HII ni reemplazabilidad por rol.
Verificación adversarial confirmada en vivo (LinkedIn, Anthropic, Precedence) — cero invención detectada.

Debts (no bloqueantes, arrastrar a consolidación)

URL IBM secundaria: D1D5-003 usa espejo brianheger.com; sustituir por PDF primario IBM IBV cuando se localice.
NotebookLM contaminado: Grand View (D1D5-015) y Udemy (D1D5-009) ingirieron challenge Cloudflare ("Just a moment...") → re-subir con contenido real o vía descarga propia (annas-archive/PDF).
Re-confirmar cifras exactas de McKinsey (~27%/~30%) y Grand View al releer (entraron vía búsqueda por 403 anti-bot, no fetch directo del cuerpo).
status subido_a_notebooklm: varias filas en "pendiente" (D1D5-003/006/007/009/015); reconciliar el flag tras re-subida.

Journal · M-02 W3 (Bridge B · I-config)

W3 (M-02) · IA agéntica & MCP — benchmarks de autonomía 2024-2026 y fusión aprender↔ejecutar

Qué buscábamos

W3 cubre el dominio D2 (IA agentes/MCP). La consigna no era "listar benchmarks de moda", sino alimentar una sola columna vertebral: categoría → colapso del lead-time → HII → bifurcación AI/Human Workforce → mapa de reemplazabilidad. Cada fuente entra solo si toca un eslabón de esa cadena; lo que no la toca es ruido y no entra. 21 fuentes verificadas, todas con URL resoluble (regla dura 1), con etiqueta MEDIDO / ILUSTRATIVO / N-A explícita.

Hallazgos clave (el thinking, no el resumen)

1. El colapso del lead-time tiene ahora una curva, no una anécdota. El eje narrativo del paper deja de ser cualitativo. La serie SWE-bench es la prueba telemétrica más limpia que hemos encontrado de que el tiempo entre "el agente aprende una tarea" y "el agente la ejecuta sin humano" se está comprimiendo: ~2% (Claude 2, 2023, D2-001) → 49,0% (Claude 3.5 Sonnet nuevo, finales 2024, D2-003) → 63,7%–70,3% (Claude 3.7, feb-2025, D2-004). Tres puntos, una pendiente, sobre el mismo protocolo público (Verified, D2-002). Esto es lo que convierte "la IA mejora" en una curva con fecha. Refuerza el eslabón colapso del lead-time con dato MEDIDO.

Matiz de honestidad intelectual incorporado en notas: D2-003 corrige el claim de la candidata (no era 33,4% a Opus; eran 22% Opus / 33% Sonnet antiguo). D2-002 se reetiquetó N-A: describe la construcción del dataset, no aporta cifra de capacidad. Mantener la disciplina de etiqueta es lo que separa un paper investor-grade de un pitch.

2. METR le pone reloj a la bifurcación (D2-005). El "horizonte temporal al 50%" (duración de tarea humana que la IA completa con 50% de éxito) se duplica cada ~7 meses desde 2019: ~50 min hoy → tareas de un mes en ~5 años. Este es el motor cuantitativo de la bifurcación de la curva capacidad-vs-trabajo-humano. Es la fuente que mejor convierte el relato en proyección defendible. Nota de rigor: el título exacto acota a "Long Software Tasks" — no genéricas; lo dejamos explícito para no sobre-generalizar.

3. El "mapa de reemplazabilidad" es empírico y específico de entorno — no una opinión. Cuatro benchmarks de ejecución real dan la brecha agente-vs-humano con números reproducibles: OSWorld 12,24% vs 72,36% (ordenador, D2-006), WebArena 14,41% vs 78,24% (web, D2-007), GAIA 15% vs 92% (asistente end-to-end, D2-010), AndroidWorld 30,6% (móvil, D2-009). VisualWebArena (D2-008) añade que la percepción visual sigue bloqueando. La lección estratégica para el paper: la reemplazabilidad NO es uniforme — es una frontera con relieve, dependiente del canal (escritorio vs móvil) y de la modalidad (texto vs GUI vs visión). Esto alimenta directamente M-03 (HII/reemplazabilidad), pero aquí solo se mide la frontera, no se interpreta (eso es W4, fuera de scope).

4. La fiabilidad —no la demo— es la bisagra de toda la tesis. τ-bench (D2-011) introduce pass^k: gpt-4o <50% de tareas, pass^8 <25% en retail. τ²-bench (D2-012) muestra que en control dual (humano+agente sobre estado compartido) el rendimiento cae respecto al escenario sin usuario. BFCL (D2-013) confirma: el tool-use single-turn está resuelto, el horizonte largo multi-turno NO. Este cluster es el que define la categoría ("ejecución agéntica fiable en flujos con herramientas") y, a la vez, matiza el ritmo del colapso: el colapso solo se materializa donde la coordinación es fiable.

5. Contraevidencia deliberada (anti-hype, refuerza credibilidad). Dos fuentes refutan/frenan la bifurcación y por eso valen oro: StableToolBench (D2-014) documenta la fragilidad y no-reproducibilidad de la ejecución con APIs reales; "Defeating Nondeterminism" (D2-015, ILUSTRATIVO) da la raíz técnica de la variabilidad (batch-size dependency en los kernels, no el FP/GPU que todo el mundo asume). Donde esto no se resuelve, la ejecución sigue siendo demo no fiable y el humano se queda en el bucle. El paper gana autoridad precisamente por incluir las flechas que apuntan en contra.

6. La capa de herramientas enchufables dejó de ser hipótesis y es sustrato medible. MCP recorre en ~13 meses el arco completo: anuncio Anthropic (nov-2024, D2-016) → verificación independiente InfoQ (dic-2024, D2-017) → adopción cross-vendor OpenAI + Google (D2-018, D2-019, D2-020) → donación a la Agentic AI Foundation con >10.000 servidores MCP públicos y 97M+ descargas mensuales de SDK (dic-2025, D2-021, MEDIDO). El dato de D2-021 es el único telemétrico de escala del cluster: MIDE el colapso del lead-time de integración (MxN → 1xN). Estratégicamente esto es el eslabón anterior a la bifurcación: es lo que hace que el trabajo sea delegable a un agente en primer lugar. Que los tres hiperescaladores lo soporten de fábrica convierte la conexión agente↔herramienta en infraestructura común, no en ventaja propietaria.

Qué eslabón refuerza/refuta cada bloque

Categoría: τ-bench, BFCL (definen "ejecución fiable con herramientas").
Colapso del lead-time: serie SWE-bench (001→002→003→004), τ²-bench (matiza), D2-021 (mide el colapso de integración).
Bifurcación AI/Human: METR (motor cuantitativo); StableToolBench + Defeating Nondeterminism (contraevidencia, mantienen al humano en el bucle).
Mapa de reemplazabilidad: OSWorld, WebArena, VisualWebArena, AndroidWorld, GAIA (la frontera empírica con relieve).
Herramientas enchufables (pre-bifurcación): cluster MCP 016-021.

Lo específico del foco W3

Pre-2024 con licencia explícita: SWE-bench (001), WebArena (007), GAIA (010) entran como BASE FUNDACIONAL justificada (§3 corpus-protocol): son las líneas base contra las que se mide el colapso/HII, no evidencia de la trayectoria actual. Se etiquetó en notas para que el lector no las confunda con dato vigente.
Disciplina de etiqueta MEDIDO vs N-A vs ILUSTRATIVO: 11 MEDIDO (benchmarks con protocolo y números reproducibles + D2-021 telemetría), 6 N-A (anuncios/specs sin cifra de capacidad), 1 ILUSTRATIVO (POV explicativo). Ningún vendor blog se trató como evidencia de capacidad.
NotebookLM: subidas SOLO las 11 fuentes primarias técnicas (10 papers arXiv + 1 poster ICML en OpenReview). Excluidos deliberadamente los 10 posts de marketing/POV de vendors (Anthropic news, OpenAI index, Google Cloud blog, InfoQ, Wikipedia, thinkingmachines.ai) — no son PDFs primarios con metodología.
Vocabulario: 4 términos nuevos acuñados (colapso del lead-time en su variante de ejecución agéntica — distinto del formativo ya existente; capa de herramientas enchufables; fiabilidad pass^k; horizonte temporal al 50%). Se omitió "mapa de reemplazabilidad" por solaparse con "Mapa empírico de reemplazabilidad" ya presente (evitar duplicado).

Límite W3 respetado

No se entra en interpretación HII ni en construcción del mapa de reemplazabilidad como tesis (eso es M-03/W4). Aquí solo se deja medida la frontera y datada la curva. Cero invención: todas las cifras con fuente resoluble; las correcciones a las candidatas (D2-002, D2-003, D2-005) quedan trazadas en las notas del Sheet.

W3 · A-retro

Semáforo: GREEN — Verdict V-review APPROVE (advisor_verdict_id 0dc2662e-b902-4905-9070-a8f8f99a0135, 2026-06-17T19:05:06Z).

Wins

Gate superado con holgura: 18 filas D2 (IA agentes/MCP) en 2024-2026 con url real + etiqueta de evidencia, frente a gate=12.
Muestra adversarial 3/3 OK: las tres URLs (METR arxiv, BFCL openreview, Anthropic AAF) resuelven y las cifras se confirman literalmente vía WebFetch; etiquetas MEDIDO correctas en los tres casos.
Columna vertebral intacta: la cadena categoría→colapso lead-time (SWE-bench 2%→64%, horizonte METR ~50min)→bifurcación AI/Human (gaps OSWorld/WebArena/GAIA/AndroidWorld)→mapa de reemplazabilidad está bien armada y cada fila tira de un eslabón explícito.
Disciplina de etiquetas ejemplar: N-A para anuncios/datasets sin telemetría (D2-002, D2-016 a D2-020), ILUSTRATIVO para claims explicativos (D2-015 nondeterminism). Sin inflado de "MEDIDO".
Frontera M-03 respetada: la evidencia de reemplazabilidad/HII se cita como insumo pero NO se deriva el índice aquí (D2-010, D2-011 anotados como input W4/M-03). Cero W4 leak.
Honestidad de método visible: 403/anti-bot, espejos y timeouts documentados en notas; pre-2024 (D2-001/007/010) declarados BASE FUNDACIONAL justificada en vez de colarlos como trayectoria actual.

Debts

11 filas D2 con subido_a_notebooklm = pendiente (incluye toda la familia MCP D2-016 a D2-021) — falta cerrar la ingesta NotebookLM del cluster MCP. nb_uploaded=11 global; reconciliar conteo por dominio.
D2-008 (VisualWebArena): la cifra 16,4%/910 no aparece en el abstract de arXiv al fetch; tratada como dato del cuerpo del paper. Re-confirmar al subir a NotebookLM (deuda menor de verificación).
Polo de mercado: dependencia parcial de espejos/búsqueda para fuentes con anti-bot (heredado de D1/D5, no D2); la URL de D1D5-003 sigue siendo espejo brianheger.com — sustituir por PDF IBM IBV primario cuando se localice.
Muestra adversarial = 3 filas (mandato): cobertura estadística limitada; las 15 filas D2 no muestreadas se aprueban por inspección de columnas, no por fetch.

Journal · M-02 W4 (Bridge B · D-spec síntesis) — HII / reemplazabilidad: el gate crítico

W4 es el eslabón HII de la columna vertebral (categoría → colapso del lead-time → HII → bifurcación AI/Human → mapa de reemplazabilidad). W2 acumuló la evidencia de mercado sin derivar HII; W3 midió la frontera y dató la curva, dejando explícito que la interpretación HII era M-03/W4. Aquí se cobra esa deuda. Y aquí se decide si la tesis sobrevive o se reconvierte.

1. El encargo, sin adornos

El panel VC-hostil va a hacer una sola pregunta, y la formuló el MoE (measurability_question):

"¿De verdad puedes MEDIR la reemplazabilidad del trabajo —la Human Input Intensity por rol—, o es una metáfora con tabla de Excel? Enséñame quién, hoy (2024-2026), mide algo equivalente con datos y metodología declarada; y si lo que tienes son proxies, justifícame cada salto proxy→HII y dime por qué tu cifra de HII por rol no es simplemente una hipótesis ilustrativa disfrazada de medida. Y si solo es ilustrativa: ¿qué te queda como moat?"

El axioma frágil A5 del MoE dice la verdad incómoda de entrada: que HII sea medible barata, repetible y a escala NO está demostrado. Mi trabajo no es disfrazar eso. Es decidir honestamente si aguanta, y si no, construir el Plan B meta-nivel como tesis principal.

2. El movimiento intelectual central (el thinking, no el resumen)

He recorrido los 16 filas D3 y la conclusión es inequívoca: ninguna fuente del corpus mide HII directamente. Todo lo disponible son PROXIES de la intensidad de input humano. Esa es la cuña. Y lo honesto no es esconderla: es ponerla en el título.

He organizado la evidencia en dos columnas adversariales, que es lo que el Estándar A punto 2 exige y lo que W3 no podía aún entregar (el substrate lo dice: "el corpus NO contiene aún la lista EN-CONTRA"). Ahora sí la tengo, porque W4 trajo las refutaciones:

A FAVOR de la medibilidad (6 filas SOSTIENE): Anthropic Economic Index primitives (D3-001) + labor market impacts (D3-002), ILO WP140 índice refinado (D3-003), METR Time Horizon 1.1 (D3-008), EPAs/escala de entrustment (D3-012), EDPS in-the-loop vs on-the-loop (D3-013).
EN CONTRA / REFUTA (6 filas): Toby Ord vida media (D3-009), ILO Research Brief "exposure ≠ outcome" (D3-014), EIG "AI and Jobs: the final word" (D3-015), NBER WP35110 "when the ruler is made of the thing it measures" (D3-016). Más los NEUTRO/proxy que matizan (D3-004 GPTs-are-GPTs mide potencial no impacto, D3-005 OCDE ILUSTRATIVO prospectivo, D3-006 WEF cifra forward-looking, D3-007 METR original, D3-010 GDPval one-shot, D3-011 UpBench).

El hallazgo que destruye la versión ingenua de la tesis es D3-016 (NBER): cuando replicas el scoring de exposición ocupacional con varios modelos LLM, divergen 3,6x, el acuerdo es 57%, kappa=0,36 — un modelo marca 14% de tareas expuestas y otro 51%. La regla está hecha de lo mismo que mide. Esto, junto con D3-015 (EIG: cinco medidas de exposición vs microdatos de paro → SIN correlación; el quintil más expuesto sube +0,30 p.p. de paro vs +0,94 p.p. del menos expuesto, patrón OPUESTO al esperado) y D3-014 (ILO: "exposure indicators reveal technological susceptibility, not labour market outcomes"), forma un muro de contraevidencia 2024-2026 que un VC competente ya conoce. Si yo no lo pongo encima de la mesa, lo pone él, y entonces pierdo toda la credibilidad.

3. La decisión honesta: measurability_holds = PLAN_B

No fuerzo. La medibilidad de HII como medida directa, barata, repetible y a escala NO aguanta hoy. Aguanta como proxy declarado, pero el salto proxy→HII-por-rol-como-número-de-Excel es exactamente lo que la triada NBER+EIG+ILO refuta sobre repetibilidad y validez externa.

Por tanto la tesis principal del documento NO es "Momentum mide la reemplazabilidad del mundo". Es el Plan B meta-nivel, que resulta ser más fuerte y más defendible:

Momentum no reclama un mapa de reemplazabilidad: lo trata como hipótesis falsable, y la falsa con su propia telemetría. Lo que sí mide, barato y repetible, es el residuo de verificación: cuánto criterio humano exige cada output dentro de la plataforma (Weighted Verified Outputs + telemetría de ejecución del grafo de competencia, sostén pedagógico D3-006/sistemática authentic assessment). El mapa de HII por rol del mercado es la hipótesis externa; el moat es la telemetría interna que la confirma o la rompe rol a rol. El moat se construye, no se reclama.

Esto convierte la debilidad (no puedo medir HII a escala desde fuera) en la razón de existir del producto: el único sitio donde HII se mide de verdad es dentro de un loop de ejecución verificada, y ese loop es Momentum. Los cinco proxies medidos del corpus son la mejor aproximación pública disponible — y son justamente lo que la plataforma sustituye por medida primaria.

4. La cadena de proxies declarada (cada salto justificado)

Esto es lo que el Estándar A punto 4 exige y lo que blinda el documento ante "¿de dónde sale tu número?":

Task-level exposure → HII (D3-001/002/003/004): mide patrón de uso o exposición teórica a nivel tarea, NO criterio humano requerido. Salto = asumir que "tarea tocada por IA" ≈ "input humano reducido". Débil: D3-014/015 lo refutan (susceptibilidad ≠ resultado).
Autonomy gap (benchmarks) → HII (GAIA/WebArena vía W3, D3-010 GDPval, D3-011 UpBench): mide brecha de capacidad agregada en tareas reales. Salto = de brecha poblacional a HII por rol individual. Es brecha, no intensidad por tarea.
Human-in-the-loop intensity → HII (τ-bench/τ²-bench vía W3): el proxy MÁS FUERTE — mide directamente la intervención humana necesaria para el éxito (pass^8 <25% en retail). Salto mínimo, pero es de entorno benchmark a rol del mundo real.
Time-to-competency → HII (D3-007/008 METR): proxy temporal de la frontera. Salto = de horizonte de tarea software a HII genérica; el propio paper declara límites de validez externa.
Escalas de supervisión retrospectiva → HII (D3-012 EPAs): plantilla psicométrica/ordinal de "cuánta supervisión necesita un actor", importada de medicina. Salto de dominio que debe justificarse explícitamente.

Cada salto declarado = cada salto atacable, y eso es la fortaleza, no la debilidad.

5. Robustez bajo escenarios A y D (no solo el optimista B)

Escenario A (plateau agéntico): si la capacidad se estanca, el mapa estático de HII envejece mal — pero el Plan B gana, porque la telemetría interna captura el plateau en tiempo real (D3-009 Toby Ord: vida media bajo hazard constante = la capacidad puede decaer/estancarse en tareas largas). El producto que mide el residuo no depende de que la curva siga subiendo.
Escenario D (reacción institucional/sindical): si llega regulación de supervisión humana obligatoria, D3-013 (EDPS in-the-loop vs on-the-loop) convierte el residuo de verificación en requisito legal, no en lujo. La HII deja de ser métrica de eficiencia y pasa a ser métrica de cumplimiento. El Plan B se refuerza: Momentum mide exactamente lo que el regulador va a exigir demostrar.

La tesis ingenua (mapa estático medido desde fuera) NO sobrevive ni a A ni a D. El Plan B sobrevive a ambos. Esa es la prueba de que el pivote es correcto, no cosmético.

6. Notas de método y deuda

16 filas D3 todas con URL resoluble (regla dura 1), etiqueta MEDIDO/ILUSTRATIVO/N-A honesta. NUNCA una ilustrativa vendida como medida (D3-005 OCDE y D3-006 WEF cifra forward-looking = ILUSTRATIVO explícito; D3-013/014 = N-A porque son marco/brief sin cifra de capacidad).
La tabla MEDIDO↔ILUSTRATIVO del documento etiqueta CADA cifra HII/exposición citada. Una sola ambigüedad = REJECT.
NotebookLM: el notebook ya tenía METR (2503.14499), WebArena, GAIA, OSWorld, τ-bench, τ²-bench, Anthropic Economic Index, authentic assessment systematic review. Subo las D3 primarias nuevas clave que faltaban (Toby Ord half-life, GDPval, UpBench, METR Time Horizon 1.1, NBER WP35110, ILO WP140, GPTs-are-GPTs, ILO Research Brief, EIG).
Deuda: subido_a_notebooklm = pendiente en las 16 filas D3 del Sheet → reconciliar flag tras ingesta. D3-008/D3-001/D3-016 son fuentes 2026 (recientes, prioritarias).

7. Lectura honesta para el VC (self-assessment)

Si presento la versión "medimos la reemplazabilidad del mundo", el VC me revienta con NBER+EIG+ILO en treinta segundos y tiene razón. Si presento el Plan B —"el mapa es hipótesis falsable, el moat es la telemetría de verificación interna"— el documento sobrevive, porque (a) reconozco la contraevidencia antes de que me la enseñen, (b) declaro cada salto proxy→HII, (c) muestro que el producto gana en los escenarios adversos A y D. El gate se pasa por honestidad intelectual, no por optimismo.

W4 · A-retro + verdict panel

Veredicto final del gate: APPROVE (binario · §S24). Panel adversarial dual — reviewer#1 APPROVE · reviewer#2 APPROVE. Regla respetada: APPROVE binario SOLO si AMBOS APPROVE. verdict_id Dev OS = a0590024-4f8b-490f-a9af-138d97501210 · timestamp 2026-06-17T19:56:48Z.

Cómo se pasó el gate crítico. No por declarar HII medible —no lo es a escala desde fuera, y ese era el riesgo de REJECT automático—, sino por la honestidad estructural del documento: measurability = PLAN_B se declara en el cuerpo (líneas 7 y 128), la cifra más vendible (HII por rol = reemplazabilidad) se etiqueta ILUSTRATIVA en la tabla MEDIDO↔ILUSTRATIVO, y el axioma frágil A5 se reconoce roto citando la evidencia que lo rompe (NBER D3-016, kappa=0,36). El documento se auto-refuta antes de que lo haga el panel. Eso es exactamente lo que el Estándar A premia: el pitch deshonesto habría ocultado D3-016/D3-015/D3-014; este los pone en la columna EN-CONTRA (6 refutan vs 6 sostienen vs 4 neutro — equilibrio real, no decorativo).

Verificación en vivo de dos cifras MEDIDO (no auto-reporte numérico, evidencia de tercer tipo): D3-015 EIG confirmado verbatim (quintil MÁS expuesto +0,30 p.p. de paro vs +0,94 p.p. del MENOS expuesto — patrón opuesto al esperado, la fuente lo sostiene); D3-008 METR Time Horizon 1.1 confirmado (doubling 131 días, Opus 4.5 = 320 min, GPT-5 = 214 min, 228 tareas). Ninguna falla. Trazabilidad contra el Sheet 18xMnjka: 16 filas D3 (Corpus 56-71) con etiquetas, URLs resolubles y notas adversariales coherentes (correcciones "escala validada"→"escala ordinal estándar" en D3-012, R²=0,83 no confirmado en D3-007). Cero cifra huérfana.

Semáforo A-retro: GREEN. W4 entregó un gate honesto con dientes: APPROVE sostenido por un Plan B meta-nivel coherente y demostrado como necesidad lógica (sobrevive a los escenarios adversos A-plateau y D-reacción institucional; la tesis ingenua no sobrevive a ninguno). El Plan B NO es un fallo: es la salida honesta y, además, la más fuerte —convierte "no puedo medir HII desde fuera" en la razón de existir del producto (la telemetría de verificación interna como moat construido, no reclamado). No hay deuda de invención: ninguna ilustrativa vendida como medida (= condición de REJECT automático, evitada). Deuda menor arrastrada (no bloqueante): reconciliar flag subido_a_notebooklm en las 16 filas D3 tras ingesta.

Implicación de scope para M-04. Con measurability = PLAN_B, W5 (escenarios 2027-30) y W7 (síntesis → outline paper) se replanifican sobre la tesis del residuo de verificación, no sobre el mapa estático de HII. El mapa entra como hipótesis externa falsable; el eje narrativo del paper es la medida interna. Esto es replanificación normal de M-04, no un retroceso.

📍 Estás aquí: M-03 W4 → A-heartbeat (COMBO-CHECK) + A-retro completados · gate HII/reemplazabilidad cerrado APPROVE (panel dual)

measurability = PLAN_B · semáforo GREEN · verdict a0590024 registrado en Dev OS

➡️ Siguiente paso recomendado: M-04 (W5 escenarios 2027-30 + W7 síntesis) — replanificados sobre la tesis del residuo de verificación. NO ejecutar en este COMBO.

🗺️ Recorrido COMBO W4:

✅ COMBO-OPEN (R-context + P-plan)

✅ IMPL (D-spec síntesis HII/reemplazabilidad)

✅ COMBO-CHECK (A-heartbeat)

👉 COMBO-CLOSE (A-retro + verdict panel) ← aquí

⬜ M-04 (W5/W7) — fuera de este COMBO

💡 ¿Sabías que?: el gate se pasó por honestidad intelectual (auto-refutación con NBER/EIG/ILO antes que el panel), no por optimismo — el Plan B meta-nivel es más defendible que la tesis ingenua que pretendía sustituir.

Journal M-02 · W6

W6 (M-02) · Pedagogía — DEMONSTRATES-not-PASSES y validez de evaluación por outputs

Barrido: Pedagogía & ciencia del aprendizaje. 18 fuentes verificadas (2024-2026 prioritarias), todas con DOI/URL resoluble. Etiquetado: 11 MEDIDO (con tamaño de efecto), 7 N-A (revisiones/scoping cualitativas sin estimador agregado). Cero ILUSTRATIVO: lo que no traía cifra y era cualitativo se reclasificó a N-A, no a "ilustrativo decorativo".

Tesis del barrido

W6 no es el eslabón de mercado (eso es W1: el colapso del lead-time formativo como hecho macro). W6 es el eslabón de método y de medición: ¿con qué pedagogía se comprime la curva tiempo→competencia, y con qué evaluación se demuestra esa competencia de forma defendible cuando la IA trivializa el examen de recuerdo? Dos acuñaciones candidatas vertebran el hallazgo: DEMONSTRATES-not-PASSES (la unidad de valor es demostrar la tarea real, no aprobar un test) y Weighted Verified Outputs (selección/competencia por productos verificados y ponderados por rúbrica).

Hallazgos clave por eslabón de la columna vertebral

1. Categoría — qué cuenta como aprendizaje efectivo en adultos.

El aprendizaje activo (PBL/PjBL/CBL) mueve la magnitud, no solo el signo. Wijnia 2024 (D6-003): motivación d=0,498 sobre 132 estudios. Orhan 2024 (D6-004): adquisición g=1,067 (efecto grande) en EFL. La pregunta de "qué es aprender bien" tiene respuesta cuantitativa: hacer, no escuchar.

2. Colapso del lead-time (vertiente método).

Learning-by-doing comprime la curva de competencia de forma medible. Kanoksin 2025 (D6-002): RCT n=48, OSCE 69,79 (práctica deliberada) vs 51,38 (clase magistral), p≈2e-6 — +18 puntos. Tong 2024 (D6-006): RCT multicéntrico de simulación en enfermería (5 universidades, 239 completados), ventaja significativa de manos+combinado sobre solo-ordenador, pero atenuada a 3 meses — matiz que NO se puede ocultar: la aceleración necesita refuerzo/transferencia para durar. Esto enlaza con el eslabón siguiente.

3. Brecha learning-vs-transfer (el eslabón más afilado).

Aquí está la munición más fuerte del paper, y es contraintuitiva. McKay 2024 (D6-001): el reskilling de adultos aprende mucho (learning g=0,73) pero cambia poco la conducta on-the-job (transferencia conductual g=0,34, no significativa); y el efecto inmediato (g=0,86) se desploma en evaluaciones diferidas (g=0,40). Traducción de negocio: formar ≠ re-empleabilidad real. El producto Momentum no puede venderse como "formación"; debe venderse como capacidad demostrada y transferida. Mehner 2024 (D6-017, estudio mixto 541+51) y Razak 2024 (D6-018, review) confirman el mecanismo: el aprendizaje formal solo se convierte en desempeño cuando hay transferencia en contexto (apoyo de pares/mandos). Sin transferencia, el lead-time formación→competencia no colapsa, solo se desplaza.

4. Bifurcación AI/Human + DEMONSTRATES-not-PASSES.

Cuando la IA vuelve trivial la respuesta de examen, la señal válida migra a la evaluación auténtica / por desempeño. Soporte cualitativo (N-A): Vlachopoulos 2024 (D6-007, SLR 21st-century skills), Zhan 2025 (D6-008, scoping), Hu 2025 (D6-009, SLR síntesis narrativa, 52 estudios), Nieminen 2024 (D6-010, agencia epistémica = franja humana no sustituible), Blockley 2025 (D6-011, caso directo de educación de adultos: degree apprenticeship en criminología/policing — el público nuclear de Momentum). Sostén institucional fuerte: Cheung 2024 (D6-012) — programa nacional de EPA/entrustment en formación médica de posgrado canadiense. El principio "demuestra, no apruebes" tiene respaldo de sistema, no solo de teoría.

5. Mapa de reemplazabilidad (vía transferencia y vía medición).

Li 2024 (D6-005): la transferencia cercana/lejana decide si la habilidad se traslada a tareas nuevas (37 estudios, 7.832 aprendices, efecto moderado, mayor en lo cognitivo). Kim 2025 (D6-016, Journal of Management, N=75.033, ρ=0,13): la formación predice desempeño según se mida por output realizado y capital humano específico — modera por intensidad de conocimiento sectorial. La reemplazabilidad de una habilidad se lee mejor por su perfil de transferencia que por la nota que sacó en clase.

Viabilidad técnica de Weighted Verified Outputs (el sostén psicométrico)

La objeción obvia a "evaluar por outputs verificados" es "¿es fiable?". Tres fuentes MEDIDAS la responden:

IA como evaluador fiable por rúbrica: Yavuz 2024 (D6-013, BJET): ICC ChatGPT afinado=0,972 vs humanos. Quah 2024 (D6-015, BMC Med Educ): GPT-4 vs 3 humanos, ICC 0,794-0,858 (acuerdo excelente). → La verificación por IA de productos basada en rúbrica es psicométricamente defendible y escalable.
Coste de verificación humana dimensionado: Lertsakulbunlue 2025 (D6-014, G-theory): para dependabilidad aceptable hacen falta 9 pares / 5 profesores (r inter-pares=0,73). → Sabemos cuánto cuesta verificar sin IA, lo que justifica el híbrido IA+humano.

Lectura estratégica: Weighted Verified Outputs no es aspiracional. Hay ICC≈0,8-0,97 IA-vs-humano y un dimensionamiento G-theory del coste humano. La métrica es construible hoy.

Qué refuerza y qué refuta

Refuerza la columna vertebral en dos puntos nuevos: (a) el método activo/simulación comprime el lead-time de forma medida (eslabón colapso); (b) la evaluación por desempeño verificado es técnicamente viable y con respaldo institucional nacional (eslabón bifurcación + mapa reemplazabilidad).
Refuta / matiza la lectura ingenua "formar = empleabilidad": la brecha learning-vs-transfer (g=0,34 n.s.) y la atenuación a 3 meses obligan a posicionar Momentum como capacidad demostrada y transferida, no como catálogo de cursos. Este matiz es un activo, no un problema: es justo la cuña de diferenciación frente al e-learning tradicional.

Disciplina de evidencia aplicada

Re-etiquetados de la candidata: 6 fuentes pasaron de MEDIDO→N-A (D6-007/008/009/010/012) o ILUSTRATIVO→N-A (D6-011) por ser revisiones/scoping/casos cualitativos sin estimador agregado. Una pasó de MEDIDO→N-A adicional (D6-018, review sin cifra).
Correcciones de metadato: autoría ampliada/corregida en D6-001/002/003/007/008/009/010/011/018; título a literal en D6-014/015; año a 2025 en D6-016 (ahead-of-print, no 2026).
Cero invención: los 18 DOIs/URLs resuelven (algunos hosts devuelven 403/Cloudflare anti-bot; verificado por la vía secundaria — Semantic Scholar / página oficial — antes de admitir).

Nota operativa NotebookLM

18 fuentes enviadas al notebook. La mayoría con título académico limpio confirmando ingesta correcta. Cuatro (D6-010, D6-011, D6-016, D6-018) devolvieron interstitial/landing (Cloudflare "Just a moment…" / SAGE landing) en el momento de captura: el source quedó creado, pero conviene re-verificar su contenido en una pasada posterior por si el host bloqueó el render. No se invirtió pago: solo rutas gratuitas (DOI público / SAGE abstract abierto).

W6 · A-retro

Semáforo: VERDE. Verdict advisor APPROVE (Dev OS id 2976bb59-db3c-4336-a0c8-26f637045734, 2026-06-17T19:25:42Z). Gate=8 superado con holgura: 18 filas D6 (D6-001..D6-018), 100% con url_fuente real + año 2024-2025 + etiqueta de evidencia.

Wins

Cobertura sobrada del dominio Pedagogía: 18 fuentes vs gate de 8 (225%), todas verificables.
Etiquetado MEDIDO/N-A disciplinado y honesto: las síntesis narrativas/scoping reviews/estudios reflexivos se reclasificaron a N-A (D6-007, D6-008, D6-009, D6-010, D6-011, D6-012, D6-018) en vez de inflarlas como MEDIDO. Eso protege la credibilidad ante un VC.
Muestra adversarial limpia: las 3 filas al azar (D6-001, D6-009, D6-013) verificadas vía Semantic Scholar — título/autores/año/venue y naturaleza cuantitativa-vs-cualitativa coinciden con la etiqueta. Cero invención.
Grounding nítido en la columna vertebral: cada nota ancla a un eslabón (colapso del lead-time vía learning-by-doing / práctica deliberada; bifurcación AI-Human vía evaluación auténtica y "demonstrates-not-passes"; mapa de reemplazabilidad vía transferencia y agencia epistémica; fiabilidad de Weighted Verified Outputs vía ICC y G-theory).
Disciplina de scope: NO se derivó HII ni reemplazabilidad cuantitativa (eso es M-03/W4). D6 entra solo como evidencia pedagógica.

Debts

Verificación por vía secundaria, no primaria: los hosts de editorial (Wiley 402, SAGE landing, hrmars 403) bloquean WebFetch; la confirmación se apoyó en Semantic Scholar API. Es suficiente para APPROVE pero conviene una pasada de re-verificación de contenido directo cuando se pueda (navegador/sesión 9255).
4 sources NotebookLM con interstitial (D6-010, D6-011, D6-016, D6-018): el source quedó creado pero devolvió Cloudflare/landing en captura. Re-verificar ingesta real en pasada posterior.
D6-016 con paywall SAGE (journals.sagepub abstract): verificado vía SS, pero el PDF primario no es de acceso libre. Marcar para localizar versión abierta si se necesita el cuerpo.
Heterogeneidad de outlets pedagógicos (BMC Med Educ, revistas EFL/dental) — alta calidad metodológica individual, pero conviene en M-03 priorizar las meta-analíticas (D6-001, D6-003, D6-004, D6-005, D6-016) como espina dorsal cuantitativa y dejar las N-A como soporte cualitativo.

Estado

nb_uploaded=18 · journal=true · filas D6 escritas=18 · gate=8 · freeze.lock ausente. Sin git commit (consolidación posterior tras los 3 barridos).

Journal · M-03/W4 — El cruce estratégico del pivote de tesis

Entrada A (macro-orquestador) + diálogo CEO. Registra el momento en que la tesis central se sometió a escrutinio y pivotó. Thinking del proceso, no resultado pulido. 2026-06-17.

El momento

W4 (gate crítico) sometió la columna vertebral a un panel adversarial dual + el estándar de escrutinio A pre-escrito. La tesis ingenua se rompió empíricamente. No fue una opinión: fue evidencia.

NBER (D3-016): la medida de reemplazabilidad es circular — kappa 0,36, "la regla está hecha de lo mismo que mide".
EIG (D3-015): el quintil MÁS expuesto a IA tuvo MENOS paro. El patrón es opuesto a "exposición = desplazamiento". El dato real contradice el eslogan.

Esto es exactamente lo que un repo con "cero invención" como valor #1 debe hacer: matar su propia tesis favorita antes de que la mate un VC.

El error de los dos extremos (por qué no es binario)

Mapa estático "medimos la reemplazabilidad": muere en due diligence. Pero es el concepto vendible — grande, ownable, acuñable. Tirarlo entero = perder el punch de categoría.
Solo meta-nivel "medimos el residuo con nuestra telemetría": honesto, pero pre-producto suena a vapor (no existe esa telemetría aún). Un VC: "no tenéis moat, tenéis un plan de moat".

Caer entero en cualquiera de los dos extremos es el fallo.

El insight que reconcilia

El mapa y el residuo no son rivales · están en capas distintas de la pila:

Mapa de reemplazabilidad = PRODUCTO / destino (la visión grande, la categoría a poseer).
Residuo de verificación + telemetría = MECANISMO / moat (cómo se construye ese mapa).

Y hay evidencia pública REAL hoy (la trajo W4): Anthropic Economic Index (43/57 augment/automate), METR (horizonte temporal ~131d doubling), benchmarks de autonomía. → un mapa direccional defendible AHORA, sin esperar a la telemetría.

Síntesis candidata: Momentum construye el mapa de reemplazabilidad — direccional hoy (proxies públicos de exposición), preciso mañana (telemetría propia de outputs verificados). Categoría = capa de capacidad · wedge = output verificado · moat = el instrumento + la telemetría que compone con cada usuario. Mantiene el mapa (marketing), es honesto (direccional→preciso), y da historia de moat pre-producto (eres quien construye el instrumento · first-mover en el léxico).

Las 3 framings sobre la mesa (decisión del CEO · dueño de la tesis)

Pivote puro (lo que dio W4): liderar con residuo/telemetría. Máximo rigor, menos punch, riesgo "vapor".
Síntesis direccional→preciso (recomendación A): el mapa es la bandera, la telemetría el motor; honestidad temporal como feature ("nadie lo mide aún; somos el instrumento").
Liderar con verification economy: titular = "IA abarata generar → cuello = verificar → Momentum = capa de verificación"; el mapa pasa a subproducto. Sidestep total del claim roto.

Preguntas abiertas al CEO (esperando)

¿Mantener el mapa como bandera (2) o mover el titular a verification economy (3)?
Acuñación: ¿"mapa de reemplazabilidad" (cualificado como direccional) o acuñar sobre "verificación / output verificado" (terreno más limpio)?
¿Lector nº1 del paper = VC (manda supervivencia DD) o enterprise (manda Business Impact)? Cambia qué framing lidera.

Por qué este momento importa para el libro

Este es el tipo de giro que un paper investor-grade esconde y un journal honesto muestra: la tesis no se decretó, se ganó contra la evidencia. El lector del journal verá cómo se piensa, no solo la conclusión. Decisión Dev OS: 766e9115. Verdict W4 panel: a0590024. Gate abierto: M-04 espera ratify CEO del encuadre.

Journal · M-04 W5 — síntesis de escenarios 2027-2030 (SKU D-spec)

Libro en tiempo real del thinking. Rationale, decisiones, cambios de opinión. El output formal vive en research/w5-escenarios-2027-2030.md; aquí va el por qué de cada decisión.

0. Encuadre del encargo

Soy el SKU D-spec/síntesis del COMBO W5 (M-04). No hago research nuevo (eso fue M-02/W4 y el panel M-04). Sintetizo: cojo los ejes que vinieron en la herencia R-context, los anclo a la evidencia ya medida del corpus, y escribo 3-4 escenarios arborescentes 2027-2030. Manda thesis-canon-v2.md + panel-synthesis-m04.md (leídos enteros) + corpus W4 (w4-hii-reemplazabilidad.md, filas D3).

Registrado en Dev OS: register_prompt(sku=D-spec) → artifact 1b4348c6-…, combo_state a3e08d20-…, sin COMBO_SEQUENCE_VIOLATION. La cadena estaba abierta y D-spec encajó.

freeze.lock: NO presente → procedo, commits permitidos (aunque no se me pide commit explícito).

1. La restricción que estructura TODO: no hay inferencia rol→desplazamiento

Antes de escribir una línea, el guardarraíl número uno. El panel puso Ethical/comms risk = 3 (el más bajo) precisamente por el salto agregado→individual y exposición→desplazamiento. Y el W4 ya tenía el material para matarlo en el texto:

EIG (D3-015): el quintil MÁS expuesto a IA subió el paro solo +0,30 p.p. vs +0,94 p.p. el MENOS expuesto. Patrón OPUESTO al esperado. Esto NO es un detalle: es la cota dura que prohíbe el salto exposición→paro. Va EN EL TEXTO de cada escenario, no en una nota al pie.
NBER kappa 0,36 (D3-016): la regla está hecha de lo mismo que mide. 3,6x divergencia entre modelos, 57% acuerdo. Esto fuerza que la medida primaria sea INTERNA (residuo de verificación en loop sobre el gold-standard del CLIENTE), nunca LLM-scoring de exposición O*NET (que tendría el mismo kappa circular).

Decisión: cada escenario abre o cierra citando EIG + NBER como límites. No como adorno: como la razón por la que el escenario habla de residuo de verificación agregado de proceso y nunca de "qué rol cae". Verbos observacionales ("aún requiere verificación"), nunca normativos ("los humanos deben verificar"). El panel ordenó MATAR "where humans still need to judge/verify".

role_displacement_inference del schema = false. No hay ni una. Lo verifiqué al cerrar: ningún escenario dice "el rol X se reemplaza" ni "se desplaza". Hablan de % de outputs de un proceso que aún requieren firma/override/accountability.

2. Los cuatro ejes (de la herencia R-context) y cómo los cruzo

Eje 1 (vertical, técnico): Plateau agéntico (Toby Ord, D3-009, half-life → decaimiento exponencial en tareas largas) vs Aceleración sostenida (METR TH1.1, doubling ~131d post-2023, "20% más rápido"). Descontar SIEMPRE el benchmark-to-workplace gap: METR mismo declara "datasets designed to capture skills required for research or software engineering" → validez externa limitada a software.
Eje 2 (horizontal, social): Laissez-faire vs Supervisión humana obligatoria (works councils / EU AI Act / sindical; EDPS in/on-the-loop D3-013; EPAs ordinal D3-012).
Eje 3 (derivada 2ª-3ª, transversal INVIOLABLE): validez del instrumento externo COLAPSA vs SE CONSOLIDA. NBER 0,36 + EIG + ILO. Esto NO es un cuadrante: es restricción que atraviesa los cuatro escenarios y obliga a medida interna en continuo.
Eje 4 (derivada 4ª, serendipia · cierre): verificación como COMMODITY de plataforma (labs/incumbentes federan SSO+agentes+HRIS — señal Nadella) vs ACTIVO PROPIETARIO del cliente (gold-standard auditado, grafo exportable/propiedad). Determina si el residuo es defendible o lo absorbe el ecosistema.

Cruce elegido (el sugerido en la herencia, que es el correcto): Eje 1 × Eje 2 = 4 cuadrantes → 4 escenarios. Eje 3 = restricción transversal en los 4. Eje 4 = derivada de cierre que cada escenario resuelve al final.

A = Plateau + Laissez-faire
B = Aceleración + Laissez-faire
C = Aceleración + Supervisión obligatoria
D = Plateau + Supervisión obligatoria

Decisión: 4 escenarios, no 3. El encargo pide "3-4" y cubrir explícitamente A (plateau) y D (institucional). Con 4 cubro el cuadrante completo y los dos adversos quedan tratados a fondo, no de pasada. scenarios_count = 4.

3. Cambio de opinión durante la escritura

Primer instinto: hacer B (el optimista) el escenario "largo" y los otros breves. Lo descarté. El gate del panel y del W4 es justo lo contrario: la tesis ingenua muere en A y en D; el Plan B (residuo en loop) sobrevive en los 4 y MEJORA en D (tailwind regulatorio). Así que A y D reciben el mismo peso analítico que B y C. El escenario que más "vende" Momentum no es B, es D — y eso es contraintuitivo y honesto a la vez.

Segundo ajuste: la señal Satya. Tentación de meterla solo en B/C (donde el ecosistema acelera). Decisión: la señal Nadella ("a frontier without an ecosystem is not stable" + "this transition is different") es Eje 4, y el Eje 4 se resuelve en LOS CUATRO escenarios. En B/C empuja hacia commodity de plataforma (riesgo de absorción del moat); en A/D el argumento "this transition is different" se lee distinto: si la curva técnica se estanca o la regula, el ecosistema no puede federar lo que no es estable, y el activo propietario del cliente (gold-standard auditado) gana defensibilidad. La señal cabe en los 4, con lectura distinta. Eso es pensamiento de 4ª derivada, no decoración.

4. Honestidad temporal y etiquetado (regla Telar + w4-hii)

Telar avisó: NO derivar ROI plausible, NO inventar cifras. Solo cifras del corpus (con fila D3) o etiqueta [HIPÓTESIS DESCRIPTIVA]. Aplicado:

Toda cifra MEDIDA que uso lleva su fila D3 y su limitación declarada (METR → "software only").
Toda proyección 2027-2030 = [HIPÓTESIS DESCRIPTIVA], jamás causal. No hay ni un "porque X entonces Y" determinista. Son fotos descriptivas de mundos posibles.
Cero ROI inventado. Donde el lector esperaría un número de negocio, pongo el mecanismo (residuo agregado de proceso) y lo etiqueto hipótesis.
El Verified Capability Graph se trata como visión de 2º orden 2027+ (nodos con barras de error), nunca como claim de V1. V1 = Verified Execution.

5. El Execution-to-Capability Loop en cada escenario

El loop es el instrumento, no el mapa. En cada escenario describo cómo evoluciona su residuo agregado bajo ese mundo, con horizontes METR descontados. Mecánica fija (de la herencia + thesis-canon-v2):

Misión sobre herramienta real → Verified Output (criterio público del gold-standard del CLIENTE → rompe el LLM-judge circular del 0,36).
V1 = Verified Execution, NO capability.
Transfer Probe (re-ejecución sin andamiaje + demora) → Weighted Verified Outputs.
El loop mide el RESIDUO DE VERIFICACIÓN agregado = % de outputs que a nivel proceso aún requieren firma/override/accountability humana. NO mide "qué rol desaparece".
Honestidad temporal: residuo + grafo = 2º orden 2027+.
El loop es el instrumento porque HII por rol NO es medible hoy (kappa 0,36 + EIG + ILO); el mapa es hipótesis falsable que el loop confirma o rompe con su propia telemetría. "El moat se construye, no se reclama."

6. Qué NO hice (límites)

NO redacté el paper (eso es W7).
NO toqué nivel individual.
NO abrí Chrome ni otro 9255 (no hacía falta; todo era síntesis sobre corpus en disco).
NO inventé cifras ni ROI.
NO inferí rol→desplazamiento (verificado: 0 instancias).

7. Cierre

Output: research/w5-escenarios-2027-2030.md (4 escenarios, es-ES, voz McKinsey enterprise-first). Guardarraíles EIG + NBER explícitos en el texto de cada escenario. Señal Satya incorporada en los 4 (Eje 4). role_displacement_inference = false. Avanzo el work item con una note.

W5 · A-retro + verdict

Semáforo: 🟡 AMARILLO — el COMBO se ejecutó con disciplina y la arquitectura del documento es sólida, pero el gate V-review detectó un defecto de grounding real que impide cerrar la wave como está. No es cosmético: toca la regla dura "cero invención de cifras / solo entran cifras con fila D3 del corpus".

Verdict V-review: REJECT (id ref. en Dev OS · advisor_verdict M-04 W5)

Causa raíz. Los rangos de minutos por modelo citados como D3-008 — Claude 3.7 Sonnet 56-59 min, o3 78-94 min, Sonnet 4.5 122-164 min, Opus 4.5 270-289 min (líneas 41 y 58 del doc) — no figuran en las filas D3 del corpus. Provienen de una consulta a NotebookLM, no de una fila D3 trazable de w4-hii-reemplazabilidad.md. Esto viola dos guardarraíles inviolables a la vez:

La regla del propio documento (§5, línea 5): "solo entran cifras con fila D3 del corpus, con su etiqueta MEDIDO/ILUSTRATIVO y su limitación declarada".
El aviso de Telar / regla dura del MANDATO: NO inventar cifras/fuentes; usa solo cifras del corpus o etiqueta hipótesis. Un rango con apariencia de MEDIDO que no tiene fila D3 detrás es exactamente el fallo que el gate existe para cazar.

Matiz de honestidad (cross-check D3, obs. Engram 21551). El cross-check confirmó la trazabilidad del bloque D3-008 en lo estructural (el doubling ~131d, la serie histórica 195,8d [162,223], el benchmark-to-workplace gap METR son todos MEDIDO y trazables); la discrepancia se concentra en los minutos por modelo (notablemente Opus 4.5) que difieren entre fuentes. Es decir: el esqueleto del argumento está bien anclado; el defecto es un detalle numérico decorativo que no debió presentarse como cifra del corpus.

A-heartbeat (COMBO-CHECK del cierre)

Guardarraíl no-inferencia rol→desplazamiento: ✅ 0 instancias (verificado, todo a nivel agregado de proceso/rol/equipo).
Guardarraíl nivel individual (EU AI Act / GDPR): ✅ respetado; toda la analítica es agregada.
Etiquetado [HIPÓTESIS DESCRIPTIVA] en toda proyección 2027-2030: ✅ presente y consistente, jamás causal.
Guardarraíles EIG (+0,30 vs +0,94 p.p.) y NBER (kappa 0,36 / 3,6×) explícitos en el texto de los 4 escenarios: ✅.
Cero ROI inventado: ✅.
Cifras MEDIDAS con fila D3: ❌ — fallo puntual en los rangos de minutos por modelo (D3-008). Único defecto material.

Qué corregir antes de W7 (no se redacta el paper hasta cerrar esto)

Retirar los rangos de minutos por modelo de las líneas 41 y 58, o re-etiquetarlos honestamente como ILUSTRATIVO/no-D3 si se conserva la fuente NotebookLM con su limitación declarada — nunca presentados como MEDIDO/D3-008.
Reafirmar la cita D3-008 solo con lo trazable: doubling ~131d (TH1.1), serie 195,8d [162,223], benchmark-to-workplace gap. El mecanismo de Ord (D3-009) y la decadencia exponencial por longitud de tarea se sostienen sin necesidad de los minutos por modelo.
Re-pasar V-review sobre el doc corregido antes de avanzar a redacción.

Lección para el corpus

La frontera entre "cifra del corpus con fila D3" y "cifra recordada/consultada que suena plausible" es justo donde el gate adversarial gana su sueldo. El documento es enterprise-grade en estructura y disciplina de guardarraíles; el aprendizaje es operativo: toda cifra numérica debe resolverse contra una fila D3 explícita en el momento de escribirla, no a posteriori. Wave M-04 W5 = entregable sólido con un defecto de grounding acotado y corregible → AMARILLO, no VERDE.

Avanzo el work item con una note honesta (verdict REJECT registrado, fix pendiente pre-W7).

W5-fix · re-verdict

Fecha: 2026-06-17 23:42 GMT+2 · SKU A-retro (cierre del fix).

El REJECT de la iteración 1 (b11bef8f) tenía un único defecto de grounding, acotado y corregible: en research/w5-escenarios-2027-2030.md L41 (Escenario A) se había colado un fragmento METR por-modelo fabricado —"Claude 3.7 Sonnet 56-59 min, o3 78-94 min, Sonnet 4.5 122-164 min, Opus 4.5 270-289 min, D3-008"— no trazable a ninguna fila D3 del corpus (origen NotebookLM, no corpus).

Fix aplicado (I-code): eliminado el fragmento fabricado; reemplazado por las cifras literales del corpus con fila D3 inline — Opus 4.5 = 320 min, GPT-5 = 214 min (D3-008), con Claude 3.7 Sonnet en ~50 min en la medición previa (D3-007). Corregida también la atribución del harness a "Vivaria→Inspect".

Verificación (V-review):

Sweep grep -nE '56-59|78-94|122-164|270-289|o3 ' → exit 1, NO_FABRICATED_RANGES_REMAIN. Ningún rango fabricado ni "o3" persiste.
Inventario numérico final del doc, todo trazable: 131 días (D3-008), 320/214/~50 min (D3-008/D3-007), 195,8 días [162, 223] (D3-008/007). Toda cifra restante lleva fila D3 o etiqueta [HIPÓTESIS DESCRIPTIVA].
L58 (Escenario B) "~131 días (TH1.1) … serie histórica 195,8 días [162,223], D3-008/007" YA era trazable — no tocada.
Guardarraíles intactos (no tocados): EIG +0,30 vs +0,94 p.p. (D3-015), NBER kappa=0,36 / 3,6× divergencia (D3-016), prohibición rol→desplazamiento, nivel agregado de proceso, etiquetas [HIPÓTESIS DESCRIPTIVA]. Paper W7 NO redactado.
Diff mínimo: 1 línea cambiada.

Re-verdict: advisor APPROVE iter 2 (13ce778e-969d-4ee9-b043-090ee2c15bfa), supera el REJECT b11bef8f. Work item 178b21e8 → V-review (step 5) gate PASS, avanzado a A-retro (step 6).

Semáforo A-retro: 🟢 VERDE. El defecto de grounding que dejó W5 en AMARILLO está cerrado y verificado por sweep. La lección operativa de la iteración 1 —toda cifra numérica se resuelve contra una fila D3 explícita en el momento de escribirla, no a posteriori— queda confirmada como guardarraíl del corpus de cara a W7.

W5-fix2 · re-verdict (APPROVE)

Fecha: 2026-06-17 23:53 GMT+2 · SKU A-retro (cierre del fix-2).

Tras el fix-1 (APPROVE iter 2, defecto METR por-modelo fabricado en L41), se ejecutó una auditoría adversarial de procedencia numérica cifra a cifra sobre research/w5-escenarios-2027-2030.md, cotejando cada cifra contra fila del Google Sheet corpus (18xMnjka7kLFAQLhA377VGqA77gAnQOB3s8urn7nFgd4) o contra research/w4-hii-reemplazabilidad.md, con el id citado inline.

Resultado del V-review (id f38b4faa-ef2e-4ba6-bb45-304c0eeb779e, iteración 3, reviewer_role critic_final, agente "V-review adversarial · default-REJECT"):

APPROVE. Las 15 cifras numéricas son TODAS trazables + exactas con id citado inline: EIG +0,30/+0,94 p.p. (D3-015); NBER 3,6×/57%/kappa 0,36/2,4× (D3-016); METR TH1.1 ~131d, Opus 4.5 320min, GPT-5 214min, 14 modelos/228 tareas (D3-008); Claude 3.7 ~50min (D3-007); GAIA 92% vs 15%/466 preguntas (D2-010); WebArena 78,24% vs 14,41% (D2-007); GDPval 44 ocupaciones/1.320 gold [dato de cuerpo] (D3-010); EPAs 5 niveles (D3-012). Sin cifras huérfanas, sin ROI derivado, sin invención. UpBench (D3-011) declarado como marco sin pass-rate, etiquetado [HIPÓTESIS DESCRIPTIVA].

Gates inviolables (verbatim del verdict) — PASS: cero rol→desplazamiento causal (todas refutaciones); EIG (7×) + NBER (8×) en cada escenario; nivel agregado (11×); [HIPÓTESIS DESCRIPTIVA] (10×) en toda proyección 2027-2030; señal Satya Nadella 14-jun-2026; escenarios A/D adversos a fondo.

Cierre: el doc que falló 2 veces por cifras supera ahora la procedencia. Work item 178b21e8 → status DONE (todos los steps terminales, sin falso-completar). Paper W7 NO redactado. Guardarraíles intactos (EIG, NBER, prohibición rol→desplazamiento, nivel agregado).

Semáforo A-retro: 🟢 VERDE. Verdict final = el del V-review verbatim = APPROVE. La lección operativa queda promovida a guardarraíl del corpus: toda cifra del doc de escenarios es trazable a una fila D2/D3 del Sheet o a w4-hii-reemplazabilidad.md, con el id inline en el momento de escribirla.

Journal · M-04 W7 — D-spec/síntesis (OUTLINE del paper, NO el paper)

SKU D-spec del COMBO W7. register_prompt OK (artifact 2649df2a-ecce-458d-9fe5-697a1e2ac9d9, combo_state a3e08d20-6563-46c2-b2ef-ac294e71a441, sku=D-spec, phase=default). Sin COMBO_SEQUENCE_VIOLATION. freeze.lock = ausente → procedo. 2026-06-17.

Qué se me pide y qué NO

Escribir el OUTLINE del paper de visión (no el paper). Enterprise-first, VC-grade DD, pirámide invertida.
5 secciones obligatorias (i)-(v), exactamente las de la directiva M-04 del panel (panel-synthesis-m04.md §49).
Lector nº1 = CHRO/CLO/CAIO (no el VC; el VC es el segundo lector que hace DD).
Lead vocab = Verified Output (ancla) + Transfer Probe (acuñación de validez). "Verification Economy"/"Verified Capability Layer"/"Verified Capability Graph" → SOLO cuerpo, 2º orden.
NO redactar prosa de paper. Es esqueleto: por sección, qué argumenta, qué evidencia con id, qué se afirma vs qué es hipótesis.

Decisiones de redacción del outline (rationale)

D1 · La pirámide invertida se ejecuta literalmente en el orden de las secciones

El panel puntuó narrative punch = 5 con la queja "invertir la pirámide: wedge tocable al headline, rigor al cuerpo". El error de W5 (cayó 2× por cifras) y el riesgo de W7 es lo contrario: meter la categoría abstracta arriba. Por eso el H1 es el wedge construible HOY ("tu primer output verificado sobre tu herramienta real, no vídeos" = Verified Execution), y la teoría (Capability Graph, Verification Economy) baja a la sección (ii) cuerpo. El titular es tocable; el rigor es interno.

D2 · El ROI del wedge — el punto donde W5 murió, y donde más cuidado pongo

La directiva exige "ROI atribuible en UNA frase con número". El corpus NO tiene ninguna cifra propia de ROI de Momentum (time-to-competence reducido, % tareas a autónomo, coste reskilling evitado a nivel proceso/firma). w4 declaró la HII-by-role como ILUSTRATIVA y refutada (NBER kappa 0,36 D3-016, EIG D3-015, ILO D3-014). Inventar el número = REJECT automático. Solución de dos niveles (roi_framing del mandato):

NIVEL 1 (el claim ROI propio): placeholder explícito etiquetado [a validar con telemetría propia de Momentum]. La frase-titular del ROI lleva el slot, no un número fabricado. Esto es honestidad VC-grade: un VC perdona un placeholder etiquetado; no perdona una cifra refutable.
NIVEL 2 (cifras MEDIDAS que dimensionan el DOLOR, no el ROI): D1D5-001 (39% skills, WEF, MEDIDO), D1D5-002 (70%, LinkedIn, MEDIDO), D1D5-003 (40% directivos, IBM, MEDIDO), D1D5-004 (~2,5 años half-life — ILUSTRATIVO, cita HBR vía Deloitte), y D6-002 (OSCE 69,79 vs 51,38, p≈2e-6, MEDIDO) para el lead-time compression. Cada una con su id + etiqueta.
Regla de oro: el ROI atribuible a Momentum es slot [a validar]; las cifras MEDIDAS enmarcan el dolor del comprador, jamás se presentan como ROI del producto.

→ roi_traceable del schema = el placeholder etiquetado (NIVEL 1), con las cifras-dolor MEDIDAS citadas como contexto (NIVEL 2). No hay número de ROI propio porque no existe en corpus. Eso es lo correcto.

D3 · Partición temporal estricta (sección ii) para no repetir el construct collapse de W5

Product truth = 4 (el score más bajo del panel): "el motor V1 mide EXECUTION, no capability". El outline separa duro:

V1 = Verified Execution (2 mecanismos núcleo: (1) misión sobre herramienta real → Verified Output evaluado contra gold-standard del cliente; (2) Transfer Probe = re-ejecución sin andamiaje + demora). Esto se construye HOY.
End-state 2027 = Verified Capability Graph + residuo (nodos con barras de error, dependiente de verificación externa + acumulación de Weighted Verified Outputs). 2º orden, al cuerpo.
El puente es el Execution-to-Capability Loop (4 pasos, w5 línea 30). Los horizontes METR (D3-008 ~131d doubling, Opus 4.5=320min, GPT-5=214min) entran descontando el benchmark-to-workplace gap; D3-009 (Ord half-life) como contraevidencia del plateau. Todo [HIPÓTESIS DESCRIPTIVA].

D4 · Validez psicométrica (sección iii) — Transfer Probe es el corazón epistémico

El juez Wittgenstein del panel: capability = hipótesis hasta re-producción en ≥N contextos sin asistencia equivalente. El outline ancla:

Transfer Probe (acuñación propia) = re-ejecución sin scaffold + demora → convierte capability de marketing en medición.
Firewall de verificación: criterios del gold-standard auditado del CLIENTE, nunca de la plataforma → rompe el LLM-judge circular (D3-016, kappa 0,36).
Sostén pedagógico: D6-013 (ICC 0,972 rúbrica IA, MEDIDO) = verificación por rúbrica es psicométricamente defendible; D6-001 (transfer g=0,34 n.s. vs learning g=0,73) = formar ≠ transferir, por eso el producto mide output transferido, no formación; D6-002 (OSCE práctica deliberada) = DEMONSTRATES-not-PASSES.
Nodos con barras de error: capability = estimación con incertidumbre, nunca afirmación binaria.

D5 · Governance-by-design (sección iv) — nivel AGREGADO inviolable, riesgo legal más alto

Ethical/comms risk = 3 (el riesgo más alto del panel). El outline blinda:

Nivel AGREGADO (proceso/rol/equipo), NUNCA individual → EU AI Act Anexo III(4) + GDPR Art.22/precedente Schufa.
Texto literal del producto: "no es scoring de rendimiento ni base para decisiones de RRHH".
Bias audit + derecho de impugnación + grafo exportable/propiedad del cliente.
MATAR "where humans still need to judge/verify" (verbos observacionales "still requires verification", nunca normativos "must judge").
Citas que justifican prohibir el uso individual: NBER kappa 0,36 (D3-016) + EIG +0,30 vs +0,94 p.p. (D3-015). La medida es interna/propietaria/agregada porque el scoring externo es circular e impugnable.

D6 · Integración + cierre de circularidad (sección v)

Objeción 6 (herramienta huérfana = sub-5% MAU) + objeción 7 (circularidad B2C→B2B). El outline:

Integración: SSO/SCIM + agentes nativos (M365/Salesforce/IDE) + federación de skills taxonomy con HRIS.
Cierre de circularidad: el dato org-visible exige misiones sobre el stack del empleador → eso YA es venta B2B. El B2C es el wedge de entrada; el B2B es donde el dato se vuelve org-visible y defendible.
Moat = telemetría interna construida, no reclamada (w4 §6; señal Satya Nadella "a frontier without an ecosystem is not stable" → riesgo de verificación-como-commodity; defensa = poseer el criterio = gold-standard del cliente, exportable).
Sustrato real de la capa agéntica: D2-021 (>10.000 servidores MCP, 97M+ descargas/mes, MEDIDO) + D2-018/019/020 (adopción cross-vendor).

Trazabilidad — tabla de cifras del outline (cada una con id + etiqueta)

Cifra	id	etiqueta	uso en outline
39% skills transformadas/obsoletas 2025-30 (WEF)	D1D5-001	MEDIDO	dolor del comprador, sección (i) NIVEL 2
70% skills cambian para 2030 (LinkedIn)	D1D5-002	MEDIDO	dolor, (i) NIVEL 2
40% directivos prevén reskill en 3 años (IBM)	D1D5-003	MEDIDO	dolor, (i) NIVEL 2
half-life skills tech ~2,5 años (HBR vía Deloitte)	D1D5-004	ILUSTRATIVO	gancho, (i) NIVEL 2
OSCE 69,79 vs 51,38, p≈2e-6 (Kanoksin)	D6-002	MEDIDO	lead-time compression (i)+(iii)
ICC 0,972 rúbrica IA (Yavuz)	D6-013	MEDIDO	verificación defendible (iii)
transfer g=0,34 n.s. vs learning g=0,73 (McKay)	D6-001	MEDIDO	formar≠transferir (iii)
~131d doubling; Opus 4.5=320min; GPT-5=214min (METR)	D3-008	MEDIDO (software)	horizonte (ii), descontar gap
half-life agente / plateau (Ord)	D3-009	MEDIDO (reinterpretación)	contraevidencia plateau (ii)
EPAs 5 niveles ordinales (medicina)	D3-012	MEDIDO (estándar ordinal)	precedente supervisión (iv)
in/on-the-loop (EDPS)	D3-013	N-A	categoría regulatoria (iv)
exposición≠resultado (ILO)	D3-014	N-A	refuta salto exposición→resultado (iv)
EIG +0,30 vs +0,94 p.p.	D3-015	MEDIDO	prohibir uso individual (iv)
NBER kappa 0,36; divergencia 3,6×	D3-016	MEDIDO	firewall + prohibir individual (iii)+(iv)
>10.000 servidores MCP, 97M+ descargas/mes	D2-021	MEDIDO	sustrato agéntico (v)
adopción cross-vendor MCP	D2-018/019/020	N-A	sustrato agéntico (v)
ROI propio de Momentum	—	[a validar con telemetría propia]	NIVEL 1, slot, no inventado

Self-check pre-cierre

¿"Verification Economy"/"Verified Capability Layer"/"Verified Capability Graph" en algún H1/headline? → NO. Solo cuerpo (sección ii). forbidden_headline_absent = true.
¿Algún output a nivel individual? → NO. Todo agregado proceso/rol/equipo. individual_level_absent = true.
¿Alguna cifra inventada? → NO. Cada número tiene id+etiqueta; el ROI propio es slot etiquetado.
¿"where humans still need to judge/verify"? → MATADO. Verbos observacionales.
¿Lead vocab correcto? → Verified Output + Transfer Probe al frente; Capability Graph al cuerpo.
¿Es OUTLINE y no paper? → Sí: esqueleto con bullets de argumento/evidencia/claim, no prosa redactada.

W7 · A-retro + verdict (APPROVE)

SKU A-retro (cierre) del COMBO W7. register_prompt OK — A-heartbeat (artifact cf889466-9810-4146-ad4e-ab7d9ab91165) + A-retro (artifact b720c13d-263d-4f0a-b46e-eb6b4a5d2a46), ambos combo_state a3e08d20-6563-46c2-b2ef-ac294e71a441, sin COMBO_SEQUENCE_VIOLATION. freeze.lock = ausente. 2026-06-17.

Verdict

V-review id=b304c196-3df8-42dc-9117-12c6f5384e0e → APPROVE.
A-retro advisor_verdict id=8892a667-882f-47ad-8c7f-39a7e884ab60 (reviewer_role=critic_final, sprint_ref=M-04 W7) → APPROVE (ratifica el V-review; NO se fabrica un verdict alternativo).
Semáforo: GREEN (APPROVE).

Los 5 checks duros — todos pasados

Pirámide invertida ejecutada literalmente en el orden de secciones: H1 = wedge Verified Execution construible HOY; teoría (Capability Graph, Verification Economy) bajada al cuerpo §(ii). narrative corregido respecto a W5.
Cero cifras fabricadas — la trampa que mató W5 (2×). El ROI propio de Momentum = slot [a validar con telemetría propia] (NIVEL 1). Las cifras MEDIDAS (D1D5-001/002/003, D6-002, D6-013, D6-001, D3-008/015/016, D2-021) enmarcan el DOLOR del comprador con id+etiqueta, jamás como ROI del producto (NIVEL 2).
Nivel AGREGADO inviolable (proceso/rol/equipo), cero scoring individual — EU AI Act Anexo III(4)+GDPR Art.22/Schufa. Texto literal del producto: "no es scoring de rendimiento ni base para decisiones de RRHH".
Lead vocab correcto — Verified Output + Transfer Probe al frente; headlines prohibidos (Verification Economy / Verified Capability Layer / Verified Capability Graph) ausentes de todo H1.
"where humans still need to judge/verify" MATADO — verbos observacionales ("still requires verification"), nunca normativos.

Watch-item del V-review (NO bloqueante para W7-write)

El V-review señaló que §1 NIVEL 1 usa "coste de reskilling evitado por empleado = Z". Resolución: es una métrica de coste por-FTE (unit economics agregable) y un slot etiquetado, NO scoring individual de capacidad → no viola Check 4. Recomendación adoptada para la prosa de W7-write: reformular como "coste por-FTE agregado" para eliminar cualquier óptica de nivel individual. Se traslada al mandato W7-write como nota de redacción, no como bloqueo del cierre.

Cierre

COMBO W7 cerrado en GREEN. El OUTLINE queda listo como esqueleto canónico para el siguiente COMBO (W7-write = redacción de la prosa del paper), que debe heredar: la partición temporal estricta (D3), el firewall de verificación con criterio del cliente (D4), el blindaje governance-by-design agregado (D5) y la nota por-FTE de este watch-item.

M-05 · W-paper — redacción del paper de visión (journal)

SKU D-spec del COMBO W-paper (M-05). Un solo writer = voz coherente. 2026-06-18.
Grounding que manda: research/w7-paper-outline.md (esqueleto, NO se toca la estructura) + research/thesis-canon-v2.md + research/panel-synthesis-m04.md §47-49 + .governance/FUNDAMENTALS.md (guards) + inventario de 18 cifras trazables del Sheet.
Output: paper/momentum-vision-paper.md (5 secciones + H1, prosa investor-grade).

El encargo en una línea

Convertir el outline W7 (pirámide invertida, 5 secciones) en el PAPER redactado, enterprise-first (CHRO/CLO/CAIO lector nº1, VC-DD lector nº2), voz McKinsey/Bain/BCG, es-ES sin voseo, con cada cifra trazada a su id de fila o etiquetada como hipótesis. Cero invención.

Decisiones de redacción (rationale)

1. El H1 ES el wedge, no la categoría

Mantengo verbatim el titular del outline: "Tu primer output verificado sobre tu herramienta real. No vídeos." Es Verified Execution, construible hoy. Los tres términos vetados —Verification Economy, Verified Capability Layer, Verified Capability Graph— se confinan al cuerpo de §2 y nunca aparecen en H1 ni en NINGÚN título de sección. Esto cumple el guard del panel (decisión 1 de las 3 deltas: "wedge al headline, categoría al cuerpo") y el apéndice de gobernanza del outline ("ausentes del H1 y de los títulos de sección").

Corrección durante la redacción (auto-detect guard): el outline §2 nombraba un subtítulo "End-state 2027 = Verified Capability Graph + residuo". Al redactarlo como ### heading, "Verified Capability Graph" quedaba en un título de sección → violación del guard literal del apéndice ("ausentes de los títulos de sección"). Renombré el heading a "El end-state 2027 = el grafo de evidencia + residuo de verificación" y bajé el término "Verified Capability Graph" a la PRIMERA línea del cuerpo de esa subsección. El término sigue presente (es la tesis de 2º orden, debe nombrarse en el cuerpo §2), pero ya no en un heading. Guard verificado con grep: 0 términos vetados en cualquier heading.

2. ROI propio = SLOT etiquetado, sin excepción

El learning más caro del proyecto (W5 cayó 2× por inventar cifras, FUNDAMENTALS guard "procedencia numérica"). Los tres números del ROI propio de Momentum —time-to-competence X%, % tareas a ejecución autónoma verificada, coste de reskilling evitado Z— NO existen en el corpus a nivel proceso/firma. Por tanto van como hueco [a validar con telemetría propia de Momentum], jamás como número. Lo digo explícitamente en §1 Nivel 1 y en la nota de procedencia final: "fabricarlos sería exactamente el error que suspende una DD". Honestidad VC-grade = el placeholder pasa la DD; la cifra refutable la suspende.

roi_is_slot = true (verificado: 2 ocurrencias del literal del slot, §1 y nota final).

3. Dos niveles de cifras en §1: dolor MEDIDO vs ROI SLOT

La estructura de dos niveles del outline es la clave anti-construct-collapse del comprador. Nivel 1 = ROI propio = slot. Nivel 2 = cifras MEDIDAS que enmarcan el DOLOR, no el ROI:

D1D5-001 (39%, MEDIDO, encuesta empleadores WEF) → es la única cifra del titular, y mide el dolor del comprador, no el producto.
D1D5-002 (70% competencias cambian 2030, MEDIDO, LinkedIn Economic Graph) → triangula por OTRO método (comportamiento vs encuesta).
D1D5-003 (40% directivos reentrenan 3 años, MEDIDO, IBM IBV) → intención corporativa con presupuesto.
D1D5-004 (~2,5 años half-life, ILUSTRATIVO) → marcado explícitamente como gancho retórico, NO telemetría, para no contaminar el aparato probatorio.
D6-002 (RCT OSCE 69,79 vs 51,38, p≈2e-6, MEDIDO) → la prueba del colapso del lead-time: práctica deliberada bate clase magistral con margen y significación auditables.

4. §2 partición temporal: honestidad temporal investor-grade

Separo lo construible HOY (V1 = Verified Execution, 2 mecanismos) del end-state 2027. Mecanismo 1 = Verified Output (afirma "el artefacto corrió", NO capability). Mecanismo 2 = Transfer Probe (re-ejecución sin scaffold + demora). El construct collapse fix se nombra en voz alta: V1 mide EXECUTION; capability es claim de 2º orden con barras de error. El puente = Execution-to-Capability Loop (4 pasos). Los horizontes técnicos van como [HIPÓTESIS DESCRIPTIVA] descontando el benchmark-to-workplace gap:

D3-008 (doubling ~131d, Opus 4.5 320min IC 170-729, GPT-5 214min IC 117-480, MEDIDO pero SOFTWARE) → cito el IC y subrayo validez externa limitada.
D3-009 (Ord, half-life de agente bajo hazard constante, MEDIDO como reinterpretación) → contraevidencia del plateau; el autor declara incierta la generalización → "extrapolación lineal frágil". No vendo la curva como hoja de ruta garantizada.

5. §3 el corazón epistémico: por qué un output repetido ESTIMA capacidad

Responde al Product truth = 4 (score más bajo del panel). Definición operativa (juez Wittgenstein): capability = hipótesis marcada HASTA re-producción en ≥N contextos sin asistencia equivalente; el umbral N concreto = [HIPÓTESIS / a calibrar con telemetría propia] (no lo invento). Transfer Probe convierte capability de adjetivo a medición, sostenido por:

D6-001 (McKay 2024, MEDIDO): learning g=0,73 PERO transfer conductual g=0,34 n.s.; inmediato g=0,86 → diferido g=0,40. "Formar ≠ transferir" = columna vertebral. Momentum mide output transferido, no formación.
Firewall anti-LLM-judge-circular: criterios del gold-standard del CLIENTE, nunca de la plataforma; si fuera juez circular heredaría D3-016 (kappa 0,36, divergencia 3,6×, acuerdo 57%, MEDIDO). "No se trata de tener mejor modelo-juez; se trata de no ser el juez."
D6-013 (Yavuz 2024, ICC 0,972 modelo afinado vs humanos, MEDIDO): la rúbrica con criterio público y estable concuerda altísimo con humanos → lo que falla en D3-016 es la ausencia de criterio anclado, no la rúbrica.
Nodos con barras de error: capability = estimación acumulada con incertidumbre, nunca binario.

6. §4 governance-by-design: nivel AGREGADO inviolable (riesgo más alto, Ethical/comms = 3)

La medida es defendible PORQUE es agregada y propietaria. Todo a nivel proceso/rol/equipo, por-FTE agregado, NUNCA individual (EU AI Act Anexo III(4) + GDPR Art.22/Schufa). Texto contractual literal: "no es scoring de rendimiento ni base para decisiones de RRHH". Razones duras:

D3-016 (kappa 0,36, MEDIDO): base impugnable por construcción.
D3-015 (EIG, MEDIDO): patrón OPUESTO — quintil MÁS expuesto +0,30 p.p. paro vs MENOS expuesto +0,94 p.p.; exposición NO predice desplazamiento → ninguna inferencia rol→desplazamiento.
D3-014 (ILO, N-A): exposición = susceptibilidad técnica, no resultado laboral; señales de alerta temprana, no predicciones.
Cumplimiento auditable como tailwind: D3-013 (EDPS, N-A, in-the-loop vs on-the-loop) + D3-012 (ten Cate EPAs, 5 niveles ordinales, MEDIDO).

MATÉ "where humans still need to judge/verify": la única aparición de esa frase en el paper es para ANUNCIAR SU ELIMINACIÓN y contrastar verbos observacionales ("el proceso aún requiere verificación humana") vs normativos ("los humanos deben juzgar"). Residuo de verificación = observado a nivel de proceso, no mandato sobre personas.

7. §5 integración + cierre circularidad B2C→B2B + moat

Anti-huérfana: SSO/SCIM + agentes nativos M365/Salesforce/IDE + federación skills taxonomy con HRIS. Sub-5% MAU sin integración = [supuesto de producto] (objeción 6 del panel, NO cifra medida).
Sustrato agéntico real (no hipótesis): D2-021 (>10.000 servidores MCP, 97M+ descargas SDK, donación Agentic AI Foundation, MEDIDO — único telemétrico de escala) + cross-vendor D2-018/019/020 (N-A, anuncios sin cifra de capacidad). Lectura: la capa agente↔herramienta es infraestructura común → habilita la delegación PERO por sí sola NO es ventaja propietaria. El moat no está ahí.
Cierre circularidad (objeción 7): el B2C es la RAMPA, no un círculo vicioso. El dato se vuelve org-visible solo cuando las misiones corren sobre el stack del empleador → eso YA es la venta B2B.
Moat = telemetría interna construida sobre el criterio del cliente (gold-standard auditado, exportable, propiedad del cliente), no un activo reclamado ni copiable. Señal Nadella 14-jun-2026 "a frontier without an ecosystem is not stable" → riesgo de verificación-como-commodity; defensa = poseer el criterio.

Cómo cambió mi opinión durante la redacción

Llegué pensando que el subtítulo de §2 del outline ("End-state = Verified Capability Graph") podía mantenerse como heading porque está EN §2 (el cuerpo). Pero el guard del apéndice es literal: "ausentes de los TÍTULOS de sección". Un ### heading ES un título de sección. Lo correcto y conservador es: término en cuerpo sí, en cualquier heading no. Lo moví. Documentado arriba.

Auditoría de cumplimiento (grep verificado)

Cifras citadas con id: 18 ids distintos, 30 menciones inline (D1D5-001/002/003/004, D2-018/019/020/021, D3-008/009/012/013/014/015/016, D6-001/002/013).
ROI = slot etiquetado: ✅ [a validar con telemetría propia] (sin número fabricado).
Términos vetados en H1 + todos los headings: 0 ✅. Aparecen solo en cuerpo §2.
Nivel individual: ausente como métrica; las menciones son para PROHIBIRLO. Todo por-FTE agregado proceso/rol/equipo. ✅
"where humans still need to judge/verify": MATADA; única aparición = anuncio de su eliminación. ✅
Lead vocab: Verified Output (14) + Transfer Probe (8) al frente. ✅
es-ES sin voseo, voz McKinsey/Bain/BCG enterprise-first. ✅

Pendiente (no es de este COMBO)

Sustituir el slot de ROI cuando exista telemetría del Execution-to-Capability Loop.
Calibrar el N concreto del Transfer Probe.
M-06 (landing/repo/journal HTML) — NO ejecutar aquí (MUST NOT del mandato).

W-paper · A-retro + verdict (APPROVE)

SKU A-heartbeat + A-retro (cierre del COMBO W-paper, M-05). 2026-06-18.
Cierre honesto: el verdict que manda es el del V-review (GUARD 1 FUNDAMENTALS — no se fabrica APPROVE sobre REJECT, no se cambia el verdict del crítico).

Semáforo: 🟢 GREEN

V-review (de306e55-cf9b-4fdb-9b22-4fd0a9107e51, reviewer critic_final adversarial default-REJECT) = APPROVE. Por regla de A-retro (GREEN si APPROVE), el semáforo del COMBO es GREEN. El verdict del crítico es soberano: este cierre lo refleja, no lo altera.

Qué cierra el COMBO W-paper

paper/momentum-vision-paper.md — paper de visión completo, 5 secciones 1:1 con el outline W7 (estructura intacta, MUST NOT respetado), H1 = wedge puro.
Provenance audit del V-review: 44 cifras numéricas auditadas, 44 trazables (id de fila + valor exacto sin contradicción) o slot honesto etiquetado. Cero huérfanas.
Re-verificación local de guards en este cierre (grep sobre el paper, independiente del V-review):
Términos vetados en H1 + cualquier heading: 0 ✅ (los 30 headings revisados; aparecen solo en cuerpo §2).
ROI propio = slot [a validar con telemetría propia]: presente (3 ocurrencias), cero número fabricado ✅.
Lead vocab al frente: Verified Output (13) + Transfer Probe (8) ✅.
Ids de fila distintos: 18 ✅.

Heartbeat — salud del COMBO (A-heartbeat)

Secuencia COMBO registrada sin COMBO_SEQUENCE_VIOLATION: A-heartbeat (b59771f4) + A-retro (b756bf32) sobre combo_state a3e08d20.
Disciplina de guards mantenida extremo a extremo: el único auto-detect durante D-spec (heading "Verified Capability Graph" → renombrado, término bajado al cuerpo) quedó resuelto y verificado por grep. No quedó deuda de guard abierta.
Sin freeze.lock al cerrar → commit autorizado (paper/ + journal/ + research/ únicamente).

Las dos observaciones del V-review (no bloqueantes · GREEN se mantiene)

Cita Nadella 14-jun-2026 (L179) — no lleva id de fila de corpus porque NO es una cifra-corpus ni un número de ROI/mercado: es una cita pública fechada, trazable al canon panel-synthesis-m04.md (65,2M views) + W5 + outline W7. Tratamiento idéntico al del outline W7 ya aprobado → no bloqueante. Recomendación menor para M-06: si el journal HTML lista fuentes, añadir esta cita a una fila de "señales externas" del Sheet para trazabilidad 100% homogénea.
Slots de ROI propio ([X%], [Y%], [Z]) + supuesto sub-5% MAU — permanecen como huecos por diseño. Se rellenan cuando el Execution-to-Capability Loop genere telemetría propia. No es un gap del paper: es el compromiso explícito de honestidad DD (fabricarlos sería exactamente el error que suspende una due diligence). Ya documentado como pendiente arriba.

Veredicto de cierre

final_verdict = APPROVE (= V-review · GUARD 1 inviolable respetado). COMBO W-paper cerrado en GREEN. Siguiente fase = M-06 (landing/repo/journal HTML) — fuera de este COMBO.

M-06 · W-journal-html — El journal como libro HTML navegable

QUÉ ES ESTO: el cierre del COMBO que convierte el journal (journal/*.md, el libro en tiempo real del proceso) en un libro HTML navegable dentro del sitio Astro estático, sin reescribir una sola línea de contenido — solo maquetar y renderizar.

FASE DEL PROCESO: M-06, COMBO W-journal-html. A-heartbeat + A-retro de cierre, tras V-review + V-visual REAL (APPROVE).

W-journal-html · A-retro + verdict (APPROVE)

Qué se entregó

El journal renderizado como libro HTML navegable dentro del sitio Astro estático (OD-004, sin SSR), con estética calm-tech (skill html-deliverable-calm-tech):

Índice (/journal/) — lista las 10 entradas (de M-01 Foundation a M-06 W-repo) con título + descripción + CTA "Empezar a leer".
Entrada por mandato (/journal/[slug]/) — render fiel del markdown de cada journal/*.md: headings, listas anidadas, bold inline, código SKU. Cero reescritura de contenido: solo maquetación.
Sidebar fija navegable en todas las páginas (Inicio · Paper · Research · Bibliografía · Journal + Fuentes vivas: Google Sheet, NotebookLM corpus), con la entrada actual resaltada.
Cold-read context en cada entrada (bloques "QUÉ ES ESTO" / "FASE DEL PROCESO") + header "M-0X · ENTRADA N DE 10".
Navegación prev/next funcional al pie de cada entrada.

Heartbeat — salud del COMBO (A-heartbeat)

Secuencia COMBO registrada sin COMBO_SEQUENCE_VIOLATION: A-heartbeat (artifact 7429169a-3d48-4487-83b3-c57dbcc7d7c6) + A-retro (artifact 3d269c3c-fbf1-4e29-8b1b-acdd89c04dd3), ambos sobre combo_state a3e08d20-6563-46c2-b2ef-ac294e71a441.
freeze.lock = ausente → commit autorizado.
.gitignore de site/ excluye node_modules/ y dist/: el repo no se contamina con dependencias ni build.

Verificación visual REAL (V-visual · DC-2)

No autodeclaración numérica ni DOM snapshot: screenshot + Vision sobre el preview local (npm run preview → http://localhost:4321/) en navegador playwright aislado — Chrome 9255 del usuario intacto.

Build npm run build → exit 0 · 24 páginas · 877ms.
Paridad 1:1 fuente↔dist: 10 entradas journal/*.md → 10 dirs en dist/journal/ con index.html. entries_accessible=10.
Páginas inspeccionadas: /journal/ (índice), /journal/00-foundation/, /journal/m03-w4-pivot-strategic-crossroads/, /journal/m06-w-repo/ (full page). Capturas: journal-index.png, journal-entry-foundation.png, journal-entry-m03.png, journal-entry-m06.png.

Guardarraíles FUNDAMENTALS — todos respetados

OD-004 Astro estático: sí (sin SSR).
Cero invención: render directo de journal/*.md existente. No se generó ni reescribió contenido ni cifras.
Calm-tech: sidebar fija, cold-read context, legibilidad (tipografía clara, contraste correcto, whitespace generoso, jerarquía sólida).
Español de España en toda la comunicación.
Chrome 9255 intacto, playwright aislado · sin freeze.lock.
Único hallazgo: favicon.ico 404 en consola — cosmético, por debajo del umbral FUNDAMENTALS. No bloquea.

Veredicto de cierre

final_verdict = APPROVE (= V-review · GUARD 1 inviolable respetado, no fabricado).

V-review id: 9c494a74-0c72-4e0d-896a-f9e5039ceb59 · vvisual=true.
advisor_verdict registrado en Dev OS: 6d0abd29-4b75-461e-99b3-880c8708295c.
Work item bdbcb239-2f00-43df-8715-13e5b1448b49 = DONE.

Semáforo de retro: GREEN. COMBO W-journal-html cerrado.

W-bib-fix · cita Nadella añadida (verdict APPROVE)

M-06 · W-repo — Sitio Astro de acceso (Home/Research/Paper/Bibliografía/Journal)

Génesis nº6. Publishing de lo existente: un sitio Astro estático (OD-004) que da acceso navegable a lo ya producido (paper de visión, research, journal). Cero invención, cero regeneración de contenido. Lead vocab del producto = Verified Output + Transfer Probe; nivel agregado; sin titular vetado ("Verification Economy" / "Verified Capability Graph" NO como titular de página).

W-repo · A-retro + verdict (APPROVE)

SKU A-heartbeat + A-retro (cierre del COMBO W-repo, M-06). 2026-06-18.
Cierre honesto: el verdict soberano es el del V-review (GUARD 1 FUNDAMENTALS — no se fabrica APPROVE sobre REJECT, no se altera el verdict del crítico).

Semáforo: 🟢 GREEN

V-review (2ededf1d-d5a9-499c-9365-e73110c0a581) = APPROVE · gaps=[]. Por la regla de A-retro (GREEN si APPROVE sin gaps), el semáforo del COMBO es GREEN. Este cierre lo refleja, no lo modifica.

Qué cierra el COMBO W-repo

Un sitio Astro estático (OD-004 respetado: output estático, sin SSR) que publica lo ya existente con cinco rutas:

Home (/) — encuadre de la visión + accesos.
Research (/research/) — el research heredado y producido.
Paper (/paper/) — el paper de visión (paper/momentum-vision-paper.md, génesis nº4, ya APPROVE en M-05) renderizado navegable.
Bibliografía (/bibliografia/) — puntero a la fuente canónica (Google Sheet corpus + vocabulario/frases).
Journal (/journal/) — render del libro en tiempo real (journal/*.md) → HTML navegable, índice + entrada por mandato.

Build local PASS (site/dist/ con index.html + las cinco rutas + entradas de journal generadas). Deploy verificado live (HTTP 200) en https://momentum-skills-research.pages.dev/.

Heartbeat — salud del COMBO (A-heartbeat)

Secuencia COMBO registrada sin COMBO_SEQUENCE_VIOLATION: A-heartbeat (artifact 3017c3af-d687-4e30-8562-777177f35d87) + A-retro (artifact 0ce12a92-d40c-4bee-9dfa-e1226ab2bcf6), ambos sobre combo_state a3e08d20-6563-46c2-b2ef-ac294e71a441.
freeze.lock = ausente → commit autorizado.
.gitignore de site/ excluye node_modules/ y dist/ (verificado): el repo no se contamina con dependencias ni build.

Guardarraíles FUNDAMENTALS — todos respetados

OD-004 Astro estático: sí (sin SSR).
Cero invención: solo se publica contenido existente (paper / research / journal). No se generó ni reescribió contenido ni cifras. Slots ROI [a validar] intactos.
Lead vocab: Verified Output + Transfer Probe; nivel agregado. Ningún titular de página usa términos vetados.
Español de España en toda la comunicación.

Los 5 checks duros — todos pasados

Inventario: skills cargadas (frontend-discipline pre-flight + html-deliverable-calm-tech); rutas y dist verificados.
Build/deploy real: site/dist/ generado; deploy pages.dev responde 200 (no autodeclaración numérica).
GUARD 1: final_verdict = V-review = APPROVE — no se fabrica.
Governance: soul.md / open-decisions respetados (OD-004 estático). freeze.lock revisado (ausente).
Higiene git: add acotado a site/ journal/ research/ PROJECT-INDEX.md sessions/; node_modules/dist excluidos.

Veredicto de cierre

final_verdict = APPROVE (= V-review · GUARD 1 inviolable respetado). COMBO W-repo cerrado en GREEN. deploy_url canónica registrada en PROJECT-INDEX.md + session.md. Siguiente fase = M-07 (landing espectacular, fase creativa) — fuera de este COMBO, no pre-escribir.

M-07 · W8a — Storyboard escena-a-escena (la dramaturgia del paper)

QUÉ ES ESTO: el thinking creativo detrás del storyboard de la landing. No es el diseño final ni el build (eso es M-08); es la decisión escena-a-escena de cómo el paper de visión se convierte en una experiencia de scroll que un CHRO y un inversor recorren en un solo aliento. El entregable hermano es landing/planning/storyboard.md.

FASE DEL PROCESO: M-07, COMBO W8a. SKU P-decompose (descomposición del argumento en escenas). Planning, no build. La técnica de animación (R3F vs GSAP, shaders, físicas) se decide en W8b.

El encargo, en una frase

Convertir paper/momentum-vision-paper.md (§1-§5) en un storyboard de scroll que dramatice, no repita — y que supere en ambición narrativa la live paper de Lovable (bloom-canvas-13.lovable.app). La vara: Awwwards/FWA, no "demo bonita".

Decisión 0 — el arco emocional manda sobre el conteo de escenas

El draft de A traía 7 beats (0-6). El mandato me da 6 (0-5) con un beat_map mucho más rico. No fuerzo un número: la calidad de cada escena pesa más que su cantidad. Reconcilio así:

El antiguo beat 6 ("Cierre enterprise / AI adoption you can audit") no es una escena propia — es la salida del beat 5. El moat construido (§5) y el CTA enterprise son el mismo momento emocional: inevitabilidad estratégica → acción. Meterlo como escena 7 diluiría el clímax. Lo fundo en BEAT 5 + un epílogo-CTA que respira dentro de él.

Resultado: 6 escenas dramáticas (0-5) + un CTA-epílogo que no compite con el clímax sino que lo cobra.

Decisión 1 — el arco es una sola tesis emocional, no seis ideas sueltas

Lo que separa esto de la Lovable (que es un paper bonito pero plano: scrollea y lee) es que aquí cada beat retira una objeción de due diligence en orden, y el orden es el del comprador escéptico:

TOCABLE (beat 0) — "enséñame algo que corra, no un eslogan".
REAL Y MEDIDO (beat 1) — "¿este dolor es mío o es tu pitch?".
HONESTO (beat 2) — "¿no me estás vendiendo humo de capacidad?".
DEFENDIBLE (beat 3) — "¿quién verifica al verificador?".
LEGAL (beat 4) — "¿esto me explota en la cara con mi works council?".
DURADERO (beat 5) — "¿dónde está el moat? ¿no es copiable?".

Para cuando el visitante llega al CTA, ya no hay objeción viva. El wedge se ha vuelto inevitable porque la única alternativa honesta a "vídeos y certificados de asistencia" es "un artefacto verificado sobre tu herramienta real". Eso es lo que la Lovable no hace: no construye la inevitabilidad, solo la enuncia.

Decisión 2 — el sello que se GANA (no se regala) es la regla del juego desde el frame 1

El hero de la Lovable presenta una promesa. El nuestro presenta evidencia construyéndose en vivo: output → corre → criterio → sello. La primera sensación del visitante tiene que ser "esto es prueba, no marketing". Por eso amplío el beat 0: el sello «verificado» no aparece de golpe; se ensambla frente a los ojos en 4 micro-pasos. Es la metáfora de interacción de toda la marca: aquí la evidencia se construye, no se reclama. (Eco directo del cierre del paper: moat construido, no reclamado.)

Decisión 3 — la honestidad es un activo VISIBLE, no una nota al pie

Tres movimientos que en una landing normal serían suicidio comercial y aquí son el diferencial:

Slots ROI vacíos en pantalla (beat 1). El hueco [a validar] se ve — un marco vacío que se niega a rellenarse con una cifra inventada. En una sala de DD, esto es lo que pasa el filtro. El paper es explícito: "una sola cifra fabricada suspende la DD; un slot etiquetado la pasa".
Autocrítica en voz alta (beat 2): la escena admite el punto más débil de la tesis ("ejecución asistida ≠ capacidad", el construct collapse que el panel marcó). Quien señala su propia costura gana credibilidad de instrumento de medición.
Barras de error sobre cada nodo (beat 3): capability = estimación, jamás binario. El rigor es del producto, no del copy.

La honestidad temprana (beat 1-2) es la que compra la confianza técnica del beat 3. Sin ella, el "ajá" del firewall no aterriza.

Decisión 4 — el léxico líder es estrecho y se respeta a rajatabla

Lead vocab en TODA la landing: Verified Output (la unidad), Verified Execution (lo que afirmamos hoy), Transfer Probe (lo que convierte adjetivo en medición). Verification Economy y Verified Capability Graph aparecen SOLO en el cuerpo del beat 5 (nunca titular) — exactamente como el paper los reserva para §2 cuerpo. El H1 de la landing es el wedge literal: "Tu primer output verificado sobre tu herramienta real. No vídeos."

Decisión 5 — mapeo §→escena explícito (trazabilidad de dramaturgia)

Escena	Idea-fuerza	Paper (fuente)
BEAT 0 — Hero/Wedge	output verificado, no vídeos	§1 H1 + "wedge en una frase" (§1)
BEAT 1 — El cuello de botella se movió	generar es barato, verificar es escaso	§1 "lo que el colapso te permite medir" + cifras D1D5
BEAT 2 — Ejecución ≠ capacidad	la deuda nombrada en voz alta	§2 construct collapse + §3 "el juez Wittgenstein"
BEAT 3 — El motor: Verified Output + Transfer Probe	dos mecanismos construibles hoy + firewall	§2 dos mecanismos + Loop + §3 firewall + "formar no es transferir"
BEAT 4 — Residuo de verificación, agregado	defendible porque es agregado	§4 governance-by-design + §3 nodos con barras de error
BEAT 5 — Se construye, no se reclama	el grafo + el moat	§2 end-state 2027 + §5 moat + circularidad B2C→B2B

Decisión 6 — qué es candidato R3F (3D real) y qué es GSAP/Framer

Marco tres piezas como candidatas R3F (W8b decide la técnica final) porque su idea-fuerza es intrínsecamente espacial/orgánica y CSS no la vende:

Escalera líquida (beat 2) — guided→assisted→verified→autonomous, donde el salto a "verified" retira el andamiaje físicamente. Material líquido + el scaffold que se desvanece = R3F.
Execution-to-Capability Loop (beat 3) — loop de 4 nodos con barras de error que respiran. Profundidad + partículas de evidencia que viajan el loop = R3F.
El grafo que se teje (beat 5) — nodos que emergen con el uso, aristas que se tejen solas, ponderadas por evidencia de transferencia. Crecimiento generativo = R3F.

El resto (hero, embudo del beat 1, mapa agregado del beat 4) lo resuelve GSAP ScrollTrigger + Framer: más barato, igual de potente para pin/parallax/morph, y respeta el bundle floor.

Guardarraíles canon-v2 — checklist que aplico a cada línea de copy

[x] H1 = wedge literal ("...output verificado sobre tu herramienta real. No vídeos.")
[x] Lead vocab Verified Output + Transfer Probe en titulares; Verification Economy / Verified Capability Graph solo cuerpo beat 5.
[x] Nivel AGREGADO siempre (proceso/rol/equipo); cero individuo. Etiqueta visible "no es scoring".
[x] Cero "rol expuesto → rol desplazado" (D3-015: el quintil MÁS expuesto +0,30 p.p. vs +0,94 del menos expuesto).
[x] Slots ROI = [a validar] SIN rellenar.
[x] Cifras de dolor con su id (D1D5-001 MEDIDO, D1D5-002 MEDIDO, D1D5-003 MEDIDO, D1D5-004 ILUSTRATIVO etiquetado).
[x] Verbos observacionales ("el proceso aún requiere verificación humana"), nunca normativos.
[x] "mapa de reemplazabilidad" PROHIBIDO como titular.
[x] Español de España, sin voseo.
[x] Cumplimiento auditable = tailwind regulatorio (EU AI Act / GDPR como viento de cola), no freno.

Por qué esto supera a la Lovable

La Lovable es un documento legible con scroll. Esto es una demostración con dramaturgia: el sello se construye, los slots se niegan a mentir, el firewall desactiva la objeción de un plumazo, el grafo se teje solo. La diferencia no es de píxeles — es de argumento puesto en movimiento. Cada animación prueba una línea del paper en lugar de decorarla.

Estado

Storyboard escrito en landing/planning/storyboard.md (6 escenas + CTA-epílogo, mapeo §→escena, copy candidato anclado al paper con ids, candidatas R3F marcadas).
COMBO W8a: P-decompose registrado (artifact 72fcbc07-a3ac-499d-bcd1-0f7eb13e7646, combo_state a3e08d20-6563-46c2-b2ef-ac294e71a441), sin COMBO_SEQUENCE_VIOLATION.
freeze.lock ausente.
Siguiente (W8b): dirección de arte fina (paleta, tipografía, referencia Awwwards norte) + técnica de animación por escena.

W8a · A-retro + verdict (APPROVE)

Semáforo: VERDE. COMBO W8a cerrado limpio. El storyboard dramatiza el paper (no lo repite) y respeta el canon-v2 línea a línea.

Qué se entregó

landing/planning/storyboard.md — 6 escenas dramáticas (BEAT 0-5) + CTA-epílogo fundido en el clímax, con mapeo §→escena explícito y copy candidato anclado al paper con ids verificables.
Tres piezas marcadas como candidatas R3F (escalera líquida, Execution-to-Capability Loop, grafo que se teje); el resto a GSAP/Framer. La técnica final se decide en W8b — esto es planning, no build.

Guardarraíles canon-v2 — auditados, todos verdes

H1 = wedge literal: "Tu primer output verificado sobre tu herramienta real. No vídeos." ✓
Lead vocab Verified Output + Transfer Probe en titulares; Verification Economy / Verified Capability Graph SOLO cuerpo beat 5. ✓
Nivel AGREGADO siempre (proceso/rol/equipo), cero individuo, etiqueta "no es scoring" visible. ✓
Cero "rol expuesto → rol desplazado" (D3-015). ✓
Slots ROI [a validar] SIN rellenar — el hueco se ve en pantalla como activo de honestidad. ✓
Cifras de dolor con su id (D1D5-001/002/003 MEDIDO, 004 ILUSTRATIVO etiquetado). ✓
Español de España, sin voseo. ✓

Disciplina de scope

NO se construyó la landing (build = M-08). NO se inventó la estética por el CEO. Cero invención de cifras o fuentes: todo copy candidato cita el paper.

Trazabilidad COMBO

SKUs registrados: P-decompose (W8a OPEN), A-heartbeat (artifact 09c818fd-1524-48bd-9af6-634e3dedda6c), A-retro (artifact 334c5392-c536-4f8e-9e69-12f28a48efe7). Sin COMBO_SEQUENCE_VIOLATION. combo_state a3e08d20-6563-46c2-b2ef-ac294e71a441.
V-review id b375e849-3592-4df5-89ce-b4dd9dc21c9f, gaps=[].
Advisor verdict APPROVE id 38707d30-fe47-4a69-af6c-d86fafe1b5b7.
freeze.lock ausente — commit autorizado.

Verdict: APPROVE. El argumento del paper queda puesto en movimiento; cada animación prueba una línea en lugar de decorarla. Listo para W8b (dirección de arte + técnica de animación).

M-07 · W8b — Motion specs + Tech plan (de la dramaturgia al contrato de ingeniería)

QUÉ ES ESTO: el thinking detrás de la asignación técnica de la landing. W8a fijó la dramaturgia (storyboard, beats 0-5). W8b pone, escena a escena, qué técnica la hace inevitable y a qué coste, y traza el plano Next.js App Router. Planning + specs, no build (eso es M-08). Entregables hermanos: landing/planning/motion-specs.md + landing/planning/tech-plan.md.

FASE: M-07, COMBO W8b. SKU I-config. Stack OD-004 (Next.js App Router + Framer Motion + GSAP ScrollTrigger + R3F · Vercel). Context7 antes de specs (DC-1). Skill frontend-discipline cargada (Foundation Chain + Premium Floor 7-criteria + Anti-Loop).

El encargo, en una frase

W8a entregó el guion; W8b entrega el reparto técnico y el presupuesto. Por cada pieza animada del storyboard: técnica (R3F / GSAP / Framer / Canvas2D) + budget de performance + degradación móvil/reduced-motion. Y el plano de Next.js: dónde vive cada escena, qué se carga cuándo, cómo se cumple el Premium Floor.

Decisión 0 — Context7 primero, cero API alucinada (DC-1)

Antes de escribir una sola spec de framework, coteja contra docs live: Next.js (next/dynamic { ssr:false }), R3F (Canvas frameloop="demand", dpr adaptativo, forceContextLoss en unmount, Suspense anidado), GSAP (useGSAP + scope + contextSafe, gsap.matchMedia, pinSpacing), Framer (useReducedMotion, LazyMotion features={domAnimation} ~17 KB, useInView { once }). El training data miente en APIs que cambian cada trimestre — esto es lo que separa una spec que se construye de una que se rompe en M-08.

Decisión 1 — el reparto de técnica NO es "R3F para todo lo chulo"

El storyboard ya marcó 3 candidatas R3F (escalera líquida BEAT2, loop BEAT3, grafo BEAT5). La tentación de junior es meter WebGL en las 6. El gate de Rafaella ("¿CSS moderno + SVG + vanilla shippean el 80%? Si sí, no añado three.js") manda. Resultado del gate, escena por escena:

BEAT0 sello → SVG + GSAP. Son 4 trazos vectoriales con stroke-draw + un micro-output. SVG lo vende entero, es nítido a cualquier DPR, y es el LCP — no puede depender de WebGL. R3F aquí sería suicidio de performance en la pieza más crítica.
BEAT1 torrente→embudo → Canvas 2D + GSAP. Miles de fragmentos, 2D plano, masivo. Canvas 2D es ~10× más barato que WebGL para esto. R3F sería sobre-ingeniería.
BEAT2/3/5 → R3F, y aquí sí: el "cuajar" del líquido (tensión superficial, shader de fluido), la profundidad real del loop con partículas instanciadas, el grafo procedural que se teje en Z. CSS no da el depth ni el "vivo y acumulativo". Gate superado con argumento, no por gusto.
BEAT4 mapa → Canvas 2D / SVG + GSAP. Zonas que se iluminan + interacción de veto. Sin profundidad, sin física → no toca WebGL.

Marcador final: 3 R3F · 2 Canvas2D · 1 SVG. Máximo 1 orquestador timeline (GSAP) + 1 engine 3D (R3F). Cero libs "por si acaso".

Decisión 2 — "Performance es feature": el budget se diseña, no se audita a posteriori

El error clásico es construir bonito y rezar al Lighthouse después. Aquí el budget es parte de la spec:

El LCP es el H1 + sello SVG, cero R3F en initial. Las 3 escenas WebGL salen del initial bundle vía dynamic ssr:false + IntersectionObserver (mount near-viewport). El peso de three no toca el primer chunk → objetivo < 250 KB gzip preservado.
CLS 0 por diseño: pinSpacing:true en cada ScrollTrigger + altura del <canvas> reservada con aspect-ratio antes del lazy-mount. El truco fino: el mismo componente estático sirve de <Suspense fallback> Y de versión reduced-motion. Un solo nodo → cero duplicación, cero deuda, y el fallback ocupa exactamente el box que ocupará el canvas → el mount no desplaza nada.
frameloop="demand" + invalidate() por step de scroll: las escenas R3F renderizan cuando el scroll las mueve, no 60 fps en bucle ocioso. Coste de scroll, no de reposo. Única excepción acotada: las barras de error que "respiran" en BEAT3 (un useFrame de amplitud mínima, sólo en viewport) — la firma de honestidad vale ese latido.

Decisión 3 — el riesgo real de las 3 R3F es Safari, no el framerate

Tres canvas WebGL en la misma página = "Too many active WebGL contexts" en Safari si todos viven a la vez. La mitigación no es "esperar a que pase": IntersectionObserver coordina mount/unmount de modo que nunca haya >2 contextos vivos, y al salir de viewport lejano R3F llama forceContextLoss() + dispose(scene) (libera GPU). Esto es lo que un "demo técnica" ignora y revienta en el navegador del inversor que usa Mac.

Decisión 4 — reduced-motion en tres capas, no un afterthought

El floor inviolable exige que cada efecto degrade. Lo resolví con tres mecanismos cosidos:

GSAP matchMedia('(prefers-reduced-motion: reduce)') → no crea scrub ni pin; estado final, scroll nativo.
Framer useReducedMotion() → transform off, opacity sí (un fade suave no marea y sigue siendo accesible).
R3F → si reduce-motion, la escena 3D ni se monta; se sirve el estático. Cero WebGL para quien pidió calma.

El storyboard ya especificó el estado reduced-motion de cada beat — mi trabajo fue mapearlo a la capa técnica correcta. Y un inviolable extra: el CTA del BEAT5 es focus-visible y operable por teclado en cualquier estado de motion. La acción nunca depende de que la animación funcione.

Decisión 5 — Next.js App Router y la nota "Astro" del storyboard

El storyboard menciona "OD-004 Astro estático". OD-004 vigente y el mandato de este COMBO fijan Next.js App Router. No cambio de stack (inviolable). Reconcilio el requisito real que "Astro" cubría — copy SSR indexable + cero hydration mismatch — con la arquitectura App Router: el copy del paper vive en Server Components (SSR, indexable, accesible sin JS); sólo motion/WebGL es client-only (ssr:false). Si M-08 confirma que es 100% estática, output:'export' sobre Vercel sin tocar el stack. Lo dejo anotado explícito en tech-plan.md §1 para que no se lea como contradicción.

Decisión 6 — Foundation Chain: la disciplina antes que el pixel

La skill frontend-discipline obliga el orden brief → tokens → variant → widgets → page. No improviso CSS de página. Propongo recipe VARIANT (un root primario + modificaciones documentadas), no HYBRID — porque el scroll es un solo gesto continuo, no secciones con estéticas distintas; mezclar roots por viewport rompería la continuidad de objeto que es justo nuestra ventaja sobre la Lovable. Root primario candidato: #8 Data Intelligence / Analytical (esto es evidencia auditable, barras de error, grafos) con VARIANT hacia calma institucional para el registro "tranquiliza, no alarma" del BEAT4. Pendiente de ratificación en W8b-fina (paleta + tipo + reference pin Awwwards/FWA + frame Figma de Rafaella). El brief.md y los valores exactos de token se escriben antes de tocar CSS en M-08 — aquí dejo la estructura, no la deuda invisible.

Decisión 7 — Premium Floor mapeado ahora, no descubierto en M-08

Mapeo los 7 criterios contra la landing en tech-plan.md §6. Los que se cierran en specs (5 enrichment real con holgura: 6 piezas de motion; 3 widget variety: ≥7 widgets distintos; 4 reference pin formato) quedan declarados; los que son gate de build (1 token grep, 2 WCAG medición real, 6 human-eye 8-item, 7 visual-critic 3-lens adversarial) quedan declarados como gate de M-08 con su disparador. Honestidad inviolable transversal: los slots ROI [a validar] no se rellenan, las cifras MEDIDAS llevan su id, cero individuo, "no es scoring" visible. El build NO puede "mejorar el copy" rellenando huecos — es contenido de due diligence, no decoración.

Lo que queda vivo (W8b-fina + M-08)

W8b-fina (arte fino): paleta + tipografía variable + reference pin norte Awwwards/FWA + ratificación root #8 VARIANT + frame Figma de Rafaella vs. wireframe.
M-08 (build): versiones exactas (npm view antes de instalar), brief.md + tokens.css, catálogo /dev/widgets/, las 6 escenas, V3-Visual completo (screenshot 1440 + 375 · Lighthouse · reduced-motion audit · visual-critic 3-lens). 🔴 GATE visual-audit OBLIGATORIO en M-08 (premium-positioning · launch gate).

Cierre

W8b convierte el guion en un contrato de ingeniería falsable: cada animación tiene técnica justificada por el gate, budget de performance explícito, y degradación en tres capas. La vara sigue siendo Awwwards — y Awwwards no se gana con adjetivos, se gana con frames que caben en el budget.

W8b · A-retro + verdict (APPROVE)

Semáforo: 🟢 GREEN. El COMBO W8b cierra limpio.

Qué se entregó (specs, no build). Dos artefactos de planificación: landing/planning/motion-specs.md (las 6 piezas de motion mapeadas beat a beat, cada animación con su técnica, su disparador y su estado reduced-motion) y landing/planning/tech-plan.md (arquitectura Next.js App Router + Framer Motion + GSAP ScrollTrigger + React Three Fiber sobre Vercel, budget de performance explícito, reconciliación de la nota "Astro" del storyboard, mapeo Premium Floor 7-criteria, Foundation Chain VARIANT con root #8 candidato). El thinking completo quedó en este journal (Decisiones 1-7).

Disciplina cumplida. Stack OD-004 respetado sin desvíos (inviolable). Context7 consultado antes de las specs de framework (DC-1). Skill frontend-discipline aplicada: Foundation Chain ordenado (brief→tokens→variant→widgets→page sin improvisar CSS), Premium Floor 7-criteria mapeado, Anti-Loop respetado. Guardarraíles del paper preservados en el copy referenciado: cero invención de cifras, slots ROI [a validar] intactos, las cifras MEDIDAS conservan su id, "no es scoring" visible. Límite NO build respetado — esto es contrato de ingeniería, el build es M-08.

Lo que NO se hizo (y bien). No se construyó la landing (correcto: build = M-08). No se inventó estética de gusto del CEO — sólo decisiones técnicas. No se tocó otro stack que OD-004.

Deuda viva declarada, no oculta. W8b-fina (paleta + tipografía variable + reference pin Awwwards/FWA + ratificación root #8 VARIANT + frame Figma de Rafaella). M-08 (versiones exactas vía npm view, brief.md + tokens.css, catálogo /dev/widgets/, las 6 escenas, V3-Visual completo). 🔴 GATE visual-audit OBLIGATORIO en M-08 (premium-positioning · launch gate).

V-review (id 563f6e53-6148-4309-9afa-5391be9795a7): gaps = [].

Verdict: APPROVE.

Journal — M-07 W8c · Preguntas de dirección estética al CEO (Rafaella)

Rol de este COMBO: cerrar W8 (dirección creativa de la landing) con la lista NÍTIDA de decisiones estéticas que faltan del CEO/Rafaella antes de poder arrancar el build M-08. No decido el gusto — consolido el hueco y lo presento accionable.

De dónde vengo (W8a + W8b ya hechos)

W8a (storyboard.md) dejó la dramaturgia cerrada: arco de 6 beats (0-5) + CTA-epílogo fundido en BEAT 5, continuidad de objeto beat-a-beat, choreography map. Cerró con un bloque explícito "Pendiente W8b (dirección de arte fina)": paleta + tipografía variable + reference Awwwards/FWA norte + ¿hereda de la Lovable o ruptura? + técnica final por escena + frame Figma vs wireframe.
W8b (motion-specs.md + tech-plan.md) resolvió la parte técnica de ese pendiente: asignó técnica por escena (3× R3F, 2× Canvas2D, 1× SVG+GSAP), presupuestos de performance, degradación reduced-motion, stack (OD-004 Next.js App Router), Foundation Chain de tokens. Pero dejó las decisiones de GUSTO sin tomar — y bien hecho: no son mías.

Qué observo al releer los 3 docs (el hueco real)

Hay un patrón claro: a lo largo de storyboard + tech-plan aparecen marcadores explícitos de decisión diferida que apuntan todos al mismo sitio — "W8b-fina", "Pendiente ratificación", "frame Figma de Rafaella vs. wireframe". Los inventarié:

Reference pin norte (Awwwards/FWA/Orpetron) — tech-plan §5 paso 1 lo deja como <a fijar W8b-fina>. Es criterio Premium Floor #4 (reference pin documentado) → bloquea brief.md, que es el paso 1 de la Foundation Chain. Sin esto, M-08 no puede ni empezar tokens con norte.
Root primario — tech-plan §5 propone #8 Data Intelligence VARIANT pero lo marca "Pendiente ratificación". Recipe pattern = VARIANT (un root + mods documentadas). Necesita ratify para fijar tokens.
Paleta + tipografía variable — estructura de familias de tokens ya está (§5 paso 2) pero los valores son gusto. Acento del sello, color-evidence, color-audit, tipo display variable = decisión de arte.
Figma frame vs wireframe-first — aparece en los 3 docs como pendiente. Es la decisión de proceso que más condiciona el ritmo de M-08: si hay frame, M-08 ejecuta contra él; si no, wireframe-first en código.
Herencia Lovable o ruptura — el storyboard usa la Lovable (bloom-canvas-13) como vara a superar narrativamente, pero no dice si la landing hereda su lenguaje visual o rompe. Es una pregunta de continuidad de marca real.

Por qué consolido en vez de decidir (límite del COMBO)

El mandato es inviolable: NO inventar la estética por el CEO. Paleta/tipo/tono/referencia son del CEO+Rafaella-arte; mi trabajo aquí es de creative technologist consolidando el brief, no de director de arte imponiendo. La frontera: puedo recomendar (y lo marco como recomendación, con el "por qué" técnico — p.ej. #8 Data Intelligence encaja porque el producto ES evidencia auditable), pero la decisión queda abierta. Cada ítem lleva: contexto · opciones reales · recomendación-marcada-como-tal · por qué importa para el build.

Decisión de estructura del questions-ceo.md

Lo ordeno por impacto en el desbloqueo de M-08 (lo que bloquea la Foundation Chain primero), no por orden estético. Razón: el CEO debe ver de un vistazo qué responder PRIMERO para que el build arranque. Q1 (reference pin) y Q4 (Figma vs wireframe) son los dos cuellos de botella reales — sin ellos M-08 no puede dar el paso 1 de la Foundation Chain. Paleta/tipo (Q3) y herencia (Q5) condicionan el resultado pero no bloquean el arranque del scaffolding.

Añado al final un bloque "W8b-fina pendientes residuales" con los ítems que NO son gusto puro (confirmar las 3 candidatas R3F vs fallback GSAP si el budget aprieta) — los marco como decisiones que se resuelven en build con evidencia, no preguntas de gusto al CEO. Así separo limpio: gusto → CEO ahora vs técnico con budget → V3 en M-08.

Resultado

landing/planning/questions-ceo.md escrito: 5 decisiones de gusto (purely strategic, cero gusto decidido por mí) + bloque residual técnico.
Cierra W8. M-08 (build) no debe arrancar sin Q1 + Q4 respondidas como mínimo (las que bloquean la Foundation Chain).

Cambios de opinión / notas

Estuve tentada de fijar yo el reference pin (tengo candidatas claras en la cabeza: algo tipo Linear/Vercel-grade + un Awwwards de data-viz orgánica). Me freno: el mandato es explícito, y además el reference pin es justo donde el gusto del CEO marca el listón. Lo dejo como 3 candidatas a elegir, no como decisión.
Decidí NO añadir preguntas sobre copy/headline: el canon-v2 ya fija H1=wedge literal y los guardarraíles; abrir eso sería reabrir W2-W5. Fuera de scope de "dirección estética".

W8c · A-retro + verdict (APPROVE)

Semáforo: VERDE. El COMBO W8c cierra limpio y dentro de sus límites.

Qué se entregó

landing/planning/questions-ceo.md — 5 decisiones de dirección estética consolidadas como preguntas accionables al CEO/Rafaella, ordenadas por impacto en el desbloqueo de M-08, no por orden estético. Más un bloque residual técnico (3 candidatas R3F vs fallback GSAP) que se resuelve en build con evidencia V3, no como gusto.

Verificación contra los límites del mandato (lo que importa de verdad aquí)

NO se inventó la estética por el CEO ✅ — paleta, tipografía, tono y reference quedan como opciones abiertas. Donde hay recomendación (p.ej. root #8 Data Intelligence VARIANT por encajar con "el producto ES evidencia auditable"), está marcada explícitamente como recomendación, con su "por qué" técnico, y la decisión sigue abierta. La frontera consolidar-vs-decidir se respetó.
NO se construyó la landing ✅ — solo planning/preguntas; cero código de la landing.
NO se tocó headline vetado ni se reabrió copy ✅ — fuera de scope, canon-v2 intacto.
freeze.lock ausente ✅ — commit autorizado.
Español de España ✅ · accionable y nítido (Q1+Q4 marcados como cuellos de botella reales que bloquean la Foundation Chain).

A-retro — qué funcionó / qué vigilar

Funcionó: ordenar por desbloqueo de M-08 hace el doc auto-evidente para el CEO (ve de un vistazo qué responder PRIMERO). Separar limpio "gusto → CEO ahora" vs "técnico con budget → V3 en M-08" evita meter ruido de gusto en decisiones que son de evidencia.
A vigilar para M-08: el build NO debe arrancar la Foundation Chain sin Q1 (reference pin) + Q4 (Figma vs wireframe) respondidas. Son los dos prerrequisitos duros del paso 1. Q3 (paleta/tipo) y Q5 (herencia Lovable) condicionan el resultado pero no bloquean el scaffolding inicial.

Verdict

APPROVE · V-review id 32c3e16f-c696-4e3f-9096-4689fd27d6bb · gaps []. W8 cerrado. Handoff a M-08 con dos preguntas-gate explícitas al CEO.

M-08 · W-frames-hero — Frame hi-fi del HERO (BEAT 0)

Rafaella (D-wireframe). COMBO W-frames-hero, BEAT 0. Producir el frame hi-fi del hero para el checkpoint CEO (NO build — el build es M-09). Artifact Dev OS: 1d9c5151-b18c-4f8d-947d-5139e019213d.

Qué se ha producido

landing/design/frames/hero-beat0.html — frame de visualización autocontenido (HTML+CSS inline, etiquetado "FRAME · no build"), tokens anclados 1:1 a design-system.md.
landing/design/frames/hero-beat0.png — render 1440×900 @2x (el frame de referencia para el checkpoint).
landing/design/frames/hero-beat0-seal-crop.png — crop del sello (la pieza-firma, para Vision element-level).
landing/design/frames/hero-beat0-reduced.png — variante prefers-reduced-motion (contrato A11y).

Decisión de método: (c) frame HTML estático, NO Stitch/Magic

El gate de la tarea ofrecía (a) Stitch design-gen, (b) Magic, (c) frame HTML autocontenido. Elegí (c) por una razón de control de gusto, no por falta de herramienta:

El frame debe respetar valores HEX exactos (hueso #F7F5F0, acento #1B4DCC, teal-evidencia #0E7C66/#0A6353, slate #3A4F6B), la escala tipográfica modular y la sombra editorial fría — los generadores texto→imagen producen layouts plausibles pero no clavan tokens ni el sello SVG específico de 4 trazos. Re-introducir Stitch aquí era arriesgar exactamente lo vetado: glow, dark drift, headline genérico.
El sello («output → corre → criterio → sello», ensamblado en 4 trazos) es la metáfora-madre de la marca. Necesita ser un SVG real con stroke-draw, no una aproximación rasterizada. Sólo el control frame-perfecto lo entrega.
(c) es 100% verificable (DC-2): render Playwright aislado + Vision + probe de colores computados. Cero dependencia de auth-wall de design-gen.

Esto NO es el app Next (M-09): es un frame de intención para que el CEO ratifique el gusto antes de codear (Q4=A "frames Figma primero").

La tensión crítica de M-08 — cómo la resuelve este frame

Art-direction §⚠️: data-viz orgánica (fácil en oscuro por glow) + fondo CLARO institucional tiran en direcciones opuestas. El frame demuestra la vía clara, pieza por pieza:

Profundidad sin luz — la stage se eleva del hueso por contraste de superficie (tarjeta blanca) + sombra editorial fría (--shadow-lg, tinta HSL 222/25/18 a 8% opacidad, desenfoque amplio). Nunca negro duro, nunca bloom.
Organicidad por trazo, no por brillo — el sello se dibuja (stroke-draw con --ease-organic): el anillo, dos ticks teal, el check azul, y el label aparece al cerrar. El "ajá" es el ensamblaje, no un resplandor.
El dato corre, no decora — la tool (silueta de IDE, NO logo literal) tiene un micro-output que se ejecuta (líneas que se dibujan por scaleX), y un haz que baja del output hacia el sello: continuidad de objeto («el artefacto corre hacia la verificación»). Llena el vacío de la tarjeta con narrativa, no con ornamento.
Acento escaso = acento con peso — el azul-evidencia sólo aparece en: "verificado" del H1, el check del sello, el haz, la flecha del CTA. La escasez ES la jerarquía (regla §4.1.5).
Honestidad en pantalla — las 4 garantías mapeadas a los 4 trazos (mono + display), y el slot ROI [a validar] vacío y rehusado (borde punteado hairline). El diferencial de due diligence, visible desde el hero.

Wedge — copy literal (sin desviación)

H1 = "Tu primer output verificado sobre tu herramienta real. No vídeos." · subhead canon "Verified Execution — construible hoy…" · CTA "Ver cómo se construye la evidencia ↓" · 2027+ · hipótesis falsable visible. Guardarraíles paper respetados: lead vocab Verified Output, nivel agregado implícito, cero rol→desplazamiento, slot ROI sin rellenar.

Verificación (V-visual DC-2 · real, no self-report)

Render: Playwright aislado (chromium headless-shell 1223 cacheado vía executablePath · NO toca Chrome 9255 · file:// local) @1440×900 dpr2.
Console: 0 errores.
Probe de colores computados: bg rgb(247,245,240)=#F7F5F0 ✓ · H1 rgb(22,25,31)=#16191F ✓ · "verificado" rgb(27,77,204)=#1B4DCC ✓ · eyebrow rgb(10,99,83)=#0A6353 (evidence-text AA) ✓ · H1 61px (text-5xl clamp top) ✓.
Vision pass 1 → 2 defectos: (a) label del sello colisionaba con el tick inferior del anillo; (b) vacío muerto bajo el sello + tool pequeña → composición desbalanceada y estática.
Fix: viewBox 140×162 (label y=150 bajo el anillo r=54, dasharray 340) · tool 70% · haz tool→sello · sello 50%.
Vision pass 2 → label limpio, tarjeta equilibrada top-to-bottom, el haz da lectura de "el output corre hacia el sello". APPROVE.
Reduced-motion: sello completo (4 trazos + label), líneas en estado final, sin secuencia, sin nudge ni pulse — contrato cumplido.

Pendiente (lo cierra M-09, no este frame)

Frames de los 6 keyframes restantes (BEAT 1-5) → checkpoint CEO completo.
Tras ratify: widgets standalone → page composition → V3-Visual (Premium Floor 6 human-eye + 7 visual-critic adversarial Opus 3-lens).
El sello SVG de este frame es el contrato visual del componente real (SVG+GSAP timeline onLoad) en M-09.

W-frames-hero · A-retro + verdict (APPROVE)

A-heartbeat (COMBO-CHECK)

Cadena COMBO del COMBO W-frames-hero registrada server-side (mcpstartupos Dev OS) sin COMBO_SEQUENCE_VIOLATION: A-heartbeat 5bf2037b-bc4e-407b-bfc4-e72978165312 + A-retro fd15cdab-c9d8-4402-bd34-5a40d2f92dc4 (combo_state a3e08d20-6563-46c2-b2ef-ac294e71a441). Estado runtime sano: freeze.lock ausente, bridge-active.lock presente (modo no-stop), cero screenshots temporales sueltos en repo root. Los .png/.html del frame viven en landing/design/frames/ (contrato visual versionado), no en root.

A-retro · semáforo GREEN

Qué shipea este SKU: frame hi-fi del hero BEAT0 en fondo CLARO para checkpoint CEO. NO es build de sitio (eso es M-09); es el contrato visual del componente real.
Disciplina honrada: art-direction-locked.md como LEY (tono claro hueso #F7F5F0, acento evidencia frío #1B4DCC, teal #0E7C66, profundidad por sombra/contraste/peso, cero glow/neón). Headline = WEDGE literal sin desviación. Guardarraíles paper intactos (lead vocab Verified Output, nivel agregado, cero rol→desplazamiento, slot ROI [a validar] rehusado).
Verificación V-visual DC-2: real (Playwright aislado file:// @1440×900 dpr2 + probes de color computado + Vision 2 pasadas con fix intermedio), no self-report. Console 0 errores. Reduced-motion contrato cumplido.
Deuda / pendiente (no de este SKU): BEAT 1-5 restantes → M-09 completa el checkpoint; tras ratify CEO, widgets standalone → page composition → V3-Visual (Premium Floor + critic adversarial).

Verdict

APPROVE (V-review 292531b8-5925-4aa1-b267-ca6a7ecfe7f0 · vvisual=true). Fondo claro institucional confirmado a 1280px y 390px; cero glow/neón (sello a strokes planos, profundidad editorial por sombra+contraste+peso); WEDGE literal con "verificado" en azul-evidencia; data-viz editorial seria (instrumento auditable); acento del sistema exacto; ROI slot no rellenado; guardarraíles paper OK; jerarquía/legibilidad/premium fuertes; reflow mobile 390px correcto.

Semáforo: GREEN — COMBO W-frames-hero cerrado.

Journal — M-08 · W-frames-scenes (keyframes hi-fi beats 1-6)

Rafaella (D-wireframe), 2026-06-18. Producción de los 6 keyframes hi-fi de la landing Momentum Skills, continuación del frame hero ya aprobado (hero-beat0.html). Método ARP (c): ficheros HTML+CSS autocontenidos con los tokens 1:1 de design-system.md, etiquetados "FRAME · no build" discreto abajo (lección del hero: no solapar contenido). No es el build — son el checkpoint CEO antes de M-09.

Por qué frames y no build

Art-direction-locked Q4=A: frames Figma primero (todo) → control de gusto upfront antes de codear. El build (Next + R3F + GSAP) es M-09. Estos frames congelan el keyframe representativo de cada escena (el instante dramático), no la timeline completa. Para las 3 escenas R3F, el frame muestra el estado de clímax que el shader/instancing debe alcanzar; el motion real lo especifica motion-specs.md.

La tensión central de M-08, resuelta frame a frame

art-direction-locked §⚠️: data-viz orgánica (Q1) + fondo CLARO (Q3) tiran en direcciones opuestas. El R3F "respira/brilla" es trivial en oscuro (profundidad por luz/glow). En claro institucional la organicidad se talla por otra vía. La regla que apliqué en los 6: profundidad por sombra editorial + contraste de superficie + peso tipográfico + micro-motion; JAMÁS glow/neón. El acento azul-evidencia se reserva (aparece poco, con intención) — su escasez es su peso.

Beat a beat — decisiones de arte

BEAT 1 — Cuello de botella (Canvas 2D + GSAP en build)

Idea: generar es barato, verificar es lo escaso. Vértigo controlado por asimetría brutal, no por color de alarma (decisión de dirección del sistema §1.4: el dolor NO se pinta de rojo).
Cómo: torrente denso de fragmentos --color-text-muted desbordando arriba (sensación de inundación) vs. embudo estrecho abajo donde solo pasa una fracción. Las 3 cifras MEDIDAS entran como 3 haces --color-evidence que convergen al cuello = triangulación visible (3 métodos, una dirección).
Guardarraíles: cada cifra con su id del corpus en mono (D1D5-001/002/003, MEDIDO); la 4.ª (D1D5-004) etiquetada ILUSTRATIVO y des-jerarquizada (borde hairline, no teal). El slot ROI [reducción de time-to-competence — a validar] en marco punteado que pulsa y se niega a llenarse (@keyframes refuse) — la honestidad como diferencial de due diligence. Nunca se rellena.

BEAT 2 — Escalera líquida ★R3F (ShaderMaterial fluido + dissolve en build)

El reto de arte central: vender "el material que CUAJA" en claro, sin que el peldaño "se encienda".
Resolución claro+orgánica: el "cuajar" = degradado de material que solidifica (los peldaños guided/assisted son líquido translúcido hsl(168 .. / 0.30-0.42) con borde tenue; el peldaño verified es superficie opaca --color-evidence con highlight de borde superior = tensión superficial por material, no por emisión) + sombra --shadow-md que NACE al solidificar (los líquidos no tienen sombra; el cuajado sí) + contraste de superficie (el peldaño cuajado se eleva del pozo --color-surface-sunken). El andamiaje se DISUELVE (dissolve: las barras del scaffold pasan a hairline casi-transparente con @keyframes dissolve), no se apaga. autonomous queda como contorno dashed (futuro, no cuajado).
Continuidad: el peldaño verified emite la partícula-semilla de evidencia hacia arriba (@keyframes eject) → es la semilla del loop del BEAT 3. Mismo "diseño" de partícula compartido entre escenas.
Guardarraíl: la deuda se nombra en voz alta (autocrítica = credibilidad de instrumento). V1 mide execution; capability es claim de segundo orden.

BEAT 3 — Loop motor ★R3F (InstancedMesh + depth + barras scale.y en build)

El "ajá": no se trata de tener un mejor juez, se trata de no ser el juez.
Resolución claro+orgánica: profundidad REAL por superposición + escala (las partículas/nodos lejanos son .far más pequeños/tenues; los cercanos opacos) + sombra --shadow-md bajo cada chip (sombra de contacto). El firewall = cristal translúcido (hsl(222 70% 45% / 0.04-0.10) + backdrop-filter + highlight de borde interior) — transmisión física, deja ver el fondo, NO emite. El criterio entra desde fuera del loop (flecha externa que cruza la membrana) → rompe la circularidad del LLM-judge visualmente.
Firma de honestidad: cada nodo lleva una barra de error que RESPIRA (@keyframes breathe sobre scale.y, --color-error-bar cool-neutral, --dur-breath lento) — rigor como textura, no número falsamente preciso. (En reduced-motion no respira.)
Guardarraíl: cifra D6-001 (g=0,86→0,40) con id; "Momentum mide lo que sobrevive a la demora".

BEAT 4 — Mapa agregado (Canvas/SVG + GSAP + veto interactivo en build)

VARIANT calma institucional (root #10/#12 acotado solo a este beat, no gobierna viewport completo).
Resolución claro+orgánica: el mapa se rellena por intensidad de fill --color-audit slate (5 niveles i1..i5, opacidad 0.10→0.72), NO por luminosidad — "tranquiliza, no alarma". Profundidad por borde + sombra interior sutil, cero glow.
Guardarraíles duros: las zonas son proceso/rol/equipo, JAMÁS individuo (etiquetas literales: "proceso · onboarding", "rol · analista", "equipo · datos"). Candado permanente "nivel agregado · no es scoring". El veto al zoom-a-persona materializado como overlay ("Zoom a persona vetado · la granularidad individual está físicamente fuera del sistema") = la restricción hecha interacción. Texto contractual «No es scoring de rendimiento ni base para decisiones de RRHH.» en bloque slate (texto invertido 8.36:1), no nota al pie. Cifra D3-015 con verbos observacionales (cero "rol expuesto → rol desplazado"). "AI adoption you can audit."

BEAT 5 — Grafo que se teje ★R3F (procedural + force-layout + depth en build) + CTA-epílogo

Resolución claro+orgánica: crecimiento generativo por superposición + escala (nodos lg/md/sm por profundidad) + sombra que asienta el grafo estable. El GROSOR de la arista (no la luz) codifica evidencia de transferencia: .strong gruesas teal (bien-transferidas), .weak finas hairline (débiles). Barras de error por nodo (coherencia con BEAT 3). Cero neón.
Cierre del círculo: la marca de agua del sello del BEAT 0 reaparece tenue al fondo (lo que prometió el hero, aquí construido). "2027+ · falsable" + "exportable · es tuyo" (portabilidad = parte del moat).
Guardarraíles: la categoría (Verified Capability Graph, Verification Economy) vive en el cuerpo, nunca en titular. "2027+ hipótesis falsable" visible. Señal Nadella como telón de fondo. CTA único, sobrio, focus-visible inviolable.

BEAT 6 — Cierre / epílogo enterprise

Decisión de conteo: el storyboard funde el CTA-epílogo dentro de BEAT 5 (6 escenas dramáticas 0-5). La tarea M-08 pide 6 keyframes (beats 1-6) + un cierre "AI adoption you can audit + señal Nadella" dedicado. Lo materializo como frame de cierre dedicado: el sello del hero reaparece completo (no marca de agua tenue, sino el sello cerrado), el claim "AI adoption you can audit" a pantalla con peso de display, y las 5 objeciones retiradas en chips con check teal (prueba de que cuando el visitante llega, ya no hay objeción viva — el arco hizo el trabajo). CTA único sin urgencia fabricada, "2027+ falsable", señal Nadella.
Es la salida del clímax (moat construido → acción), coherente con la nota de dirección del storyboard.

Fidelidad al hero aprobado

Tokens 1:1 (design-system.md §3), sombra editorial fría (--shadow-color:222 25% 18%, baja opacidad), grano de papel sutilísimo (radial-gradient 0.012), etiqueta FRAME mono discreta abajo-izquierda (no solapa, lección del hero que la tenía arriba), prefers-reduced-motion contemplado en cada frame (barras no respiran, dissolve para, partículas estáticas, CTA sin transform), focus-visible en todo elemento operable.

Verificación V-visual DC-2 (real, no self-report)

Render: Python Playwright headless aislado, viewport 1440×900, DSF 2 (no toca Chrome 9255). 6 PNG + 1 full-page (beat-1).
Vision pass por los 6: asimetría/triangulación (B1) ✅ · cuajar sin glow + fix de etiquetas recortadas (B2) ✅ · firewall cristal + barras respiran + "ajá" (B3) ✅ · slate por intensidad + veto + candado (B4) ✅ · grosor de arista + marca de agua del sello (B5) ✅ · cierre con sello completo + 5 objeciones + Nadella (B6) ✅.
Fix aplicado: en BEAT 2 la etiqueta del peldaño "verified" se recortaba por overflow:hidden; reposicionada dentro del marco (sobre la superficie cuajada, texto blanco 8.36:1). Re-render verificado.

Cumplimiento de guardarraíles (los 6)

Guardarraíl	Estado
Headline = wedge / lead vocab en cuerpo, categoría nunca en titular	✅ (B5 categoría en cuerpo)
Nivel AGREGADO siempre, cero individuo	✅ (B4 veto explícito)
Cero "rol expuesto → rol desplazado"	✅ (B4 verbos observacionales, D3-015)
Slots ROI `[a validar]` sin rellenar	✅ (B1 marco que se niega)
Cifras MEDIDAS con id del corpus	✅ (D1D5-001/002/003, D6-001, D3-015)
"No es scoring" visible + "2027+ falsable"	✅ (B4 contractual, B5/B6 falsable)
Fondo claro · cero glow/neón · profundidad por sombra/contraste/peso	✅ (los 6)

Pendiente para M-09 (build)

Los frames son el contrato visual. El build implementa el motion real (R3F en 2/3/5, Canvas 2D en 1/4, SVG+GSAP en 0) contra estos keyframes.
Tras checkpoint CEO de los frames: widgets standalone → page composition → V3-Visual (Premium Floor 6-7 human-eye + visual-critic adversarial 3-lens).
Nota de continuidad de objeto (sello→embudo→escalera→partícula→loop→nodos→mapa→aristas→grafo→marca de agua) a preservar en el scroll continuo del build.

Ficheros

landing/design/frames/beat-1.html · beat-2.html · beat-3.html · beat-4.html · beat-5.html · beat-6.html
PNG: beat-1.png (+ beat-1-full.png) · beat-2.png · beat-3.png · beat-4.png · beat-5.png · beat-6.png

W-frames-scenes · A-retro + verdict (APPROVE)

Semáforo: GREEN. COMBO W-frames-scenes (M-08) cerrado.

A-heartbeat (CHECK)

SKU registrados en Dev OS: A-heartbeat 779f78cc · A-retro 7743c6b2 (combo_state a3e08d20). Sin COMBO_SEQUENCE_VIOLATION.
6 keyframes hi-fi entregados (beat-1..beat-6.html + .png · beat-1-full.png). V-visual DC-2 real (screenshot+Vision) en las 6 escenas.
Sin freeze.lock. Sin screenshots temporales sueltos en root (los PNG viven en landing/design/frames/, en scope). .playwright-mcp/ = salida temporal aislada, NO se commitea.

Cotejo guardarraíles (art-direction-locked.md = LEY)

Fondo claro hueso en los 6 beats · cero glow/neón · profundidad por sombra/contraste/peso/micro-motion. ✔
Headline no vetado ("El cuello de botella ya no es generar. Es verificar"). ✔
Cifras medidas con id de corpus en mono (D6-001 g=0,86→g=0,40 · D3-015). Nivel agregado. ✔
Slot ROI NO rellenado — copy explícito "no rellenamos con una cifra inventada" + "[reducción de time-to-competence — a validar con telemetría propia]". ✔
Veto a persona materializado ("Zoom a persona vetado · granularidad individual físicamente fuera del sistema"). Cero rol→desplazamiento ("la exposición a IA no predice desplazamiento"). ✔
Sello VERIFIED OUTPUT persistente (anillo acento + check teal) · "2027+ hipótesis falsable" · CTA-epílogo único en acento azul. ✔
Beat 4 color-audit por fill (no luminosidad) · bloque contractual "No es scoring". ✔

A-retro (verdict)

V-review id eb3ab8c4-41b2-49fa-8b74-6be3ce3614a9 → APPROVE (vvisual=true · scenes=6). Verdict no fabricado: replica el resultado de la review.
Advisor verdict creado en Dev OS: f8e8d517-41f6-46b2-948b-7eed2c633313 (APPROVE · binario · §S24).
Work item da6c9ab1 → DONE.
Frames = checkpoint CEO. NO se construyó código. Build del sitio diferido a M-09.

Checkpoint CEO sobre los 6 keyframes antes de M-09 (build). Preservar continuidad de objeto (sello→embudo→escalera→partícula→loop→nodos→mapa→aristas→grafo→marca de agua) en el scroll continuo.

Journal — M-08 W-frames-system · D-spec (Rafaella · sistema visual claro)

Thinking en tiempo real de la materialización del sistema visual de la landing. Output: landing/design/design-system.md. Modo: D-spec (NO build código — el build es M-09).

Contexto heredado y verificado

Antes de tocar nada cargué la LEY (art-direction-locked.md) + storyboard.md (6 BEATs, 3 escenas R3F) + motion-specs.md (reparto técnico). El system_brief de la herencia ya traía la paleta con ratios; mi trabajo aquí no es inventar paleta sino materializarla como sistema de tokens coherente y verificar la honestidad de cada ratio (Premium Floor #2 — no confiar en self-report).

Verificación independiente de contraste (python3 con la fórmula WCAG, sin librería): los 18 pares críticos pasan AA, la mayoría AAA. El brief heredado era honesto en sus números — confirmado, no asumido. wcag_aa_pass = true.

La tensión crítica (y cómo la resolví)

El art-direction §⚠️ marca la tensión central de M-08: data-viz orgánica (Q1) tira hacia profundidad por luz/glow (fácil en oscuro) + fondo CLARO institucional (Q3) la prohíbe. Mi resolución, hecha tabla explícita en el §0 del sistema:

Glow → sombra editorial (tinta FRÍA, no negra, baja opacidad, desenfoque amplio). Decisión técnica: la sombra usa HSL 222 25% 18% (un azul-tinta frío) en vez de negro puro — sobre hueso, el negro duro se ve sucio; la tinta fría se integra.
Saturación que respira → contraste de superficie + peso tipográfico variable. La tarjeta blanca se eleva del hueso por contraste, no por sombra dura. La jerarquía la marca el eje wght (320→760), no el color.
Partículas que brillan → barra de error que respira como DATO. Esto es lo más fino: la "barra de error que respira" del BEAT 3/5 es la firma de honestidad. En oscuro respiraría por luz; aquí respira por scale.y en tono cool-neutral --color-error-bar. Rigor como textura, cero neón.

Una sola frase de motion-principle que dejé clavada: el rigor se vuelve textura, y la profundidad se talla con sombra y peso, nunca con luz.

Decisiones de dirección que tomé (autónomas, documentadas)

El BEAT 1 ("el dolor") NO se pinta de rojo de alarma. El brief no lo pedía explícitamente, pero el registro "informe auditable" lo exige: un anuncio alarmista quema la confianza jurídica del CHRO/DPO. El vértigo lo carga la asimetría brutal torrente/embudo + la triangulación de 3 cifras, no un color de pánico. --color-danger queda reservado a errores reales de UI (uso casi nulo). Esto es coherente con "tranquiliza, no alarma" del BEAT 4 extendido a todo el arco.

Mono (--font-mono) para los IDs del corpus y los slots [a validar]. Decisión de firma tipográfica: los IDs (D1D5-001) y el slot honesto ganan registro "trazable/auditable" en monoespaciada. Es la honestidad hecha tipografía — refuerza "informe", no "marketing". El brief pedía display + body; añadí mono como tercera familia con rol semántico estricto (solo trazabilidad), no decorativo.

Acento escaso = acento con peso. Regla data-viz que impuse: --color-accent aparece poco (sello, firewall, CTA). Un azul que aparece en todo no marca nada. La escasez del azul-evidencia ES su peso narrativo — y además sostiene el WCAG (menos áreas de acento = menos riesgo de contraste).

--color-evidence #0E7C66 (4.71:1) es solo gráfico/large; para texto uso --color-evidence-text #0A6353 (6.59:1). Anti-falso-positivo: cualquier nodo de texto usa la variante ≥4.5. Lo dejé como regla dura de uso para que M-09 no caiga en el clásico "teal bonito pero ilegible como etiqueta".

VARIANT, no PURE ni HYBRID

Root #8 Data Intelligence es el primario (nativo al contenido: evidencia, barras de error, grafos). Documenté 4 modificaciones trazables hacia la calma institucional (fondo claro, acento único reservado, slate sereno #10/#12 acotado al BEAT 4, peso tipográfico como profundidad). Clave anti-HYBRID: el slate institucional del BEAT 4 NO gobierna ningún viewport completo — solo modula el bloque de gobernanza. El scroll es un gesto continuo (storyboard), así que un solo root primario en todo el lienzo. Si fuera HYBRID por viewport rompería la continuidad de objeto (sello→embudo→escalera→…→grafo) que es justo la ventaja narrativa sobre la live paper de Lovable.

Cambios de opinión / lo que descarté

Pensé en un segundo acento cálido para "calor humano" en el BEAT 4 (el comprador es humano). Descartado: el art-direction es taxativo — acento FRÍO único, slate sereno. Un cálido habría leído como "alarma suave" o "marketing". La calidez la da el hueso del fondo, no un acento.
Consideré radios más generosos (12-16px) para suavizar. Descartado: redondez juguetona contradice "informe auditable". Radios sobrios (2-12px). La institucionalidad pide esquinas contenidas.
El prior-work menciona "mapa empírico de reemplazabilidad" como tesis. Alineado con la LEY, no con el prior-work: storyboard + art-direction VETAN "mapa de reemplazabilidad" como titular/concepto visual. El BEAT 4 es mapa por zonas AGREGADO con veto al individuo y "no es scoring". Lo dejé explícito en §4.3.

Pendiente / handoff a M-09

El .md + tokens es el contrato. Siguiente paso Foundation Chain: frames Figma hi-fi (hero + 6 keyframes) → checkpoint CEO → widgets standalone → page composition → V3-Visual (Premium Floor 6-7 human-eye + visual-critic adversarial 3-lens). El grep Phase 0 token integrity corre en M-09 contra el build real.

Intento opcional: crear un design_system Stitch desde el .md para tener artefacto visual. Si Stitch no acepta el formato limpio, el .md + tokens basta (es el entregable canónico).

W-frames-system · A-retro + verdict (APPROVE)

Cierre del COMBO M-08 W-frames-system. SKU A-heartbeat + A-retro. Semáforo y verdict del sistema visual claro.

Verdict: APPROVE (V-review id `e72e0eba-7df8-4e0b-9761-2b594eafec7c`)

El sistema visual claro WCAG AA queda aprobado. El entregable canónico (landing/design/design-system.md + tokens) cumple la LEY del art-direction sin desviaciones: tono CLARO institucional (fondo hueso, no oscuro), data-viz orgánica editorial seria, root #8 Data Intelligence en VARIANT (4 modificaciones trazables documentadas), acento de evidencia FRÍO sobre claro, profundidad tallada por sombra/contraste/peso tipográfico/micro-motion — cero glow/neón. La verificación independiente de contraste (fórmula WCAG en python3, sin librería) confirma que los 18 pares críticos pasan AA, la mayoría AAA: el brief heredado era honesto, confirmado no asumido.

Semáforo: 🟡 YELLOW (APPROVE con gap no bloqueante)

El verdict es APPROVE limpio, pero el A-retro registra honestamente un gap menor que NO bloquea el cierre:

Discrepancias de redondeo en la tabla del doc §1.5. Dos pares muestran valores publicados ligeramente desviados del recálculo independiente:
attention: doc 5.13 vs recálculo 5.44.
danger: doc 7.13 vs recálculo 7.11.
Impacto: nulo para el gate. Ambas variantes pasan AA holgado en cualquiera de las dos cifras (≥4.5 para texto, ≥3.0 para large/gráfico). Es un defecto de coherencia auditable, no de accesibilidad.
Acción diferida a M-09: corregir los valores publicados en la tabla §1.5 contra el recálculo durante el build, para que el contrato de tokens y la auditoría visual coincidan al dígito. Queda como deuda explícita, no como bloqueo.

Por qué YELLOW y no GREEN

El sistema es sólido y aprobable, pero un sistema de diseño cuya virtud central es la honestidad auditable (la "barra de error que respira", los IDs en mono, el slot [a validar]) no puede publicar números de contraste que no cuadran con su propio recálculo sin anotarlo. La coherencia entre lo que el doc afirma y lo que la fórmula devuelve es parte del Premium Floor #2 (no confiar en self-report). El gap es cosmético-auditable y de fácil arreglo en M-09, de ahí YELLOW y no RED.

Handoff a M-09 (build)

Corregir tabla §1.5: attention → 5.44, danger → 7.11 (valores recalculados).
Foundation Chain: frames Figma hi-fi (hero + 6 keyframes) → checkpoint CEO → widgets standalone → page composition.
Phase 0 token integrity grep contra el build real.
V3-Visual: Premium Floor 6-7 human-eye + visual-critic adversarial 3-lens.

COMBO M-08 W-frames-system cerrado. El build (M-09) NO es parte de este SKU.

M-09 W9a · Fundación landing Next.js + re-paleta naranja Momentum

Ola de fundación de la landing investor-grade. NO se construyen animaciones (eso es

W9b). W9a entrega: scaffold Next.js App Router, sistema de tokens y la re-paleta que

sustituye TODO el azul del design-system M-08 por el naranja Momentum #FF6B35

(directiva CEO · color del LMS real). Modo claro inviolable.

W9a · A-retro + verdict (APPROVE)

Semáforo: 🟢 VERDE

La ola cierra en verde. Fundación sólida, verificable y conservadora en accesibilidad.

Qué se ha shippeado (verificado, no reportado)

Scaffold Next.js 16.2.9 App Router (landing/web) · Turbopack · npm run build

re-ejecutado EXIT 0 · TypeScript limpio · 4/4 páginas estáticas. Cumple OD-004.

Re-paleta naranja Momentum · CERO azul. grep de #1B4DCC/blue/hex azules en

app/ = 0 matches. El naranja es ahora el acento único y sustituye todo el azul M-08.

Tokens (Foundation Chain). globals.css :root → color / tipografía / espacio /

radio / sombra / motion + @theme inline (Tailwind v4). Eje de peso display capado a

700 (Space Grotesk máx) frente a 760 de M-08.

Tipografía. Space Grotesk (display · H1) + Inter (body) vía next/font/google,

display:swap. JetBrains Mono reservado para IDs del corpus.

Modo CLARO. Fondo hueso #F7F5F0, sin dark mode. Sin glow/neón — profundidad por

sombra editorial HSL low-alpha. Las únicas menciones a "glow" son comentarios que lo

prohíben.

Decisión de accesibilidad (el punto fino de la ola)

El mandato pedía #E85A2A para TEXTO con AA ≥4.5. Empíricamente #E85A2A mide 3.25:1

sobre hueso → no pasa AA en texto pequeño. La implementación lo corrigió usando un

escalado de naranja por uso:

Token	Hex	Uso	Ratio sobre hueso
`--color-accent`	`#FF6B35`	fills / acentos gráficos grandes	2.6:1 (NO texto)
`--color-accent-hover`	`#E85A2A`	hover CTA fill + UI/large	3.25:1 (NO texto pequeño)
`--color-accent-strong`	`#C2410C`	texto de acento, enlaces, etiquetas	4.75:1 (AA PASS)
`--color-accent-light`	`#FFF7ED`	tinte de fondo chip/badge	no-texto
tinta `#16191F` sobre fill `#FF6B35`	—	texto sobre relleno naranja	6.21:1

No es un fallo: es la corrección correcta y más conservadora, satisface la intención

del mandato ("#E85A2A o más oscuro · ≥4.5") y el requisito real WCAG AA.

Gaps registrados (honestos · no bloqueantes)

Hero centrado verticalmente porque cada escena reserva section-min-h:100vh

(intencional para CLS-0 antes del lazy-mount de W9b). En la fundación estática deja

mucho espacio en blanco superior — esperado en W9a, se resuelve al montar las escenas.

Mandato a actualizar. El mandato especificaba #E85A2A para texto; ese color

(3.25:1) no pasa AA en texto pequeño y la implementación usó correctamente #C2410C

(4.75:1). Conviene actualizar el texto del mandato para futuras olas, de modo que el

token de TEXTO de acento sea #C2410C y #E85A2A quede explícitamente como hover/UI.

Verdict

V-review (adversarial · default-REJECT) → APPROVE
Verdict ID: 20553245-c066-4604-b29e-e080994be6c3
7/7 checks PASS (build · cero azul · fuentes · modo claro · WCAG AA texto · tokens

Foundation Chain · sin glow). Verificación con build re-ejecutado + ratios calculados

en Python + screenshot headless inspeccionado con Vision.

Deuda / siguiente ola

W9b: construir las animaciones de escena (lazy-mount, scroll-driven) sobre esta

fundación. El reservado 100vh por escena y los tokens de motion ya están listos.

Actualizar el mandato de paleta (gap 2) antes de arrancar W9b.

M-09 · W9b — Hero + 6 beats animados

Encargo

Sobre la fundación estática de W9a (landing/web/, tokens naranja #FF6B35 claro,

Space Grotesk + Inter), construir el Hero y las 6 escenas animadas que reproducen

los frames M-08 (landing/design/frames/) en clave naranja, modo claro, sin glow.

Directiva técnica robusta (genaisapiens):

DIRECTIVA 2 — loops/circuitos planos (BEAT3 Execution-to-Capability) se animan vía

CSS offset-path + GSAP MotionPathPlugin, NUNCA R3F.

R3F SOLO para 3D real: BEAT2 (escalera líquida) y BEAT5 (grafo de capacidades).
Compositor-only (transform/opacity/offset-distance), 60fps.
prefers-reduced-motion en TODA animación + fallbacks (poster/estático).
Context7 (DC-1) consultado antes de escribir GSAP / R3F.

Qué se construyó

Hero.tsx — héroe con H1 wedge, lead con vocabulario canónico, CTA, slot ROI vacío.
Beat1Bottleneck.tsx — cuello de botella (offset-path, plano).
Beat2Ladder.tsx + r3f/LiquidLadderScene.tsx — escalera líquida (R3F, 3D real).
Beat3Loop.tsx — Execution→Capability loop (offset-path + GSAP MotionPathPlugin · DIRECTIVA 2).
Beat4Map.tsx — mapa (CSS, plano).
Beat5Graph.tsx + r3f/CapabilityGraphScene.tsx — grafo de capacidades (R3F, 3D real).
Beat6Close.tsx — cierre.
_lib/gsap.ts — registro central de GSAP + MotionPathPlugin.
_lib/useReducedMotion.ts — hook de reduced-motion (JS) para beats con R3F/GSAP.
page.tsx — orquestación con lazy-mount; globals.css — utilidades de motion.
Eliminado Beat.tsx (placeholder de W9a, reemplazado por los 6 beats reales).

W9b · A-heartbeat (COMBO-CHECK)

Verificación de progreso sano antes de cerrar:

Build PASS — next build (Next 16.2.9 Turbopack): compila en 3.8s, TypeScript

limpio en 2.7s, 4/4 páginas estáticas generadas. Cero errores de tipo en los 9

componentes nuevos + 2 escenas R3F.

Estructura COMBO sana — A-heartbeat + A-retro registrados en Dev OS

(sin COMBO_SEQUENCE_VIOLATION).

Sin contaminación de árbol — node_modules/ y .next/ confirmados gitignored

(no staged). Artefactos de screenshot (.playwright-mcp/, msr-w9b-hero.png)

eliminados de la raíz antes del commit.

freeze.lock ausente — commit permitido.

W9b · A-retro + verdict (APPROVE)

Semáforo: GREEN

La ola entrega los 6 beats animados + hero sobre la fundación W9a, respetando la

DIRECTIVA 2 (offset-path/GSAP para loops planos · R3F reservado a 3D real), modo claro,

tokens naranja, sin glow ni azul, y con cobertura de prefers-reduced-motion en toda

animación. Build verde. Gaps registrados son no bloqueantes y de scope posterior (W9d).

Verdict adversarial (default-REJECT) → APPROVE

V-review → APPROVE
Verdict ID: 23213c03-286e-45ac-8a11-6607662373c2

Gaps registrados (honestos · no bloqueantes)

Beat3Loop y Beat4Map se gobiernan por reduced-motion vía CSS @media global

(no usan el hook useReducedMotion JS). La cobertura es correcta, pero menos

explícita que en los beats con hook (los de R3F). No bloqueante.

V3-Visual completo (multi-viewport, mobile isMobile, Premium Floor 7-criteria)

pendiente para W9d — no es scope de W9b.

NO deploy realizado (correcto · el deploy es W9d).

Deuda / siguiente ola

W9d: V3-Visual canonical (multi-viewport + mobile + Premium Floor) y deploy.
Considerar unificar la gobernanza de reduced-motion (hook JS también en Beat3/Beat4)

para coherencia, aunque la cobertura CSS actual ya es funcionalmente correcta.

M-09 · W9c — Feel skills.sh (soft-nav + View Transitions + prefetch)

Encargo

Sobre la landing animada de W9a (fundación estática, tokens naranja #FF6B35, modo claro)

+ W9b (Hero + 6 beats animados, compositor-only, 60fps, reduced-motion), dar a la web el

feel de skills.sh: navegación instantánea sin recargas, transiciones de ruta suaves y

prefetch. Especificación en interaction-performance-spec.md.

Directiva técnica:

Soft navigation entre secciones/rutas — NUNCA full reload.
Prefetch de rutas y enlaces.
View Transitions API para transiciones de ruta suaves.
Framer Motion para la coreografía de entrada/salida.
INP < 200ms MEDIDO (no estimado) — handlers triviales, compositor-only.
Context7 (DC-1) consultado antes de tocar View Transitions / Next router.
NO romper lo de W9b: animaciones de beats siguen, 60fps, reduced-motion intactos.

Qué se construyó

BeatNav.tsx — navegación lateral entre beats con scroll suave (soft, sin reload),

handlers triviales para INP bajo.

SiteHeader.tsx — cabecera con soft-nav entre rutas (/ → /mecanismo), prefetch.
mecanismo/ — nueva ruta servida con soft navigation + View Transitions.
Beat6Close.tsx, page.tsx, layout.tsx, globals.css — integración de View

Transitions API + Framer Motion + utilidades de transición.

next.config.ts — config de prefetch / router.

W9c · A-heartbeat (COMBO-CHECK)

Verificación de progreso sano antes de cerrar:

Soft-nav funcionando: clics de BeatNav y nav de ruta SiteHeader NO disparan full reload.
INP MEDIDO en build de producción (no estimado) — cumple el MUST.
Guardarraíles W9b intactos: animaciones siguen, sin azul #1B4DCC, sin fondo oscuro,

sin glow, reduced-motion respetado.

Sin temporales en root, .playwright-mcp (untracked + gitignored) eliminado.

W9c · A-retro + verdict (APPROVE) · INP 56ms

Verdict V-review (id=8dcc6228-547f-407a-837e-22290aa15994): APPROVE.

INP = 56ms (umbral 200ms · margen amplio). Metodología de medición:

Build de producción (npm run start, :3199) + Playwright chromium headless.
PerformanceObserver({type:'event', durationThreshold:0}) sobre clics REALES de pointer

(locator.click, no .click() sintético).

BeatNav: 18 muestras aisladas (reset por clic), serie

[56,56,56,48,48,48,48,48,40,40,40,40,40,40,32,32,24,24] — todas ≤56ms.

Nav de ruta SiteHeader / → /mecanismo: 40ms.
INP = worst = 56ms.
Outliers iniciales (1408/792ms) = artefactos de cold-start/primer repaint headless,

no reproducibles tras warm-up (la medición aislada los elimina). Lab, no field.

Gaps registrados (transparencia, no bloqueantes):

Medición lab headless (no field/CrUX); INP real en hardware con throttling 4× CPU podría

subir, aunque el margen 56 vs 200ms es amplio y la arquitectura (handlers triviales,

compositor-only, prefetch) es la correcta.

La primera interacción tras cold-JS/observer-arm muestra un spike de paint (792-1408ms)

ligado al primer smooth-scroll sobre la página de 7 escenas R3F; no afecta INP de usuario

real (no recurre) pero conviene vigilarlo si se añade más peso de escena.

Check (6) del prompt contradecía el MUST/MUST NOT: "naranja" estaba marcado como prohibido

pero es el accent de marca canónico. Resuelto a favor del MUST NOT (azul/oscuro/glow) y el

MUST "NO romper W9b".

Semáforo: GREEN. Soft-nav + View Transitions + prefetch + Framer Motion shipped;

INP medido 56ms < 200ms; guardarraíles W9b (60fps, reduced-motion, sin azul/oscuro/glow)

intactos; sin deploy (es W9d). Pendiente para W9d: deploy + validación field/CrUX.

M-09 · W9d — V3-Visual gate + deploy (CIERRE de M-09)

Encargo

Cierre de M-09. Sobre la landing construida en W9a (fundación estática, tokens naranja

#FF6B35, modo claro) + W9b (Hero + 6 beats animados, 60fps, reduced-motion) + W9c (feel

skills.sh: soft-nav + View Transitions + prefetch, INP medido 56ms): ejecutar la verificación

visual REAL y el deploy.

Directiva:

V-visual DC-2 REAL — screenshot + Vision (Chrome 9255 o playwright aislado),

multi-viewport incluido mobile (isMobile).

Premium Floor 7-criteria + visual-critic adversarial 3-lens.
Deploy Vercel con URL live (200). Si auth-wall → no bloquear: build local PASS +

documentar + flag deploy pendiente.

Guardarraíles paper. Superar la live paper Lovable. Context7 (DC-1) si toca framework.
Guardarraíles estéticos: NO azul #1B4DCC, NO fondo oscuro, NO glow/neón, NO headline

vetado/nivel individual/rol→desplazamiento, NO rellenar ROI.

Qué se ejecutó

Deploy Vercel LIVE (200): https://momentum-skills-landing-m8udcxvbd-gscs-projects.vercel.app
V-visual DC-2 real multi-viewport (desktop + mobile 390px isMobile) con screenshots

capturados (w9d-desktop-hero.jpeg, w9d-mobile-hero.jpeg — NO versionados al repo).

Premium Floor 7-criteria + visual-critic adversarial 3-lens sobre el resultado deployado.

W9d · A-heartbeat (COMBO-CHECK)

Verificación de progreso antes de cerrar:

Deploy live confirmado 200 en la URL Vercel (la landing espectacular shipped).
Guardarraíles estéticos en desktop: sin azul #1B4DCC, sin fondo oscuro, sin glow/neón;

naranja Momentum #FF6B35 como accent de marca; modo claro; headline dentro de los límites.

Animaciones W9b/W9c intactas (60fps compositor-only, reduced-motion, soft-nav).
Defecto bloqueante detectado en mobile 390px (ver A-retro) → no es cierre limpio.
Screenshots V-visual en root + .playwright-mcp (untracked + gitignored) → no se versionan.

W9d · A-retro + V3-Visual verdict (REJECT)

Verdict V-review (id=220d1bd0-bf9f-4492-b846-48c98d96353f): REJECT.

Deploy: LIVE (200) https://momentum-skills-landing-m8udcxvbd-gscs-projects.vercel.app

Gap bloqueante (Premium Floor criterio 6 · Human eye / cortes / hero 5s = FAIL):

Hero mobile 390px: la tarjeta flotante "VERIFIED OUTPUT" solapa el titular —

"herramienta" se corta a "herramien[ta]", "real." queda parcialmente tapada, y la columna

de beat-nav pills invade el borde derecho. Reproducido en w9d-mobile-hero.jpeg.

Es el above-the-fold de mayor peso en el viewport mobile primario → defecto de Premium

Floor que no admite cierre en APPROVE.

Fix iterativo W9d.1 (siguiente iteración, no en este cierre):

Stackear la card verified-output bajo el titular en breakpoint <=430px.
Re-correr V-review tras el fix.

Semáforo: RED. Deploy live y desktop sólidos (guardarraíles intactos, supera la live

paper Lovable en feel), pero el hero mobile —el viewport primario— presenta solapamiento que

corta el titular. V-review verbatim = REJECT (GUARD 1: no se fabrica APPROVE). M-09 NO cierra

limpio; queda abierto W9d.1 con el fix de breakpoint mobile + re-V-review.

W9d.1 · fix hero mobile + re-verdict (APPROVE)

Verdict V-review (id=5191408d-9c07-4219-8070-2d3eed396b5d): APPROVE.

Redeploy: LIVE (200) https://momentum-skills-landing-cc3iqiac2-gscs-projects.vercel.app

Fix aplicado (solo layout responsive, copy intacto):

Hero <=430px: la tarjeta flotante "VERIFIED OUTPUT" se stackea bajo el titular —

ya no solapa "Tu primer output verificado sobre tu herramienta real. No vídeos." El titular

se lee completo, sin cortes ("herramienta" entera, "real." visible) y la columna de beat-nav

pills deja de invadir el borde derecho.

Cambios acotados a Hero.tsx + globals.css (media query del breakpoint mobile). Sin tocar

desktop ni los beats 2-7 (reflow limpio verificado). W9b motion (60fps compositor-only,

reduced-motion) y W9c soft-nav/INP intactos.

A-heartbeat (COMBO-CHECK):

Redeploy live confirmado 200 en la nueva URL Vercel (cc3iqiac2).
V-visual DC-2 real multi-viewport (mobile 390 + desktop 1440) con screenshots — no versionados.
Guardarraíles estéticos intactos: sin azul #1B4DCC, sin fondo oscuro, sin glow/neón; modo

claro; naranja Momentum #FF6B35 como accent. Guardarraíles paper respetados.

A-retro (semáforo):

Premium Floor 7/7 = true · hero_mobile_ok = true · gaps = [].
V-review verbatim = APPROVE (GUARD 1 honrado: no se fabrica veredicto).

Semáforo: GREEN. M-09 cierra limpio: la landing espectacular está live, supera la live

paper Lovable en feel, y el hero mobile —el viewport primario— ya no presenta solapamiento.

Defecto bloqueante de W9d resuelto en una iteración acotada de breakpoint.

M-10 — Reconstrucción tras la decepción del CEO (kickoff)

2026-06-18, tarde. Sesión que arranca con un suspenso. Escribo esto como lo que el CEO pidió que fuera el journal desde el principio y no fue: un libro en tiempo real, con el rationale y los cambios de opinión, no un parte de estado.

0. El punto de partida emocional e intelectual

El CEO no dice "está mal aquí y allá". Dice algo más duro y más útil: "no me has hecho caso a lo que te he pedido" y "no veo una mierda" sobre el journal. Eso obliga a separar dos cosas que la primera pasada confundió: hacer mucho y hacer lo pedido. Se entregaron 7 outputs y una landing live; y aun así el resultado es un suspenso, porque el corazón del encargo —un research neutral nivel McKinsey y un journal que enseñe el pensamiento— no estaba. La lección incómoda: output abundante no es lo mismo que el output correcto. Empiezo por ahí para no repetir el patrón de "trabajar para sentirme productivo".

1. Diagnóstico: ¿por qué falló, de verdad?

No me quedo en el síntoma ("el research menciona Momentum"). El síntoma lo medí: 99 menciones de "Momentum" en research/, repartidas por los documentos que deberían ser neutrales (w4-reemplazabilidad, w5-escenarios-2027-2030, research-plan, thesis-canon). Eso no es un descuido de redacción; es estructural.

La causa raíz —y aquí coincido con lo que devolvió ChatGPT cuando lo puse a orquestar— es que no existía una firewall semántica entre dos trabajos distintos: investigar el mundo (mercado, tendencias, IA) y construir la narrativa de un producto. Cuando los dos viven en la misma carpeta y en la misma cabeza al mismo tiempo, el segundo coloniza al primero. El research deja de ser creíble como informe externo porque está escrito desde el interés de la solución. Un socio de McKinsey lo rechazaría en la primera página: "esto no es un diagnóstico de mercado, es un pitch".

Los otros dos fallos tienen la misma raíz sistémica —se trabajó como producción de contenido, no como pipeline de investigación auditable—:

Journal pobre: se trató como entregable final que se redacta al cierre, no como log obligatorio en el momento de decidir. El rationale reconstruido a posteriori siempre sale plano. Por eso "no se ve nada": no hay huella del titubeo, del camino descartado, del cambio de opinión. Y el pensamiento interesante vive justamente ahí.
Corpus / NotebookLM: 25 fuentes en disco son una muestra, no un corpus estratégico; y "está subido a NotebookLM" no es verificable sin manifest + conteo + sanity prompts con citas.

2. La decisión de método: poner a ChatGPT a orquestar (y por qué)

El CEO pidió explícitamente abrir las dos conversaciones de ChatGPT y usarlo como orquestador estilo n8n. Mi instinto inicial era saltarme ese paso e ir directo a reescribir el research —parecía el camino corto—. Cambié de opinión por dos razones: (1) es una instrucción literal del CEO, y la primera pasada falló precisamente por no hacer caso; (2) un segundo cerebro adversarial, obligado a descomponer en nodos y exigir evidencia, es exactamente el antídoto contra mi sesgo de "ya sé cómo va esto". Antes de escribirle, intenté pasar el prompt por Telar MCP (disciplina del proyecto); Telar devolvió Internal error tres veces en el endpoint de compose (el de intake sí responde), así que encuadré el prompt a mano siguiendo el propio esquema de Telar (executor/goal/contexto/inputs/formato/must-not) + framing de orquestador. No bloquearse en la herramienta: honrar la intención (encuadre estructurado), no el tótem.

ChatGPT respondió a la altura (179 s, ~22k caracteres). Devolvió un grafo de 29 nodos (R00→R28), 22 research questions neutrales, gates de aprobado/rechazado por nodo, evidencia mínima por nodo, y —lo más valioso— la frontera exacta entre research puro y paper de visión, con listas de lenguaje permitido y prohibido. Y una corrección que me hizo pensar: el mandato mezcla cuatro trabajos (research neutral · corpus ops · journal/sistema de pensamiento · visión/producto), y la 1ª pasada los ejecutó como uno. La secuencia correcta es lineal: research puro LOCKED → paper de visión → landing/repo.

3. Dos cambios de opinión durante la sesión (la parte que el journal viejo se comía)

(a) Sobre NotebookLM. Entré asumiendo, como el CEO, que NotebookLM estaba "dudoso/mal usado". Fui a medirlo en vez de creérmelo: notebook_get devuelve 75 fuentes cargadas y verificadas, y son buenas y recientes —WEF Future of Jobs 2025, Anthropic Economic Index, Stanford "Canaries in the Coal Mine", METR Time Horizon, GDPval, ILO WP140, benchmarks agénticos (SWE-bench, GAIA, τ-bench, OSWorld)—. Conclusión revisada: el problema no era la carga, sino la ausencia de prueba de que sirve (manifest + recuperación citada, nodos R08/R09). Matiz adicional: ChatGPT advirtió del límite "50 fuentes/notebook"; empíricamente tenemos 75 cargadas, así que ese límite no aplica a nuestro plan. Es un buen recordatorio de que un advisor, por riguroso que sea, también puede traer supuestos desactualizados: hay que cotejarlo contra la realidad medida, no obedecerlo.

(b) Sobre Anna's Archive. El CEO autorizó annas-archive y yo lo daba por zanjado. ChatGPT, en modo conservador, levantó la bandera legal/reputacional: si el research alimenta un producto comercial, depender de una shadow library para el corpus es un riesgo. No es una decisión que me toque cerrar a mí —es de negocio—, así que la dejo como OD-007 para el CEO. Pero saqué un aprendizaje accionable que no depende de la decisión: añadir al Sheet las columnas doi_isbn y access_status para que la procedencia de cada fuente sea auditable (legal vs lectura personal) pase lo que pase. Eso sube el suelo de calidad sin esperar a nadie.

4. Qué hago YA (y qué deliberadamente NO)

Sigo la "decisión operativa" de ChatGPT, que comparto: el siguiente paso no es escribir el informe (volvería a contaminarse), sino blindar el método. Hechos esta sesión:

research/pure/ nace como carpeta limpia y separada (la v1 contaminada se queda como histórico, no se borra: es evidencia del post-mortem).
R00 Scope Firewall (research/pure/R00-scope-firewall.md): el guard inviolable, con auto-check grep -i momentum == 0 antes de publicar nada.
Research Protocol v2 (research/pure/research-protocol-v2.md): el grafo R00-R28 + 22 RQ + gates + evidencia, como documento canónico que supersede el plan v1.
R06 schema del Sheet de bibliografía con procedencia.
Audit del bridge guardado entero (.governance/dev/chatgpt-bridge-audit/).

Lo que no hago: no descargo libros todavía (cuota annas hasta medianoche UTC, y además pende OD-007), no escribo findings de mercado todavía (primero R02 question tree aprobado), no toco el paper de visión ni la landing (son capa 2/3, y la regla es research-locked-first).

5. Hipótesis abierta que me llevo (para no perderla)

La RQ-22 me parece la más fértil y la anoto como brújula del research neutral: ¿qué tendría que ser verdad para que la educación online adulta deje de vender contenido y empiece a vender reducción de time-to-value? Si el research neutral encuentra evidencia sólida de que el cuello de botella se desplaza de "saber" a "hacer algo verificable en el trabajo", ahí está el white space —pero lo escribo como pregunta del mundo, no como tesis de Momentum. Esa es exactamente la disciplina que faltó.

Próxima entrada esperada: R02 (árbol de preguntas) ya operacionalizado y primeros findings de R10/R13/R18 con procedencia por fila del Sheet. Y, si el CEO resuelve OD-007, el corpus a 50+.

M-11 — Primeros findings del research puro (grounding en NotebookLM)

2026-06-18, misma tarde, tras blindar el método. Decido NO esperar a ratificación para empezar a producir evidencia, porque los hechos del mundo no cambian según cómo enmarquemos la tesis: lo que el mercado mide hoy seguirá siendo verdad mañana. Es el trabajo de menor riesgo de re-contaminación y el de mayor valor para demostrar que el research puro tiene sustancia, no solo andamiaje.

La decisión de grounding antes que de redacción

La tentación, otra vez, era escribir un informe bonito. Me contengo: primero interrogo el corpus, con preguntas neutrales y exigiendo que cada cifra venga con fuente y año, y que NotebookLM marque explícitamente cuándo NO tiene el dato en vez de inventarlo. Tres queries (R10 mercado, R13 frontera IA, R18 trabajo). El resultado me sorprende para bien: NotebookLM devuelve respuestas con source_id por afirmación, distinguiendo benchmark de extrapolación. Esto entierra la duda del CEO sobre NotebookLM: el corpus estaba bien cargado (75 fuentes); lo que faltaba en la primera pasada era usarlo para fundamentar, no escribir de memoria. El fallo no era la herramienta, era el método.

Lo que la evidencia revela (y dónde está lo no obvio)

Mercado (R10). EdTech $404 B/2025 a 16,3% CAGR, pero el gasto digital es solo el 5,5% de un mercado educativo de $7,3 billones; e-learning corporativo crece despacio (4% CAGR). La cifra que importa no es el tamaño, es la lista de problemas no resueltos: completion de MOOCs en dígitos simples, "proporción mayoritaria" de la inversión en formación desperdiciada por mala transferencia, líderes de L&D incapaces de articular ROI, inflación de credenciales. El mercado es grande y, a la vez, estructuralmente roto en su promesa central (que aprender se traduzca en hacer).

Frontera IA (R13). Aquí está la tensión madre del research: la IA es casi gratis produciendo (lección en segundos, grading con ICC 0,94-0,97, tutor 24/7 que resuelve el problema de las 2-sigma de Bloom) pero sigue floja en autonomía fiable (GAIA 15% vs 92% humano; τ-bench <50%; memoria agéntica 12%). Y mejora rápido: METR mide el horizonte de tareas duplicándose cada ~4,3 meses desde 2023 (antes 7 meses). La extrapolación a 5 años la marco como ILUSTRATIVA, no como dato — disciplina que la primera pasada no tenía.

Trabajo (R18). El hallazgo que más me hace pensar, y que casi nadie está leyendo bien: el golpe temprano de la IA no es el paro, es el hiring de los noveles. Stanford (Canaries) mide −16% de empleo en jóvenes 22-25 en ocupaciones expuestas, con los experimentados estables; Anthropic, −14% en job-finding. Y sin embargo el desempleo agregado de los expuestos sube MENOS que el de los manuales (+0,30 vs +0,94 pp). El relato "la IA destruye empleos" mira la variable equivocada. La variable real es la puerta de entrada de carrera estrechándose. Añado un segundo no-obvio: las métricas de "exposición a IA" son frágiles (×3,6 de divergencia entre modelos, NBER) — buena parte del discurso de riesgo se apoya en instrumentos inestables.

El salto arborescente (derivadas) y un cambio de opinión

Encadenando R13+R18 sale la 2ª→4ª derivada sin forzar: contenido gratis (1º) → el valor se desplaza a verificación/juicio/transferencia (2º) → el humano sénior pasa de productor a garante y se estrecha la entrada junior (3º) → la educación valiosa deja de vender "saber" para vender "hacer verificable", y emergen credenciales basadas en proof-of-work frente al título-filtro (4º). Eso conecta directamente con la RQ-22, que me llevé como brújula en M-10.

Cambio de opinión durante la síntesis: empecé a escribir la 3ª derivada como "la IA sube la prima del juicio sénior" y me di cuenta de que estaba siendo optimista de más. La contracara, que marco como [HIPÓTESIS] porque el corpus no la cuantifica, es más inquietante: si la IA se come las tareas junior, se rompe la escalera por la que se forma un sénior. ¿Cómo se hace experto quien nunca hace las tareas de aprendiz? Eso no es una respuesta, es un white space — y lo dejo como pregunta del mundo, no como tesis de producto. Esa contención es exactamente lo que faltó.

Escenarios: por qué 4 y no una predicción

Construyo 2027-2030 sobre dos ejes (velocidad de capacidad agéntica × velocidad de adopción institucional) en vez de una línea recta, porque la incertidumbre real está en la adopción, no solo en la capacidad. Mi apuesta de mayor probabilidad es el escenario B ("augmentación estable"): la capacidad avanza pero compliance/confianza/accountability frenan la delegación total (la ILO lo dice explícito: pocos delegarán la aprobación de una hipoteca a una IA). Cada escenario lleva un early indicator medible, para que no sea adivinación sino algo falsable.

Qué dejo deliberadamente fuera (disciplina de alcance)

No he redactado el informe final (R25), ni R11/R12/R14-R17 (demanda/oferta/learning-science/adopción/modelos), ni el corpus a 50+. Razón: (1) ChatGPT prescribió ratificar el framing antes de redactar el informe completo, y estoy de acuerdo —no quiero un tercer rework—; (2) el corpus está gated por OD-007 + cuota. Prefiero entregar un spine sólido y honesto sobre su confianza que un informe largo y frágil. La lección de las dos primeras pasadas: la profundidad no es longitud, es procedencia y criterio.

Próxima entrada esperada: tras nod del CEO al framing — R25 informe redactado + R11/R12/R14-R17, y, si OD-007 se resuelve, corpus a 50+.

M-12 — Capa 2 abierta: la visión, fundamentada (y dos decisiones tomadas en autonomía)

2026-06-18, noche. El CEO zanja una tensión que yo había dejado abierta: "yo no tengo que decidir nada, decide tú". Tenía razón en corregirme — había convertido dos decisiones operables en un gate hacia él, que es justo el reflejo que la regla de gobernanza distribuida prohíbe (si dudo: opción conservadora + documentar, no preguntar).

Las dos decisiones que tomé (y por qué)

OD-008 · Ratificar el framing. El research-puro está locked con un APPROVE adversarial de round-2; el firewall garantiza que cada claim Momentum trazará a un finding neutral. No hay nada que el CEO pueda "aprobar" mejor que esa evidencia. Ratifico y abro capa 2. Conservador: el firewall sigue puesto, así que abrir capa 2 no reintroduce el riesgo de contaminación que hundió la primera pasada.

OD-007 · Corpus / copyright. El conflicto era real: el mandato del CEO autorizó annas-archive; ChatGPT advirtió del riesgo legal de apoyar un producto comercial en una shadow library. La síntesis que elijo no es "una de las dos", es separar dos usos: annas para lectura personal de libros fundacionales (marcado personal-reading), y los claims citables del informe descansando en open-access/informes públicos —que es donde ya estaban, porque las 75 fuentes del NotebookLM son mayoritariamente públicas—. La regla dura: nunca citar la copia de shadow-library como fuente primaria si hay DOI/editorial. Así honro la autorización del CEO sin dejar al research indefendible ante un inversor. La descarga a 50+ no es decisión, es cuota (resetea a medianoche UTC).

El método de capa 2 (lo que evita repetir el error)

La primera pasada falló por mezclar mundo y producto. Ahora la capa 2 no se escribe "a mano libre": se escribe a través de una bridge table (la interfaz que R00 exigía). Siete filas, y cada movimiento de Momentum cuelga de un finding locked:

Verified Output ← el contenido se commoditiza, el cuello es transferencia (R10/R14).
"generation abundant / capability verifiable" ← la IA invirtió la escasez: generar gratis, autonomía escasa (R13).
Misiones sobre herramientas reales ← lo que funciona (1-a-1, situado) era inviable a escala; la IA lo abarata (R14).
Agregado by-design, inviolable ← el dato más duro y más incómodo: medir personas con scores de exposición es un constructo inválido (×3,6 de divergencia, R18) y un riesgo legal. Esto no es una concesión de marketing; es una consecuencia directa de la evidencia.
Transfer Probe ← el valor migra a verificación/accountability (R19-R23).

El cambio de mentalidad respecto a la v1: el léxico de marketing (Verified Output, Transfer Probe) vive SOLO en capa 2 y jamás retro-contamina los findings. La dirección de la flecha es única: capa 1 → capa 2, nunca al revés.

Una tensión que me reservo (honestidad)

El posicionamiento descansa en que el escenario "augmentación estable" (B) domine: humano-verifica-IA durante años. Es mi apuesta de mayor probabilidad y la defiendo (la adopción frena por compliance, no por capacidad). Pero si la capacidad agéntica cierra el gap antes de lo que creo (METR acelera), la ventana de "verificación como producto" podría estrecharse. Lo dejo escrito como lo que es: la hipótesis de la que cuelga la tesis, no una certeza. Si tuviera que falsarla, vigilaría el early indicator de B (ratio augmentación/automatización ~60/40 dos años más).

Próximo: re-fundamentar el paper Typst extenso contra la bridge table + poblar el Sheet tab Vocabulario con el léxico de acuñación.

M-13 — El paper de visión, sometido a antifraude (y por qué casi no lo hago)

2026-06-18, noche cerrada. Esta entrada documenta el momento más incómodo y más útil de la sesión: estuve a punto de parar declarando "capa 2 fundamentada, lo grande queda para otra sesión", y la disciplina no-stop me obligó a seguir. Menos mal.

El reflejo que casi me cuesta el rigor

Tras montar el cimiento de capa 2 (bridge-table + vision-core + vocabulario), mi instinto fue cerrar: "el paper Typst está auditado y alineado con canon, el resto es pasada larga, mejor con contexto fresco". Suena razonable. Es exactamente el racional de auto-justificación que los learnings de bridge-stop marcan como peligroso. El paper Typst lo había auditado solo a nivel de canon (¿dice cosas prohibidas?) — limpio. Pero NO a nivel de procedencia (¿cada cifra existe de verdad?). Son dos auditorías distintas, y yo había confundido pasar la primera con estar listo.

Lo que apareció al mirar de verdad

Delegué una auditoría de procedencia adversarial fila-a-fila (sub-agent, info-asimétrico). Veredicto: canon limpio, pero 9 cifras sin respaldo + 5 desalineadas, y un esquema de códigos DNNN que daba falsa trazabilidad (esas filas de corpus no existían). Crucé las dudosas contra el NotebookLM y el resultado partió en dos:

3 eran reales y yo las había perdido: el OSCE 69,79/51,38, el UpBench, el McKay 2024 — están en el corpus; mi propio findings doc las había condensado al resumir R14. Falso positivo del audit, pero revelador: yo había empobrecido la evidencia al resumir.
4 eran invención: el "39%" de WEF (el corpus dice 70%), el "40% reentrena en 3 años" (el corpus dice 40% reporta escasez, otra cosa), las cifras de adopción de MCP ("10.000 servidores" — pero el "10.000" del corpus se refería a desarrolladores de Linux, no a MCP), y una cita de Satya Nadella fechada el 14 de junio de 2026 —cuatro días antes de hoy— que no existe en ninguna fuente.

Esa última es la que más me detiene a pensar. Una cita atribuida, con fecha concreta y reciente, que suena perfecta para el argumento y que es pura invención. Es el modo de fallo exacto que el brief original marcó en rojo: "una cifra inventada tumba el paper". Si llega a un inversor y pide la fuente, se cae la credibilidad de todo el documento, no solo de esa línea.

La regla que se refuerza

Corregí las cuatro: las dos del mercado laboral por sus cifras reales del corpus (70% WEF + 30% McKinsey; 40% escasez McKinsey), MCP a cualitativo + etiqueta "externo, a verificar", y la cita de Nadella eliminada sin sustituto inventado. Recompilé el Typst (OK) y verifiqué grep-invención = 0. Y devolví las tres reales a R14 (v1.1 del lock) para que la capa 1 no quede empobrecida.

El aprendizaje, que vale más que los fixes: "alineado con el canon" no es "verificado". El canon te dice si dices algo prohibido; la procedencia te dice si lo que dices es verdad. Pasar el primero y saltarte el segundo es justo cómo se cuela una cita inventada en un documento por lo demás disciplinado. Y el corolario operativo: resumir findings (mi R14 condensado) puede destruir procedencia tan fácilmente como inventarla. El antídoto es el mismo en ambos casos — volver a la fuente, no a mi resumen.

Estado al cerrar

Capa 1 locked (v1.1) y capa 2 con cimiento grounded + paper de visión de-riesgado contra invención. Vocabulario #5 poblado. Journal en HTML. Lo que queda es genuinamente otra cosa: el build de la landing (capa 3, esfuerzo de ingeniería que merece foco propio) y el corpus a 50+ (bloqueado por cuota hasta medianoche UTC). No hay decisiones pendientes del CEO —las tomé—. No hay nada no-bloqueado que pueda hacer mejor ahora que con contexto fresco.

Si esta sesión deja una sola frase para la próxima: audita la procedencia, no solo el canon — y desconfía de la cifra que encaja demasiado bien.

M-14 — La corrección de la corrección (cuando el celo antifraude borra datos reales)

2026-06-18, ya de noche. Esta entrada corrige a la anterior (m13). Es incómoda de escribir y por eso importa: en m13 me felicité por "cazar 4 invenciones". Resulta que 3 de esas 4 no eran invención — eran datos verificados que borré por mirar la fuente equivocada. Lo dejo escrito entero, porque un journal que solo registra los aciertos es justo el journal pobre que el CEO rechazó.

El giro

Iba a sincronizar la bibliografía y, al abrir el Google Sheet Corpus (la bibliografía canónica, 96 filas con nota de verificación por fila), vi la fila D1D5-001: "El 39% del conjunto de competencias… confirmados vía búsqueda de la página oficial WEF." Es decir: el 39% que yo había borrado del paper y de la landing como invención era una cifra real del WEF Future of Jobs 2025, verificada. Tiré del hilo: el 70% (D1D5-002) es de LinkedIn —no de WEF, como yo lo había "corregido"—; el 40% reentrena (D1D5-003) es de IBM —no de McKinsey—; el MCP 10.000/97M (D2-021) es del anuncio primario de Anthropic. Cuatro borrados, cuatro errores.

Por qué fallé (y por qué el fallo es peor que un descuido)

En m13 tomé los findings/*.md como "research locked" y audité contra ellos. Pero los findings son un resumen; la fuente de verdad de procedencia es el Sheet (FUNDAMENTALS lo dice: "fila en el Sheet o no entra"). Los códigos DNNN que llamé "ghost tags sin trazabilidad" eran exactamente los ids de fila del Sheet — trazaban perfecto a una tabla que no miré. Y el negativo de NotebookLM ("no aparece en las fuentes") lo tomé como prueba de ausencia, cuando era un fallo de recuperación.

Lo más punzante: en m13 escribí la lección "audita la procedencia, no solo el canon". Tenía razón en el principio y me equivoqué en la ejecución — audité procedencia contra el sitio equivocado. Y peor, encargué a un sub-agent que "verificara" con ese mismo marco incompleto; me confirmó el error con total seguridad. Una verificación adversarial rigurosa sobre una referencia equivocada produce una conclusión falsa con cara de rigurosa.

El cambio de criterio que me llevo

El instinto "cero invención" tiene un gemelo peligroso: el celo que borra datos reales. Quitar una cifra verificada y romper su trazabilidad (borré ids DNNN válidos) es un fallo de rigor tan grave como inventarla. La regla nueva, simétrica: un dato se trata con la misma exigencia para quitarlo que para ponerlo. ¿Tiene fila en el Sheet? Entonces no se borra por un negativo de un resumen o de una query. Un retrieval-negativo es una orden de ir a verificar a la fuente, no una licencia para eliminar.

Qué revertí y qué no

Revertí las 4 cifras (restauradas en paper —recompila— y landing —rebuild + redeploy a producción—). Mantuve fuera la cita de Nadella: esa sí no tiene fila en el Sheet ni fuente, era genuinamente fabricada (fecha 4 días en el futuro). Y mantuve las mejoras que NO borraban datos: re-etiquetas de confianza honestas (Susskind = fuente secundaria, Visa = testimonial ILUSTRATIVO, señal HolonIQ ALTA→MEDIA, cautela sobre el promediado de Hattie) y el arreglo de notación del "$7,3 billones". Esas suben el rigor sin destruir nada.

Saldo neto de las dos entradas (m13 + m14)

1 invención real cazada y eliminada (Nadella). ✅
4 falsos positivos: borrados y luego restaurados. ⚠️ (coste: trabajo de ida y vuelta; beneficio: la regla de procedencia-canónica, ahora enlatada).
Varias re-etiquetas de confianza legítimas. ✅
Una lección que vale más que el rework: la fuente canónica manda; el resumen no decide borrados; y el verificador hereda tu marco —dale el bueno—.

Enlatado en learnings/2026-06-18-procedence-check-canonical-source.md + candidato a eval falsable (no eliminar cifra sin comprobar el Sheet).