M-10 — Reconstrucción tras la decepción del CEO (kickoff)

2026-06-18, tarde. Sesión que arranca con un suspenso. Escribo esto como lo que el CEO pidió que fuera el journal desde el principio y no fue: un libro en tiempo real, con el rationale y los cambios de opinión, no un parte de estado.

0. El punto de partida emocional e intelectual

El CEO no dice “está mal aquí y allá”. Dice algo más duro y más útil: “no me has hecho caso a lo que te he pedido” y “no veo una mierda” sobre el journal. Eso obliga a separar dos cosas que la primera pasada confundió: hacer mucho y hacer lo pedido. Se entregaron 7 outputs y una landing live; y aun así el resultado es un suspenso, porque el corazón del encargo —un research neutral nivel McKinsey y un journal que enseñe el pensamiento— no estaba. La lección incómoda: output abundante no es lo mismo que el output correcto. Empiezo por ahí para no repetir el patrón de “trabajar para sentirme productivo”.

1. Diagnóstico: ¿por qué falló, de verdad?

No me quedo en el síntoma (“el research menciona Momentum”). El síntoma lo medí: 99 menciones de “Momentum” en research/, repartidas por los documentos que deberían ser neutrales (w4-reemplazabilidad, w5-escenarios-2027-2030, research-plan, thesis-canon). Eso no es un descuido de redacción; es estructural.

La causa raíz —y aquí coincido con lo que devolvió ChatGPT cuando lo puse a orquestar— es que no existía una firewall semántica entre dos trabajos distintos: investigar el mundo (mercado, tendencias, IA) y construir la narrativa de un producto. Cuando los dos viven en la misma carpeta y en la misma cabeza al mismo tiempo, el segundo coloniza al primero. El research deja de ser creíble como informe externo porque está escrito desde el interés de la solución. Un socio de McKinsey lo rechazaría en la primera página: “esto no es un diagnóstico de mercado, es un pitch”.

Los otros dos fallos tienen la misma raíz sistémica —se trabajó como producción de contenido, no como pipeline de investigación auditable—:

Journal pobre: se trató como entregable final que se redacta al cierre, no como log obligatorio en el momento de decidir. El rationale reconstruido a posteriori siempre sale plano. Por eso “no se ve nada”: no hay huella del titubeo, del camino descartado, del cambio de opinión. Y el pensamiento interesante vive justamente ahí.
Corpus / NotebookLM: 25 fuentes en disco son una muestra, no un corpus estratégico; y “está subido a NotebookLM” no es verificable sin manifest + conteo + sanity prompts con citas.

2. La decisión de método: poner a ChatGPT a orquestar (y por qué)

El CEO pidió explícitamente abrir las dos conversaciones de ChatGPT y usarlo como orquestador estilo n8n. Mi instinto inicial era saltarme ese paso e ir directo a reescribir el research —parecía el camino corto—. Cambié de opinión por dos razones: (1) es una instrucción literal del CEO, y la primera pasada falló precisamente por no hacer caso; (2) un segundo cerebro adversarial, obligado a descomponer en nodos y exigir evidencia, es exactamente el antídoto contra mi sesgo de “ya sé cómo va esto”. Antes de escribirle, intenté pasar el prompt por Telar MCP (disciplina del proyecto); Telar devolvió Internal error tres veces en el endpoint de compose (el de intake sí responde), así que encuadré el prompt a mano siguiendo el propio esquema de Telar (executor/goal/contexto/inputs/formato/must-not) + framing de orquestador. No bloquearse en la herramienta: honrar la intención (encuadre estructurado), no el tótem.

ChatGPT respondió a la altura (179 s, ~22k caracteres). Devolvió un grafo de 29 nodos (R00→R28), 22 research questions neutrales, gates de aprobado/rechazado por nodo, evidencia mínima por nodo, y —lo más valioso— la frontera exacta entre research puro y paper de visión, con listas de lenguaje permitido y prohibido. Y una corrección que me hizo pensar: el mandato mezcla cuatro trabajos (research neutral · corpus ops · journal/sistema de pensamiento · visión/producto), y la 1ª pasada los ejecutó como uno. La secuencia correcta es lineal: research puro LOCKED → paper de visión → landing/repo.

3. Dos cambios de opinión durante la sesión (la parte que el journal viejo se comía)

(a) Sobre NotebookLM. Entré asumiendo, como el CEO, que NotebookLM estaba “dudoso/mal usado”. Fui a medirlo en vez de creérmelo: notebook_get devuelve 75 fuentes cargadas y verificadas, y son buenas y recientes —WEF Future of Jobs 2025, Anthropic Economic Index, Stanford “Canaries in the Coal Mine”, METR Time Horizon, GDPval, ILO WP140, benchmarks agénticos (SWE-bench, GAIA, τ-bench, OSWorld)—. Conclusión revisada: el problema no era la carga, sino la ausencia de prueba de que sirve (manifest + recuperación citada, nodos R08/R09). Matiz adicional: ChatGPT advirtió del límite “50 fuentes/notebook”; empíricamente tenemos 75 cargadas, así que ese límite no aplica a nuestro plan. Es un buen recordatorio de que un advisor, por riguroso que sea, también puede traer supuestos desactualizados: hay que cotejarlo contra la realidad medida, no obedecerlo.

(b) Sobre Anna’s Archive. El CEO autorizó annas-archive y yo lo daba por zanjado. ChatGPT, en modo conservador, levantó la bandera legal/reputacional: si el research alimenta un producto comercial, depender de una shadow library para el corpus es un riesgo. No es una decisión que me toque cerrar a mí —es de negocio—, así que la dejo como OD-007 para el CEO. Pero saqué un aprendizaje accionable que no depende de la decisión: añadir al Sheet las columnas doi_isbn y access_status para que la procedencia de cada fuente sea auditable (legal vs lectura personal) pase lo que pase. Eso sube el suelo de calidad sin esperar a nadie.

4. Qué hago YA (y qué deliberadamente NO)

Sigo la “decisión operativa” de ChatGPT, que comparto: el siguiente paso no es escribir el informe (volvería a contaminarse), sino blindar el método. Hechos esta sesión:

research/pure/ nace como carpeta limpia y separada (la v1 contaminada se queda como histórico, no se borra: es evidencia del post-mortem).
R00 Scope Firewall (research/pure/R00-scope-firewall.md): el guard inviolable, con auto-check grep -i momentum == 0 antes de publicar nada.
Research Protocol v2 (research/pure/research-protocol-v2.md): el grafo R00-R28 + 22 RQ + gates + evidencia, como documento canónico que supersede el plan v1.
R06 schema del Sheet de bibliografía con procedencia.
Audit del bridge guardado entero (.governance/dev/chatgpt-bridge-audit/).

Lo que no hago: no descargo libros todavía (cuota annas hasta medianoche UTC, y además pende OD-007), no escribo findings de mercado todavía (primero R02 question tree aprobado), no toco el paper de visión ni la landing (son capa 2/3, y la regla es research-locked-first).

5. Hipótesis abierta que me llevo (para no perderla)

La RQ-22 me parece la más fértil y la anoto como brújula del research neutral: ¿qué tendría que ser verdad para que la educación online adulta deje de vender contenido y empiece a vender reducción de time-to-value? Si el research neutral encuentra evidencia sólida de que el cuello de botella se desplaza de “saber” a “hacer algo verificable en el trabajo”, ahí está el white space —pero lo escribo como pregunta del mundo, no como tesis de Momentum. Esa es exactamente la disciplina que faltó.

Próxima entrada esperada: R02 (árbol de preguntas) ya operacionalizado y primeros findings de R10/R13/R18 con procedencia por fila del Sheet. Y, si el CEO resuelve OD-007, el corpus a 50+.