M-11 — Primeros findings del research puro (grounding en NotebookLM)

2026-06-18, misma tarde, tras blindar el método. Decido NO esperar a ratificación para empezar a producir evidencia, porque los hechos del mundo no cambian según cómo enmarquemos la tesis: lo que el mercado mide hoy seguirá siendo verdad mañana. Es el trabajo de menor riesgo de re-contaminación y el de mayor valor para demostrar que el research puro tiene sustancia, no solo andamiaje.

La decisión de grounding antes que de redacción

La tentación, otra vez, era escribir un informe bonito. Me contengo: primero interrogo el corpus, con preguntas neutrales y exigiendo que cada cifra venga con fuente y año, y que NotebookLM marque explícitamente cuándo NO tiene el dato en vez de inventarlo. Tres queries (R10 mercado, R13 frontera IA, R18 trabajo). El resultado me sorprende para bien: NotebookLM devuelve respuestas con source_id por afirmación, distinguiendo benchmark de extrapolación. Esto entierra la duda del CEO sobre NotebookLM: el corpus estaba bien cargado (75 fuentes); lo que faltaba en la primera pasada era usarlo para fundamentar, no escribir de memoria. El fallo no era la herramienta, era el método.

Lo que la evidencia revela (y dónde está lo no obvio)

Mercado (R10). EdTech $404 B/2025 a 16,3% CAGR, pero el gasto digital es solo el 5,5% de un mercado educativo de $7,3 billones; e-learning corporativo crece despacio (4% CAGR). La cifra que importa no es el tamaño, es la lista de problemas no resueltos: completion de MOOCs en dígitos simples, “proporción mayoritaria” de la inversión en formación desperdiciada por mala transferencia, líderes de L&D incapaces de articular ROI, inflación de credenciales. El mercado es grande y, a la vez, estructuralmente roto en su promesa central (que aprender se traduzca en hacer).

Frontera IA (R13). Aquí está la tensión madre del research: la IA es casi gratis produciendo (lección en segundos, grading con ICC 0,94-0,97, tutor 24/7 que resuelve el problema de las 2-sigma de Bloom) pero sigue floja en autonomía fiable (GAIA 15% vs 92% humano; τ-bench <50%; memoria agéntica 12%). Y mejora rápido: METR mide el horizonte de tareas duplicándose cada ~4,3 meses desde 2023 (antes 7 meses). La extrapolación a 5 años la marco como ILUSTRATIVA, no como dato — disciplina que la primera pasada no tenía.

Trabajo (R18). El hallazgo que más me hace pensar, y que casi nadie está leyendo bien: el golpe temprano de la IA no es el paro, es el hiring de los noveles. Stanford (Canaries) mide −16% de empleo en jóvenes 22-25 en ocupaciones expuestas, con los experimentados estables; Anthropic, −14% en job-finding. Y sin embargo el desempleo agregado de los expuestos sube MENOS que el de los manuales (+0,30 vs +0,94 pp). El relato “la IA destruye empleos” mira la variable equivocada. La variable real es la puerta de entrada de carrera estrechándose. Añado un segundo no-obvio: las métricas de “exposición a IA” son frágiles (×3,6 de divergencia entre modelos, NBER) — buena parte del discurso de riesgo se apoya en instrumentos inestables.

El salto arborescente (derivadas) y un cambio de opinión

Encadenando R13+R18 sale la 2ª→4ª derivada sin forzar: contenido gratis (1º) → el valor se desplaza a verificación/juicio/transferencia (2º) → el humano sénior pasa de productor a garante y se estrecha la entrada junior (3º) → la educación valiosa deja de vender “saber” para vender “hacer verificable”, y emergen credenciales basadas en proof-of-work frente al título-filtro (4º). Eso conecta directamente con la RQ-22, que me llevé como brújula en M-10.

Cambio de opinión durante la síntesis: empecé a escribir la 3ª derivada como “la IA sube la prima del juicio sénior” y me di cuenta de que estaba siendo optimista de más. La contracara, que marco como [HIPÓTESIS] porque el corpus no la cuantifica, es más inquietante: si la IA se come las tareas junior, se rompe la escalera por la que se forma un sénior. ¿Cómo se hace experto quien nunca hace las tareas de aprendiz? Eso no es una respuesta, es un white space — y lo dejo como pregunta del mundo, no como tesis de producto. Esa contención es exactamente lo que faltó.

Escenarios: por qué 4 y no una predicción

Construyo 2027-2030 sobre dos ejes (velocidad de capacidad agéntica × velocidad de adopción institucional) en vez de una línea recta, porque la incertidumbre real está en la adopción, no solo en la capacidad. Mi apuesta de mayor probabilidad es el escenario B (“augmentación estable”): la capacidad avanza pero compliance/confianza/accountability frenan la delegación total (la ILO lo dice explícito: pocos delegarán la aprobación de una hipoteca a una IA). Cada escenario lleva un early indicator medible, para que no sea adivinación sino algo falsable.

Qué dejo deliberadamente fuera (disciplina de alcance)

No he redactado el informe final (R25), ni R11/R12/R14-R17 (demanda/oferta/learning-science/adopción/modelos), ni el corpus a 50+. Razón: (1) ChatGPT prescribió ratificar el framing antes de redactar el informe completo, y estoy de acuerdo —no quiero un tercer rework—; (2) el corpus está gated por OD-007 + cuota. Prefiero entregar un spine sólido y honesto sobre su confianza que un informe largo y frágil. La lección de las dos primeras pasadas: la profundidad no es longitud, es procedencia y criterio.

Próxima entrada esperada: tras nod del CEO al framing — R25 informe redactado + R11/R12/R14-R17, y, si OD-007 se resuelve, corpus a 50+.