Journal M-02 · W6

W6 (M-02) · Pedagogía — DEMONSTRATES-not-PASSES y validez de evaluación por outputs

Barrido: Pedagogía & ciencia del aprendizaje. 18 fuentes verificadas (2024-2026 prioritarias), todas con DOI/URL resoluble. Etiquetado: 11 MEDIDO (con tamaño de efecto), 7 N-A (revisiones/scoping cualitativas sin estimador agregado). Cero ILUSTRATIVO: lo que no traía cifra y era cualitativo se reclasificó a N-A, no a “ilustrativo decorativo”.

Tesis del barrido

W6 no es el eslabón de mercado (eso es W1: el colapso del lead-time formativo como hecho macro). W6 es el eslabón de método y de medición: ¿con qué pedagogía se comprime la curva tiempo→competencia, y con qué evaluación se demuestra esa competencia de forma defendible cuando la IA trivializa el examen de recuerdo? Dos acuñaciones candidatas vertebran el hallazgo: DEMONSTRATES-not-PASSES (la unidad de valor es demostrar la tarea real, no aprobar un test) y Weighted Verified Outputs (selección/competencia por productos verificados y ponderados por rúbrica).

Hallazgos clave por eslabón de la columna vertebral

1. Categoría — qué cuenta como aprendizaje efectivo en adultos. El aprendizaje activo (PBL/PjBL/CBL) mueve la magnitud, no solo el signo. Wijnia 2024 (D6-003): motivación d=0,498 sobre 132 estudios. Orhan 2024 (D6-004): adquisición g=1,067 (efecto grande) en EFL. La pregunta de “qué es aprender bien” tiene respuesta cuantitativa: hacer, no escuchar.

2. Colapso del lead-time (vertiente método). Learning-by-doing comprime la curva de competencia de forma medible. Kanoksin 2025 (D6-002): RCT n=48, OSCE 69,79 (práctica deliberada) vs 51,38 (clase magistral), p≈2e-6 — +18 puntos. Tong 2024 (D6-006): RCT multicéntrico de simulación en enfermería (5 universidades, 239 completados), ventaja significativa de manos+combinado sobre solo-ordenador, pero atenuada a 3 meses — matiz que NO se puede ocultar: la aceleración necesita refuerzo/transferencia para durar. Esto enlaza con el eslabón siguiente.

3. Brecha learning-vs-transfer (el eslabón más afilado). Aquí está la munición más fuerte del paper, y es contraintuitiva. McKay 2024 (D6-001): el reskilling de adultos aprende mucho (learning g=0,73) pero cambia poco la conducta on-the-job (transferencia conductual g=0,34, no significativa); y el efecto inmediato (g=0,86) se desploma en evaluaciones diferidas (g=0,40). Traducción de negocio: formar ≠ re-empleabilidad real. El producto Momentum no puede venderse como “formación”; debe venderse como capacidad demostrada y transferida. Mehner 2024 (D6-017, estudio mixto 541+51) y Razak 2024 (D6-018, review) confirman el mecanismo: el aprendizaje formal solo se convierte en desempeño cuando hay transferencia en contexto (apoyo de pares/mandos). Sin transferencia, el lead-time formación→competencia no colapsa, solo se desplaza.

4. Bifurcación AI/Human + DEMONSTRATES-not-PASSES. Cuando la IA vuelve trivial la respuesta de examen, la señal válida migra a la evaluación auténtica / por desempeño. Soporte cualitativo (N-A): Vlachopoulos 2024 (D6-007, SLR 21st-century skills), Zhan 2025 (D6-008, scoping), Hu 2025 (D6-009, SLR síntesis narrativa, 52 estudios), Nieminen 2024 (D6-010, agencia epistémica = franja humana no sustituible), Blockley 2025 (D6-011, caso directo de educación de adultos: degree apprenticeship en criminología/policing — el público nuclear de Momentum). Sostén institucional fuerte: Cheung 2024 (D6-012) — programa nacional de EPA/entrustment en formación médica de posgrado canadiense. El principio “demuestra, no apruebes” tiene respaldo de sistema, no solo de teoría.

5. Mapa de reemplazabilidad (vía transferencia y vía medición). Li 2024 (D6-005): la transferencia cercana/lejana decide si la habilidad se traslada a tareas nuevas (37 estudios, 7.832 aprendices, efecto moderado, mayor en lo cognitivo). Kim 2025 (D6-016, Journal of Management, N=75.033, ρ=0,13): la formación predice desempeño según se mida por output realizado y capital humano específico — modera por intensidad de conocimiento sectorial. La reemplazabilidad de una habilidad se lee mejor por su perfil de transferencia que por la nota que sacó en clase.

Viabilidad técnica de Weighted Verified Outputs (el sostén psicométrico)

La objeción obvia a “evaluar por outputs verificados” es “¿es fiable?”. Tres fuentes MEDIDAS la responden:

IA como evaluador fiable por rúbrica: Yavuz 2024 (D6-013, BJET): ICC ChatGPT afinado=0,972 vs humanos. Quah 2024 (D6-015, BMC Med Educ): GPT-4 vs 3 humanos, ICC 0,794-0,858 (acuerdo excelente). → La verificación por IA de productos basada en rúbrica es psicométricamente defendible y escalable.
Coste de verificación humana dimensionado: Lertsakulbunlue 2025 (D6-014, G-theory): para dependabilidad aceptable hacen falta 9 pares / 5 profesores (r inter-pares=0,73). → Sabemos cuánto cuesta verificar sin IA, lo que justifica el híbrido IA+humano.

Lectura estratégica: Weighted Verified Outputs no es aspiracional. Hay ICC≈0,8-0,97 IA-vs-humano y un dimensionamiento G-theory del coste humano. La métrica es construible hoy.

Qué refuerza y qué refuta

Refuerza la columna vertebral en dos puntos nuevos: (a) el método activo/simulación comprime el lead-time de forma medida (eslabón colapso); (b) la evaluación por desempeño verificado es técnicamente viable y con respaldo institucional nacional (eslabón bifurcación + mapa reemplazabilidad).
Refuta / matiza la lectura ingenua “formar = empleabilidad”: la brecha learning-vs-transfer (g=0,34 n.s.) y la atenuación a 3 meses obligan a posicionar Momentum como capacidad demostrada y transferida, no como catálogo de cursos. Este matiz es un activo, no un problema: es justo la cuña de diferenciación frente al e-learning tradicional.

Disciplina de evidencia aplicada

Re-etiquetados de la candidata: 6 fuentes pasaron de MEDIDO→N-A (D6-007/008/009/010/012) o ILUSTRATIVO→N-A (D6-011) por ser revisiones/scoping/casos cualitativos sin estimador agregado. Una pasó de MEDIDO→N-A adicional (D6-018, review sin cifra).
Correcciones de metadato: autoría ampliada/corregida en D6-001/002/003/007/008/009/010/011/018; título a literal en D6-014/015; año a 2025 en D6-016 (ahead-of-print, no 2026).
Cero invención: los 18 DOIs/URLs resuelven (algunos hosts devuelven 403/Cloudflare anti-bot; verificado por la vía secundaria — Semantic Scholar / página oficial — antes de admitir).

Nota operativa NotebookLM

18 fuentes enviadas al notebook. La mayoría con título académico limpio confirmando ingesta correcta. Cuatro (D6-010, D6-011, D6-016, D6-018) devolvieron interstitial/landing (Cloudflare “Just a moment…” / SAGE landing) en el momento de captura: el source quedó creado, pero conviene re-verificar su contenido en una pasada posterior por si el host bloqueó el render. No se invirtió pago: solo rutas gratuitas (DOI público / SAGE abstract abierto).

W6 · A-retro

Semáforo: VERDE. Verdict advisor APPROVE (Dev OS id 2976bb59-db3c-4336-a0c8-26f637045734, 2026-06-17T19:25:42Z). Gate=8 superado con holgura: 18 filas D6 (D6-001..D6-018), 100% con url_fuente real + año 2024-2025 + etiqueta de evidencia.

Wins

Cobertura sobrada del dominio Pedagogía: 18 fuentes vs gate de 8 (225%), todas verificables.
Etiquetado MEDIDO/N-A disciplinado y honesto: las síntesis narrativas/scoping reviews/estudios reflexivos se reclasificaron a N-A (D6-007, D6-008, D6-009, D6-010, D6-011, D6-012, D6-018) en vez de inflarlas como MEDIDO. Eso protege la credibilidad ante un VC.
Muestra adversarial limpia: las 3 filas al azar (D6-001, D6-009, D6-013) verificadas vía Semantic Scholar — título/autores/año/venue y naturaleza cuantitativa-vs-cualitativa coinciden con la etiqueta. Cero invención.
Grounding nítido en la columna vertebral: cada nota ancla a un eslabón (colapso del lead-time vía learning-by-doing / práctica deliberada; bifurcación AI-Human vía evaluación auténtica y “demonstrates-not-passes”; mapa de reemplazabilidad vía transferencia y agencia epistémica; fiabilidad de Weighted Verified Outputs vía ICC y G-theory).
Disciplina de scope: NO se derivó HII ni reemplazabilidad cuantitativa (eso es M-03/W4). D6 entra solo como evidencia pedagógica.

Debts

Verificación por vía secundaria, no primaria: los hosts de editorial (Wiley 402, SAGE landing, hrmars 403) bloquean WebFetch; la confirmación se apoyó en Semantic Scholar API. Es suficiente para APPROVE pero conviene una pasada de re-verificación de contenido directo cuando se pueda (navegador/sesión 9255).
4 sources NotebookLM con interstitial (D6-010, D6-011, D6-016, D6-018): el source quedó creado pero devolvió Cloudflare/landing en captura. Re-verificar ingesta real en pasada posterior.
D6-016 con paywall SAGE (journals.sagepub abstract): verificado vía SS, pero el PDF primario no es de acceso libre. Marcar para localizar versión abierta si se necesita el cuerpo.
Heterogeneidad de outlets pedagógicos (BMC Med Educ, revistas EFL/dental) — alta calidad metodológica individual, pero conviene en M-03 priorizar las meta-analíticas (D6-001, D6-003, D6-004, D6-005, D6-016) como espina dorsal cuantitativa y dejar las N-A como soporte cualitativo.

Estado

nb_uploaded=18 · journal=true · filas D6 escritas=18 · gate=8 · freeze.lock ausente. Sin git commit (consolidación posterior tras los 3 barridos).