AutoResearch de Karpathy: la IA que hace investigación científica sola (y lo que eso cambia)
El 6 de marzo de 2026, Andrej Karpathy publicó en GitHub un script de 630 líneas en Python. No era un modelo nuevo. No era un producto. Era una herramienta de investigación que dejó corriendo una noche y que encontró 20 mejoras en un sistema que él mismo creía ya optimizado.
En una semana tenía 30.000 estrellas. Uno de los repositorios de más rápido crecimiento en la historia de GitHub.
El proyecto se llama AutoResearch. Y merece más atención de la que ha recibido fuera de los círculos de ML.
Qué hace exactamente
La idea es directa: dale a un agente de IA un entorno de entrenamiento de modelos pequeño y deja que experimente solo.
El agente modifica el código de entrenamiento, lanza un experimento corto (5 minutos), evalúa si el resultado mejoró respecto a la versión anterior, guarda los cambios si mejora, los descarta si no, y vuelve a empezar. Mientras duermes, hace unas 100 iteraciones. A la mañana siguiente tienes un log de qué intentó, qué funcionó y por qué.
El control humano está en un archivo llamado program.md — un documento en Markdown donde defines los objetivos de la investigación, las restricciones, y las líneas que el agente no debe cruzar. Es, literalmente, la especificación de tu equipo de investigación.
Los resultados que Karpathy reportó
El benchmark que usó es el proyecto nanoGPT — un sistema de entrenamiento de GPT-2 que la comunidad lleva años optimizando. Karpathy creía que el espacio de mejora era pequeño. El agente encontró aproximadamente 20 cambios aditivos que redujeron el "Time to GPT-2" de 2,02 horas a 1,80 horas. Un 11% de mejora en algo que muchos expertos consideraban ya bien exprimido.
Hay un detalle importante: estas mejoras eran transferibles a modelos más grandes. No eran trucos específicos del benchmark. Eran optimizaciones reales.
Por qué un script de 630 líneas importa más que muchos productos de millones
Karpathy es conocido por su capacidad de destilar ideas complejas en implementaciones mínimas que funcionan. nanoGPT, minGPT, micrograd — la lista de repos suyos que se convirtieron en referencias educativas es larga.
AutoResearch sigue el mismo patrón: tomar una idea que en los laboratorios grandes requiere infraestructura enorme y demostrar que la versión esencial funciona en una sola GPU de consumo. MIT License, sin dependencias raras, legible en una tarde.
Esa accesibilidad no es un accidente. Es el punto.
Cuando la barrera de entrada para hacer investigación autónoma es un script de 630 líneas que corre en hardware de consumo, el tipo de persona que puede hacer investigación seria se amplía enormemente. No necesitas trabajar en un laboratorio con clusters de GPUs. Necesitas una buena pregunta y paciencia para dejar correr el agente.
Lo que esto implica más allá del ML
Aquí es donde me parece más interesante para alguien que no hace investigación de modelos.
El principio de AutoResearch — un agente que itera autónomamente sobre un espacio de posibilidades, evalúa resultados con criterio objetivo, y acumula mejoras incrementales — no es específico de ML. Es una forma de trabajar.
Imagina aplicar el mismo principio a otras áreas donde tienes un métrica clara de éxito y un espacio de variaciones posibles: optimizar el copy de una landing page probando variantes, ajustar parámetros de un sistema de automatización buscando el setup con menos errores, encontrar la configuración óptima de un prompt para una tarea concreta. El agente no necesita entender el dominio profundamente. Necesita poder ejecutar experimentos, medir resultados y guardar lo que funciona.
Eso es más general de lo que parece.
El detalle de program.md
El elemento que más me llama la atención del diseño de AutoResearch no es el bucle de experimentación. Es el program.md.
Que el punto de control humano sea un documento en Markdown — no código, no configuración, no una interfaz — es una decisión muy deliberada. Cualquier persona que sepa escribir puede definir una agenda de investigación. El conocimiento sobre qué explorar, qué restricciones respetar, y cómo evaluar el éxito sigue siendo humano. La ejecución iterativa es del agente.
Esa separación — humano define el espacio y los criterios, agente ejecuta la búsqueda — es probablemente la arquitectura correcta para la mayoría de tareas de optimización que hacemos hoy de forma manual.
Qué cambia cuando los agentes pueden hacer investigación real
Hay una diferencia entre un agente que ejecuta tareas definidas y un agente que mejora activamente un sistema buscando qué funciona mejor. AutoResearch es de la segunda categoría.
Hasta ahora, la mayor parte de los sistemas de agentes que existen son de la primera: les dices qué hacer, lo hacen, te devuelven el resultado. Son herramientas muy útiles, pero siguen requiriendo que el humano sepa exactamente qué pedir.
Un agente que puede explorar un espacio de posibilidades de forma autónoma y encontrar mejoras que el humano no habría pensado es cualitativamente distinto. Es más parecido a tener un colaborador que a tener una herramienta.
AutoResearch es una demostración de que ese tipo de agente no requiere infraestructura de laboratorio. Requiere una buena formulación del problema.
Una nota sobre el timing
AutoResearch salió dos semanas después de que varios laboratorios publicaran papers sobre "automated machine learning" y "neural architecture search" con resultados similares pero usando clusters de cientos de GPUs. Karpathy replicó resultados comparables con una sola GPU de consumo y 630 líneas de código.
Ese patrón — la versión accesible llega poco después de la versión enterprise — se repite en casi todas las áreas de la IA. Y cada vez que ocurre, democratiza algo que antes requería recursos que la mayoría no tiene.
Si te interesa ver cómo los agentes autónomos funcionan en la práctica más allá de la investigación de ML, el post sobre cómo tengo montado mi sistema de agentes en Nexflow da buena perspectiva de lo que es posible hoy con herramientas accesibles.
Y si quieres explorar cómo Gemma 4 — el modelo open source que Google acaba de liberar — podría ser el sustrato sobre el que corran este tipo de agentes en local, el artículo sobre Gemma 4 y lo que supone para builders conecta bien con esta dirección.
AutoResearch no es el fin de la investigación humana. Es una demostración de que parte del trabajo más tedioso de la investigación — iterar sobre hipótesis, medir, descartar, repetir — puede delegarse a un agente que nunca se cansa ni se aburre.
Lo que eso libera para el investigador humano es exactamente lo que debería liberar: más tiempo para las preguntas que importan.
¿Quieres montar algo similar?
Automatizamos procesos con IA para que te centres en lo que importa.
HablamosNo te pierdas nada
Recibe artículos sobre IA y automatización directamente en tu email.