¿Es inteligente la inteligencia artificial?

En 2014-2015 vimos algo que cambió la conversación sobre la IA: un sistema aprendiendo a jugar videojuegos clásicos desde píxeles crudos, sin reglas programadas, solo con puntuaciones. Ese “momento wow” llevó a muchos —entre ellos el físico y divulgador Max Tegmark— a preguntarse: si una máquina puede aprender a optimizar objetivos y descubrir estrategias por sí sola, ¿eso es inteligencia? storage.googleapis.com +1

Breakout y la “chispa” del aprendizaje por refuerzo

El equipo de DeepMind presentó en 2015 un agente de Deep Q-Network (DQN) capaz de aprender a jugar a Breakout (y otros Atari) solo mirando la pantalla y maximizando la puntuación. Al principio golpeaba la bola “sin sentido”; con el tiempo, descubrió tácticas —como abrir un túnel por el lateral— porque recibir recompensas por buenos resultados refuerza esas acciones. Eso es aprendizaje por refuerzo profundo.

el “sistema de objetivos” (recompensa/puntuación) guía el comportamiento. Suena familiar porque los humanos también percibimos → procesamos → actuamos en función de objetivos (explícitos o implícitos). La analogía con entrenar a un perro (premios por aciertos) es útil, con la salvedad de que no debemos antropomorfizar: el agente estadístico optimiza señales; no “entiende” como un humano.

Del “último bastión”: AlphaGo vs. Lee Sedol

Se pensaba que Go resistiría a la IA por su enorme complejidad (legalmente hay del orden de 2×10^170 posiciones posibles). En marzo de 2016, AlphaGo venció 4-1 a Lee Sedol, uno de los mejores del mundo. El famoso movimiento 37 del segundo juego desconcertó a comentaristas por su originalidad.

¿Cómo lo hizo? Combinó dos redes neuronales (de política para proponer jugadas probables y de valor para estimar quién va ganando) con búsqueda en árbol (Monte Carlo). Esa mezcla capturó algo parecido a la “intuición” estratégica que atribuíamos a los grandes maestros.

Un paso más: AlphaGo Zero y AlphaZero

En 2017, AlphaGo Zero aprendió sin partidas humanas: solo autojuego desde cero y, en semanas, superó a versiones anteriores 100-0. Poco después llegó AlphaZero, el mismo enfoque generalizado a ajedrez y shōgi: desde jugar aleatoriamente hasta nivel superhumano en horas/días con autojuego masivo y TPUs. (La frase popular “aprendió ajedrez en 4 horas” simplifica: usó gran hardware y los detalles dependen de la métrica; el paper habla de ~24 h a nivel superhumano y reportes intermedios de 4–9 h para superar a Stockfish en ciertos sets).

Entonces… ¿eso es “inteligencia”?

Depende de cómo definas inteligencia.

Inteligencia de tarea (narrow): optimizar un objetivo concreto con alto rendimiento (Breakout, Go, ajedrez). La IA ya es sobresaliente aquí.
Transferencia y generalidad: ¿sirve lo aprendido en un juego para otro dominio? AlphaZero generalizó el método, no el “conocimiento”; cuando cambias reglas, vuelve a aprender.
Comprensión/semántica: optimizar recompensas no implica “entender” como un humano ni tener modelos causales del mundo.
Eficiencia de datos: humanos aprenden con pocos ejemplos; estos sistemas requieren muchísimo autojuego y cómputo.
Señal de recompensa: lo que premies define el comportamiento. Si el objetivo está mal diseñado, emergen atajos o comportamientos no deseados (“reward hacking”).

Conclusión: sí, es una forma de inteligencia —computacional, orientada a objetivos— extraordinariamente eficaz en problemas bien definidos. ¿Supera a la mente humana en general? Aún no. En dominios estrechos ya nos supera; en comprensión amplia, razonamiento causal y adaptabilidad del mundo real, queda camino.