Por qué DeepMind está enviando humanoides de IA al campamento de fútbol

"Realmente no funcionó”, dice Nicholas Hayes, también investigador de DeepMind y uno de los coautores del artículo con Lever. Debido a la complejidad del problema, el enorme conjunto de opciones disponibles y la falta de conocimiento previo. sobre la tarea, los agentes realmente no tenían idea de por dónde empezar, de ahí la escritura y las contracciones.

Entonces, en cambio, Heess, Lever y sus colegas usaron Neural Probabilistic Motor Primitives (NPMP), un método de enseñanza que empujó el modelo de IA hacia patrones de movimiento más parecidos a los humanos, con la expectativa de que este conocimiento subyacente ayudaría a resolver el problema de cómo moverse por el campo de fútbol virtual. "Básicamente guía su control motor hacia un comportamiento humano realista, movimientos humanos realistas", dice Lever. "Y aprende de la captura de movimiento, en este caso, actores humanos jugando al fútbol".

Esto "reconfigura el espacio de acción”, dice Lever. Los movimientos de los agentes ya están limitados por sus cuerpos y articulaciones humanos, que solo pueden doblarse de ciertas maneras, y exponerlos a datos de personas reales los restringe aún más, lo que ayuda a simplificar el problema. "Esto hace que sea más probable que se descubran cosas útiles a través de prueba y error", dice Lever. NPMP acelera el proceso de aprendizaje. Es necesario lograr un "buen equilibrio" entre enseñar a la IA a hacer las cosas como las hacen los humanos y darle suficiente libertad para descubrir sus propias soluciones a los problemas, que pueden ser más eficientes que las que inventamos nosotros mismos.

Al entrenamiento básico le siguió el entrenamiento para un solo jugador: correr, driblar y patear la pelota, imitando cómo las personas pueden aprender a jugar un nuevo deporte antes de sumergirse en una situación de partido completo. balón o driblear el balón cerca de una portería. Este plan de estudios de habilidades fue una forma natural de desarrollar tareas cada vez más complejas, dice Lever.

El objetivo era alentar a los agentes a reutilizar las habilidades que pueden haber aprendido fuera del contexto del fútbol en un entorno de fútbol, ​​para generalizar y ser flexibles al cambiar entre diferentes estrategias de movimiento. Los agentes que dominaron estos ejercicios fueron utilizados como maestros. De la misma forma que se animaba a la IA a imitar lo aprendido de la captura de movimiento humano, también se la premiaba por no desviarse demasiado de las estrategias utilizadas por los agentes docentes en determinados escenarios, al menos al principio. un parámetro del algoritmo que se optimiza durante el entrenamiento", dice Lever. "Con el tiempo, generalmente pueden reducir su dependencia de los maestros".

Una vez que sus jugadores virtuales fueron entrenados, llegó el momento de un poco de acción de partido: comenzando con juegos 2v2 y 3v3 para maximizar la cantidad de experiencia que los agentes ganaron durante cada ronda de simulación (e imitando la forma en que los jugadores jóvenes comienzan con pequeños juegos de la vida real). Puntos destacados de los juegos laterales—que puedes ver aquí— tener la energía caótica de un perro persiguiendo una pelota en el parque: los jugadores no corren tanto como tropiezan hacia adelante, constantemente a punto de caer al suelo. Cuando se marcan goles, no se trata de pases complicados, sino de patadas aéreas prometedoras y rebotes al estilo de Jaggi en la pared trasera.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir
error: Content is protected !!