马里奥通关记录更新:AI算法助攻闯过 29 关
经典 FC 游戏《超级马里奥兄弟》是多少 80/90 后童年的回忆?蓄着大胡子、身穿工装服的马里奥大叔形象早已深入人心。
《超级马里奥兄弟》共有 32 个关卡,其中不乏毒蘑菇、锤子乌龟、食人花等障碍物,难度颇高。德国程序员 Viet Nguyen 曾尝试通关,却只玩到了第 9 关。
为了实现自己的通关梦,Viet Nguyen 采用了 OpenAI 开发的近端策略优化算法 (PPO),训练出一个 AI 马里奥。时至今日,这个 AI 马里奥已经成功闯过了 29 关。但遗憾的是,在第 4、7、8 关的第 4 关中,AI 并未通关。
Viet Nguyen 解释说,AI 未能通关这三关的原因与游戏规则有关。玩家可以自行选择通关路径,但可能会重复访问同一关卡,导致 AI 无法进入这三关。
Viet Nguyen 已将基于 PPO 编写的 Python 代码发布到 GitHub,并提供了详细的使用说明。感兴趣的朋友可以体验一下。
PPO 算法简介
PPO 算法于 2017 年由 OpenAI 开发。它用于训练虚拟游戏玩家 OpenAI Five。OpenAI Five 在 2018 年的 Dota2 人机对抗赛中战胜了世界职业选手。
PPO 是一种策略梯度算法,它具有以下优点:
采用小批量更新,解决 PG 算法中步长难以确定的问题。
比 TRPO 算法更简单、通用,具有更好的样本复杂性。
PPO 算法在游戏中的应用
在游戏角色的 AI 训练中,PPO 算法可以实现连续运行和转向等基本功能。在人形机器人测试中,PPO 算法表现出了出色的连续控制性能。
在 Atari 游戏合集中进行验证时,PPO 算法与 A2C 和 ACER 算法相比,在获奖次数上更高,小样本学习性能更好。
经典 FC 游戏,你还记得吗?
除了《超级马里奥兄弟》,还有《雪人兄弟》《绿色兵团》《忍者神龟》《双截龙》《魂斗罗》等众多经典 FC 游戏。你最喜欢哪一个,是否通关了呢?