英伟达发布“山寨”游戏创造器，已完美复现《吃豆人》

GAN作为一种深度学习训练的“左右互博术”在造假界曾“声名鹊起”。

前有“换脸术”，后有“假新闻”，技术作恶论也以GAN为源头甚嚣尘上。但事情总有两面性，例如DeepMind曾经改造了“史上最强”的BigGAN，让新的算法去做图像分类，刷新了ImageNet无监督表征学习的纪录。

而近日，英伟达研究院创建的强大新AI模型GameGAN也让四十年前的《吃豆人》游戏再度重生。

用神经网络支撑的GAN技术创造出逼真的游戏，英伟达此项工作属全球首个。

进一步，GameGAN经过5万个回合的游戏训练，能够在无需基础游戏引擎的情况下生成完整版的《吃豆人》游戏。

据悉，当玩家试玩GAN生成得游戏时，GameGAN会对游戏玩家的行为做出响应，从而实时生成新的游戏环境框架。在使用游戏不同等级或版本的游戏剧本进行训练后，GameGAN甚至可以生成从未有过的游戏关卡。

一、首个模仿计算机游戏引擎的神经网络模型

GameGAN是首个利用生成式对抗网络（GAN）模仿计算机游戏引擎的神经网络模型。其背后主要的模型思想是GAN：即由两个相互对抗的神经网络组成，一个生成器（generator）和一个鉴别器（discriminator），生成器和鉴别器相互对抗，直至生成能够以假乱真的内容。

与现有工作不同的是，英伟达设计得GameGAN，里面包含一个内存模块，该模块可以构建环境的内部地图，允许智能体以高度的视觉一致性返回到以前访问过的位置。GameGAN还能够将图像中的静态和动态组件分开，使模型的行为更易于解释，并和需要对动态元素进行显式推理的下游任务建立相关性。

论文地址：https://cdn.arstechnica.net/wp-content/uploads/2020/05/Nvidia_GameGAN_Research.pdf

GameGAN由Fidler、Kim、NVIDIA研究员Jonah Philion、多伦多大学（University of Toronto）学生Yuyu Zhou和麻省理工学院（MIT）教授Antonio Torralba共同创作，相关研究论文被CVPR 2020收录，并将于6月份在会议上介绍。

整个模型由三个主要模块组成，包含动态引擎、渲染引擎和内存。其中，动态引擎将行为、记忆、图像作为输入，并及时更新时间T的隐藏状态；内存模块负责整体地写入和读取；渲染引擎负责解码图像，可以学习解开图像中的静态和动态分量。

在问题的整体考虑上，英伟达的研究员将其定义为2D图像生成问题，给定观察到得图像帧序列和智能体采取的相应操作，然后进行图像模拟创造，效果类似于在真实动态环境中渲染。

在具体的训练过程中，GameGan会观察场景和玩家的键盘动作从而进行预测，也就是直接从图像和动作场景中学习，不需要访问底层游戏逻辑或引擎。

对于训练的细节，包括：吃豆人的速度、移动能力；四个鬼魂的运动方式；吃豆人吃下大力丸会怎样；当鬼魂碰到吃豆人时，会发生什么。

对于数据，英伟达团队在四天内为GameGAN提供了50,000集（共几百万帧）的《吃豆人》剧本。如此规模的数据集除了英伟达团队，吃豆人的游戏开发商万代南梦宫也出了一份力。

对于硬件，英伟达的AI研究团队在50,000小时的“ 吃豆人”游戏中训练了四台计算机场，每台计算机均配备了Quadro GV100工作站级GPU。

对于测试实验，英伟达研究人员分别在《吃豆人》和VizDoom环境中对GameGAN等四种模型进行定量和定性的综合评估。

实验结果如上图所示：Action-LSTM生成得帧缺少豆豆等细节，World Model在保持时间一致性方面存在困难，有时会出现严重的不连续，而GameGAN可以生成一致性模拟。

总的来说，经过训练后的GameGAN模型能够生成静态环境元素，例如统一的迷宫形状、豆子和强化道具，以及作为敌人的幽灵和吃豆人本身等移动元素。

该模型也能够学习简单和复杂的关键性游戏规则。例如，和原版游戏一样，吃豆人无法穿过迷宫墙。他需要一边四处移动，一边吃豆。当他吃到强化道具后，鬼魂会变成蓝色并四处逃窜。当吃豆人从一侧离开迷宫时，他会被传送到迷宫的另一侧。一旦吃豆人碰到鬼魂，屏幕就会闪烁并结束游戏。

自主机器人通常也需要在模拟器中接受训练，模拟器中的AI可以在与现实世界中的目标进行交互之前，学习环境规则。对于开发人员而言，创建模拟器是一个相当耗时的过程。开发人员必须编写有关如何与目标互动，以及及光在环境中如何表现等规则。

模拟器被广泛用于开发各种自主机器，例如学习如何抓握和移动物体的仓库机器人、或是需要在人行道上运输食物或药品的物流机器人等。

而GameGAN地出现，为其带来了一种可能性 —— 在未来的某一天，神经网络训练将能取代此类任务中编写模拟器的工作。

比如你在汽车上安装一个摄像头。该摄像头可以记录道路环境或驾驶员的行为，例如转动方向盘或踩下油门等。这些数据可被用于训练一个深度学习模型，其能够预测在现实世界中，人类驾驶员（或自动驾驶汽车）在做出猛踩刹车等动作时会发生什么后果。雷锋网雷锋网公众号：雷锋网)雷锋网

NVIDIA多伦多研究实验室主任Sanja Fidler表示：“我们最终将训练出一个AI，其只需通过观看视频和观察目标在环境中所采取的行动，就能模仿驾驶规则或物理定律。GameGAN是朝这一目标所迈出的第一步。”