8月20日消息,美国当地时间周四,电动汽车制造商特斯拉在“特斯拉AI日”上发布了自主研发的AI芯片,用于训练超级计算机Dojo。
特斯拉Dojo项目主管迦乃士·温卡特摩南Ganesh Venkataramanan)在当天的活动上表示,这款名为D1的芯片是特斯拉Dojo超级计算机系统的重要组成部分,采用7纳米制程工艺制造。特斯拉会将一组这样的芯片放在单独的“训练瓦”上,以提供9千万亿次计算能力,其中120个训练瓦聚集在几个服务器机柜中,相当于提供超过1万万亿次的运算能力。
曾为芯片制造商AMD效力的温卡特摩南说:“我们很快就会组装第一批机柜。”他表示,特斯拉的技术将支持最快的AI训练计算机。芯片制造商英特尔、显卡制造商英伟达和初创企业Graphcore都在制造芯片,这些芯片可以用来训练AI模型。这些芯片可以帮助训练模型识别特斯拉车辆摄像头收集的视频流中的各种物品,模型培训往往需要大量的计算工作。
温卡特摩南称,首席执行官埃隆·马斯克Elon Musk)几年前曾要求特斯拉工程师“设计超高速训练计算机,这就是我们启动Dojo项目的原因”。他解释称,Dojo是个通过网络结构连接的分布式计算体系结构,它有大型计算平面、极高的带宽和低延迟。Dojo是一台纯学习机,拥有50多万个训练节点。
温卡特摩南指出,Dojo的全部潜力都被特斯拉用于帮助使自动驾驶汽车成为可能。不过,Dojo的开发还没完成,将来它会变得更加强大。马斯克也表示:“我们应该在明年让Dojo投入运行。”
两年前,特斯拉开始生产内置AI芯片的汽车。这些芯片帮助车载软件快速做出决定,以应对道路上发生的情况。特斯拉目前为新车型提供了所谓的“全自动驾驶”FSD)功能。这项售价1万美元的服务可以让汽车自动变换车道、在高速公路上行驶、自动泊车以及支持智能召唤功能。特斯拉表示,今年晚些时候,该套餐还将包括特斯拉在城市街道上自动驾驶的功能,尽管特斯拉此前承诺该功能将于2019年推出。
但特斯拉警告称,FSD功能依然“需要司机主动监督,并不会让车辆实现自动驾驶”。批评人士表示,特斯拉对其司机辅助驾驶功能的称呼具有误导性,因为特斯拉的软件并不提供L5级自动驾驶功能,即汽车可以在任何情况下完全自动驾驶,无需人类干预。
此前英伟达汽车业务副总裁丹尼·夏皮罗Danny Shapiro)在博客文章中指出,特斯拉用于训练自动驾驶深度神经网络的超级计算机Dojo中使用了英伟达的GPU芯片。
夏皮罗在博客中指出,特斯拉人工智能高级主管安德烈·卡帕西Andrej Karpathy) 在6月20日曾就特斯拉的自动驾驶功能做过一次演讲。夏皮罗指出,卡帕西当时“展示了公司内部用于训练自动驾驶深度神经网络的超级计算机Dojo。”卡帕西说,这可能是世界上第五强的超级计算机。
夏皮罗表示,这台超级计算机中使用的是英伟达GPU芯片。他称,“该集群使用有720个节点的8倍NVIDIA A100张量核心GPU总计有5760个GPU),算力达到业界领先的1.8 exaflops。”
关于特斯拉在超级中使用其硬件的原因,夏皮罗解释称:“NVIDIA A100 GPU提供了各种规模的加速能力,为世界上性能最高的数据中心提供动力。A100 GPU采用英伟达Ampere架构,性能比上一代提高20倍,并可划分为7个GPU实例,以动态调整需求变化。”
夏皮罗称,“特斯拉的周期性运算始于汽车。一个运行在‘影子模式’下的深层神经网络会在汽车行驶时悄悄感知并做出预测,而不需要实际控制车辆。”
这些预测以及任何关于周围环境的误判都会被记录下来。然后,特斯拉工程师会使用这些实例创建一个包含各种不同场景的训练数据集,以完善深度神经网络。
结果是收集到大约100万个10秒、每秒36帧的视频片段,总共有1.5PB的数据。深度神经网络在数据中心反复运行这些场景,直到运行无误。最后再反馈给车载电脑,重复进行这一过程。
特斯拉的卡帕西说,以这种方式训练深度神经网络,需要对海量数据进行大规模计算,这使得特斯拉开发制造出搭载英伟达A100GPU芯片的超级计算机Dojo。(辰辰、小小)