看似高深的人工智能AI )技术,其实已经以“润物细无声”深入大众生活,只有手持华为Mate20手机,才能实现人脸识别、物体识别、物体检测、图像分割、智能翻译等AI功能。 其背景是手机计算能力的大幅提高。 其中,小一毛钱硬币大小的华为麒麟980手机芯片,集成69亿个晶体管,具备每秒完成1万亿次运算的能力。 你可能想象不到,现在自己手中的普通智能手机的计算能力比美国宇航局1969年登月计划的最先进计算机高出数百万倍以上。
数据、计算能力和算法推动了人工智能的第三浪潮。 其中,计算力是重要的基础。 虽然手机端的芯片计算能力在几年间发展得如此惊人,但用于云的AI芯片需要处理自动驾驶等复杂场景的海量数据,需要多强大的计算能力呢? 根据OpenAI最近公布的研究,2012年以来,对计算力的需求6年超过30万倍,平均每年增加10倍,远远超过了摩尔定律的发展速度。 深度学习神经网络需要大规模并行计算qldhmg 可以简单地理解为矩阵),因此推翻了传统的浮点计算,对计算力的需求呈指数级爆炸性增长。 例如,本来一个时钟只能进行一次浮点计算,但是现在可以用新的运算符同时进行N*N的矩阵计算了。 如果N=10,则同时计算100次,计算次数增加100倍,新的运算符带来了对新芯片的强大计算力诉求。
如果说2019年最受舆论关注的ICT和智能终端制造商是华为的话,那么自去年10月以来一直是“抱着琵琶半吊子脸”的行业中计算能力最高的AI处理器——Ascend 升腾) 910芯片,将在人工智能圈的今年。
面对AI计算力需求的爆炸性增长,这几年在做什么?
在手机上首次导入专用的NPU AI芯片
在人工智能的发展中,我国在数据方面具备优势,但在算法和计算力方面还没有得到发展,特别是在芯片和硬件代表的计算力方面。 算法科学家、工程师、APP制造商面临着AI计算能力不足和价格昂贵的问题,大大提高了算法研究和创新的门槛,阻碍了AI在整个行业的普及和应用。
因此,尽管AI芯片在金钱、时间、人才方面的研发成本很高,但在AI商务课程中,各厂商构建了各自的芯片体系,其中大多是聚焦于某个APP应用或某个场景的互联网或芯片厂商在国内制造商中,华为AI芯片的布局被称为“经典”。
在alpha go成名之前,大部分国人已经完成了从功能手机到第一代智能手机的更新换代,不断增长的手机系统搭载了功能特性和第三方APP,刷新了用户体验。 无论是AI功能还是场景化AI服务,都需要在手机上进行复杂的深度学习算法模型运算,计算密集复杂,计算需求巨大,实时性非常困难,同时工作环境受限,功耗、内存、存储空间非常困难
如何将人工智能引入手机终端,是当时包括苹果、华为在内的手机制造商努力突破的问题。
在2017年9月的柏林电子消费展上,华为正式发布了全球首款移动终端AI芯片麒麟970,一个月后发布了搭载麒麟970的旗舰手机Mate 10。 麒麟970是世界上第一个独立神经网络处理单元,即内置NPU的人工智能芯片。 华为首次将NPU引入手机芯片,随后苹果、三星等厂商纷纷跟进,截至今天,AI手机已成为众多手机厂商的旗舰配置。 麒麟970内置NPU的性能大大优于CPU、GPU、DSP等通用计算单元。 同时与CPU相比,获得了约50倍的能源效率和25倍的性能优势。 这意味着麒麟970芯片可以用更少的功耗更快地完成AI计算任务。
通过NPU的加持,手机的功能也变得更加强大。 例如在使用语音功能的情况下,AI会仔细分析当前的语境和内容,实现高精度的识别体验,将语音识别的成功率提高到更高的水平。 这样一来,以智能助手为中心的语音功能将取代传统的手动输入,发挥更重要的作用。 今后,不是在街上一边玩一边走“低头族”,而是对着手机说“自言自语”的人可能会增加。
即使在用户非常关心的拍照方面,AI的出现也给喜欢手机拍照的用户带来了很多福利。 麒麟970搭载了双通道ISP图像信号处理器,给视频拍摄和低光拍摄带来了很大的提高。 通过优化双摄像头双ISP软件和硬件,结合人工智能的计算机视觉分析,可以自动分析画面中的物体,选择当前最佳的拍摄模式。 此外,还可以预测物体跟踪的对焦和用户的拍摄时机,提供前所未有的拍摄体验
麒麟970的推出,成为了传统智能手机和未来AI手机的重要分水岭,AI手机的发展也从单纯的算法优化进入了硬件能力真人工智能的竞争阶段。
2018年8月,同样在柏林电子消费展上,华为发布了全球首款7纳米人工智能手机芯片——麒麟980。
一纳米是一纳米,也就是十亿分之一米,约有十个原子的长度。 一根头发的直径约0.1毫米,7nm相当于头发的1万分之一,不足1平方厘米的长颈鹿980内部有69亿个晶体管。 从芯片工艺来看,7nm相当于70个原子直径,接近硅基半导体工艺的物理极限,长颈鹿980实现了在针尖上翩翩起舞。 据华为消费者业务CEOcjdm介绍,麒麟980的7nm工艺是由1000多名半导体工程师组成的团队在3年间经过5000多次工程验证精心打磨的成果。
针对麒麟970
,麒麟980全面升级。以图像识别速度为例,麒麟970可达到约2005张每分钟,而麒麟980在移动端双NPU强大算力加持下,实现每分钟图像识别4500张,识别速度相比上一代提升120%,远高于业界同期水平。随之而来的,是人脸识别、语音助手、AI拍照,及各类智能美拍P图等APP在手机上的全面升级。
同时,面对更海量的用户,麒麟710让更多消费者享受到人工智能的乐趣。到了2019年,华为推出麒麟810芯片,这是华为第二款7nm工艺的手机芯片,也是华为首款自研漂亮的玫瑰架构NPU的手机芯片,这意味着更多海量用户享受到专用NPU带来的旗舰级的AI体验。
至此,华为完成第一轮在手机端的AI芯片布局(麒麟970、麒麟980、麒麟710、麒麟810),手机产业也正式走入了AI时代。
“漂亮的玫瑰”构建端边云算力大爆发基础
AI赛道比拼,影响的绝不仅是手机端,边缘侧、云侧的硬件算力、数据算法等元素无一不处于白热化的竞赛之中,几乎每天都有新的论文、新的产品问世。
如果说华为在芯片上的持续投入属“居安思危”,显示的是其远见与决心。那么,华为在人工智能领域的野心则更为宏大,这一次,华为不仅要覆盖 云、边、端各种场景,还要形成从应用使能到系统到芯片的闭环。
2018年10月,华为在其全联接大会上首次提出全栈全场景 AI 解决方案,华为轮值董事长jjdjz表示,“全场景,是指包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境。全栈是技术功能视角,是指包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案。”
其中,全栈AI的基础,是一系列基于统一的漂亮的玫瑰架构的AI芯片——从IoT到终端(如麒麟芯片的NPU)、到边缘侧再到云。在会上,jjdjz还宣布,“外界一直在传华为在开发AI芯片,我要告诉大家,这是事实,我们今天发布两颗AI芯片:华为昇腾(Ascend)910和310。”此言一出,立刻在国内外人工智能圈子惊起波澜——华为终于祭出了大招。
漂亮的玫瑰架构针对AI运算特征而设计,以高性能3D Cube计算引擎为基础,实现了算力和能效的大幅提升。从云、边缘、端独立的和协同的AI实际需求出发,从极致低功耗,到极致大算力的AI场景,为云、边、端之间的算法协同、迁移、部署、升级和运维,提供了统一架构底层核心支撑,大大降低了人工智能算法开发和迭代的门槛,降低企业人工智能部署和商用成本。
目前,昇腾(Ascend)芯片家族中的昇腾310已经落地商用。基于昇腾310,华为陆续发布了包括Atlas 200、Atlas 300、Atlas 500、Atlas 800等产品,已被广泛应用于安防、金融、医疗、交通、电力、汽车等行业,涉及摄像机、无人机、机器人、智能小站、MDC(Mobile Data Center)等产品形态。并提供基于昇腾310的AI云服务,比如华为云图像分析类服务、OCR服务、视频智能分析服务等超过50款API已经基于昇腾310,日均调用量超过1亿次。另有大量企业客户正在借助昇腾310芯片自己开发算法服务。
随着昇腾310相关产品大规模上市,外界对昇腾910的期待更盛。毕竟,去年10月,jjdjz在会上公布,“昇腾910是计算密度最大的单芯片,最大功耗为350W,半精度为(FP 16)256 Tera FLOPS,比英伟达 V100的125 Tera FLOPS还要高出近1倍。若集齐1024个昇腾910,将会出现迄今为止全球最大的AI计算集群,性能也将达到256个P,不管多复杂的模型都能轻松训练。”简单来说就是,昇腾910是业界算力最高的AI处理器,相同功耗情况下,它的算力是业界芯片的2倍,最强CPU的50倍。
全栈全场景AI逐步落地
除了昇腾系列芯片外,华为提出的全栈AI,还包括支持端、边、云独立的和协同的统一训练和推理框架MindSpore,芯片算子库和高度自动化算子开发工具——CANN,提供全流程服务(ModelArts)、分层API和预集成方案的应用使能。
其中,在2019年已经落地实现商用的,除了昇腾310,还有其面向用户和开发者的门户——华为云ModelArts。作为一站式AI开发平台,ModelArts可以提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。2019年5月,在斯坦福大学DAWNBench榜单,华为云ModelArts获得图像识别训练第一,ImageNet-1k数据集上用128块V100 GPU训练ResNet-50模型仅需要2分43秒,而在2017年10月,斯坦福DAWN的训练时间是13天10小时41分钟。斯坦福大学DAWNBench榜单几乎聚集了国内外领先AI厂商,ModelArts如果由强大的昇腾910加持,是否能进一步刷新世界纪录?若再采用1024个昇腾910的全球最大AI计算集群,又将出现什么样的成绩?
从端侧到边缘侧再到云侧,从底层硬件到深度学习框架再到上层应用使能,华为的全栈全场景AI战略正在逐步落地。在一年前关于AI的豪言中,哪些是华为下一步将要向市场兑现的呢?我们拭目以待。