百度一口气亮出NLP十年积累:完整技术布局全面披露

  鱼羊发自凹非寺

  量子位报道公众号 QbitAI

  十年,从名不见经传到世界舞台中央,中国 NLP 经历怎样的历程,未来又将向何处去?

  ACL 首任华人主席、百度 CTO 王海峰说:站在百度的角度,过去到未来,语言与知识布局始终要把握两大趋势——技术前沿与产业发展。

  作为国内最早设立 NLP 研发部门的企业,百度可以说是中国 NLP 十年「披荆斩棘」的全程参与者、见证者。

  自 2010 年起,百度就已经将 NLP 研发部门从各个业务线中独立出来,一面攻坚前沿技术,一面追求业务落地。

  如今,十年技术积累,一朝完整亮相:

  史无前例、最全面的百度语言与知识技术成果分享;

  重磅推出 5 款语言与知识产品新发布;

  还有全球最大的产学研共建中文语言与知识数据集计划公布。

  并且,走在语言与知识领域开源之先的百度,还在七夕这一天,为 NLP 从业者们奉上了一份「十周年大礼」:

  发布百度语言与知识算力共享计划。

  王海峰详解百度语言与知识完整布局

  今天,百度大脑语言与知识技术峰会在线举行。

  王海峰全面分享了百度语言与知识技术完整布局和最新成果。

  作为国内最早代表工业界亮相 NLP 顶会的企业,百度十年以来的技术成果不可谓不丰硕:

  包括国家科技进步奖在内的 20 多个奖项,30 多项国际竞赛冠军,发表学术论文超过 300 篇,申请专利 2000 多项。

  并且,这些技术创新也在源源不断地落地到实际产品当中,语义理解技术与平台文心(ERNIE)、智能对话定制和服务平台 UNIT、自动文稿转视频的智能创作平台……

  所以,百度是如何把握语言与知识这艘航船的方向,使其在产业前沿「乘风破浪」的?

  王海峰说:

  在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。

  王海峰谈到,语言与知识技术是人工智能认知能力的核心,以语言和知识为研究对象,让机器像人一样掌握知识、理解语言的自然语言处理技术,对于人工智能发展至关重要。

  正是基于这样的前瞻性判断,在人工智能尚未成为显学的 2010 年,百度就正式成立了 NLP 部门,展示了攻坚前沿技术的决心。

  王海峰表示,历经近十年发展,百度已经构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统。

  以知识图谱为基础

  具体而言,知识图谱是机器认知世界的基础。

  王海峰指出,机器认知能力的突破,越来越依赖对知识和大规模知识图谱的运用。

  在这方面,百度打造了世界上最大的多元异构知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新,应用于各行各业。现在,其每日调用次数超过 400 亿次。

  不仅如此,针对不同应用场景和知识形态,百度还建立起多样化的知识图谱类型,既有基础的实体知识图谱,也有行业知识图谱、事件图谱、关注点图谱等,以及融合语音、视频、图片的多模态知识图谱。

  这背后,是百度创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多元异构数据的知识补全与整合技术在内一整套知识图谱构建方法。

  突破语言理解、语言生成关键技术

  有了丰富知识的加持,语言理解相关技术的能力就能不断增强。

  比如,百度提出可持续学习的知识增强语义理解框架 ERNIE,在深度学习的基础上融入知识,具备人类一样的持续学习能力,曾一举登顶全球权威数据集 GLUE 榜单,首次突破 90 分大关,并且超越人类得分。

  而通过融入知识、语义理解、以及增强小样本学习能力,机器的阅读理解和对话能力也在迅速增强。

  进而,考虑到机器认知世界,往往不仅局限于自然语言,而是对语音、视觉等多模态信息的综合应用,知识增强的跨模态深度语义理解方法也是一大研发重点。

  通过知识关联跨模态信息,运用语言描述不同模态信息的语义,进而让机器实现从「看清」到「看懂」、从「听清」到「听懂」,即图像和语言、语音和语言的一体化理解。

  而融合场景图知识的跨模态语义理解预训练技术,则大幅提升了跨模态推理能力。

  而在机器理解自然语言之外,要提升交互体验,语言生成任务也必不可少。

  在这方面,百度基于多流机制的语言生成预训练技术,在语言生成的过程中,兼顾词、短语等不同粒度的语义信息,提升了生成效果。

  而多文档摘要生成,则通过图结构语义表示,引入篇章结构知识,增强长文本语义表示能力的同时,解决了跨文档领域关系建模难题。

  前沿技术落地

  正如王海峰所说,对于百度而言,一方面是紧追技术前沿,另一方面是密切关注产业发展。因此无论是技术的研发,还是对 ACL 这样的顶会的深度参与,其中都有企业发展、技术布局的考量。

  因此学术上的突破,也在不断转化为搜索、翻译、对话系统等各类产品的落地。

  比如百度核心业务搜索。

  王海峰介绍,通过知识图谱、语言理解和跨模态语义理解等技术,智能搜索帮助用户更加高效、精准、便捷地获取知识和信息。智能搜索再进一步发展,搜索将无处不在。

  在对话系统方面,百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型 PLATO 等,并推出智能对话定制和服务平台 UNIT,帮助开发者高效构建智能对话系统,实现规模化应用。

  机器翻译方面,基于多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等新技术,现在,百度翻译能支持 200 多种语言,每天响应超过千亿字符的翻译请求,支持超过 40 多万家第三方应用。

  结合语言生成技术和其他语言与知识技术,百度还打造了智能创作平台,已被 20 多家媒体所采用,日调用量超过 35 万次。

  由此也可见百度在语言与知识技术领域开源开放的态度,其十年技术成果,都在源源不断通过平台化产品对外输出,在互联网、金融、医疗、教育等诸多领域发挥作用。

  这样推动整个产业智能化升级的努力,亦是近十年来百度语言与知识技术不断进步的最佳证明。

  客观上,百度 NLP 自十年前开始的长远布局,确实影响并改变了中国 NLP 的学术地位、人才和产业格局。

  包括王海峰曾担任首位华人主席的 ACL 成立亚太分会、ACL 落地中国,背后都有百度影响力的体现。

  而在人才方面,如今 AI 语音、语义理解、智能交互的一大批明星公司、实验室的创始人、骨干,也都先后聚集于此。

  那么,在这样的十年「成绩单」之后,下一个十年,百度 NLP 又会剑指何方?

  王海峰说:

  复杂知识表示和快速构建技术,知识与深度学习进一步融合,深度融合感知和认知的跨模态语义理解技术,模型可解释性和鲁棒性等等,仍有很多技术难题需要持续研究和解决。

  但对于未来,百度充满信心,坚持「掌握知识、理解语言、拥有智能」,与学术界、产业界携手,推动语言与知识技术、人工智能技术持续进步,为产业不断升级、社会经济高质量发展做出更大贡献。

  5 款产品的新发布,服务产业智能化

  具体到产品上,在这场峰会中,百度集团副总裁吴甜也在 5 款语言与知识产品上带来了百度的最新成果。

  一起来看看:

  文心ERNIE),领先的语义理解技术与平台

  在 ERNIE 核心技术的基础上,百度延展开发了语义理解技术与平台,并取中文名「文心」,意义取自「文心雕龙」。

  文心 ERNIE 这个平台,旨在提供数据处理、模型训练、模型评估、模型部署一站式 NLP 定制能力,让开发者更简单、高效地定制 NLP 模型,以满足企业智能化转型过程中,面对的各种机器文本处理需求。

  整个过程也简单高效。会上吴甜以一个情感分析任务为例,演示了平台使用过程。文心仅用了 100 条标注数据,准确率就达到了准确率 92%。训练好的模型可以一键发布,开发者可通过 API 服务直接调用。

  吴甜表示,文心全面降低了 NLP 定制开发成本,能减少 90% 的数据标注量,节约 90% 的算力投入,减少 85% 的模型开发时长。

  文心经过大量真实应用场景淬炼,具备优秀的工业级落地实力。目前,文心广泛用于百度产品中,累计支持业界开发者超过 2 万名,应用于金融、通信、教育、电商等各行业,显著提升企业 NLP 应用效果和效率。

  TextMind,促进智能办公升级

  针对企业文本智能化的具体场景中,百度此次还全新发布了智能文档分析平台 TextMind,旨在为企业提供一站式文档规范化解析方案。

  TextMind 底层基于 OCR、NLP 技术,以文档解析为核心能力,具备文档比对、审核能力。

  举个例子,在处理合同这样的重要证明文书时,通过人工智能辅助审核的方式,TextMind 可以极大提高合同审核的效率,降低漏审风险。同时,TextMind 与知识图谱能力的结合,能够发现更多合同中隐含的法律风险。

  目前,TextMind 支持 6 种格式,20 类文档。

  并且场景预置支持开箱即用,还提供零门槛定制工具。在准确率方面,对于常用解析字段,100% 准确;非常用字段,无需标注就可以达到 90% 准确率。

  AI 同传会议解决方案

  另外一款全新发布的产品,是 AI 同传会议解决方案。

  一台电脑、一部手机,就可以快速搭建一套同传服务。

  并且,这一 AI 同传会议解决方案,覆盖会议全场景,无论线上远程会议室还是线下会议,无论主题演讲还是多人讨论,都可以支持。

  同时,吴甜还表示,这套方案中使用的 AI 同传技术,会同步面向所有开发者开放。

  智能创作平台全新升级

  大洋彼岸,微软已经将 MSN 和 Edge 浏览器中的新闻推送交给 AI 来做。

  实际上,2019 年初,百度早已上线智能创作平台。平台不断丰富辅助创作和自动创作能力,包括图文转视频这样的「爆款」功能。

  这一次,百度智能创作平台面向媒体行业,推出智能策划、智能采编和智能审校 3 大场景方案。

  从选题,到文字、视频生产的采编环节,再到文本、格式校对,全面帮助媒体机构与个人提升创作效率。

  UNIT 智能对话定制与服务平台升级

  在智能对话方面,百度此次也升级了 UNIT 智能对话定制与服务平台,进一步降低任务式对话、智能问答的定制成本,并融合了通用对话能力,以提升交互体验。

  智能客服、小度车载 OS、小度 DuerOS 都是其能力的输出场景。

  为了让开发者更加高效地获得高质量的对话理解能力,UNIT 本次重点升级了 3 项技术,并将数据标注成本进一步降低 30% 以上。

  首先,是小样本意图理解能力升级。每个意图提供 10 个标注样本,就能达成准确率 88% 的意图识别,显著降低数据标注成本。

  基于开发者给定的自定义词槽值,UNIT 能自动为开发者推荐口语化同义词;基于依存句法分析技术与通用关键词识别技术,还能自动发现修饰关系,降低开发者的分析难度。

  其次,是表格问答能力升级。

  开发者只需要上传业务数据表格,后续的所有分析、整理过程均可由 UNIT 自动完成。

  吴甜表示,1 分钟自动分析后,产出的问答机器人已经可以准确回答大部分基于表格的事实型问题;再进行 1 小时左右的人工调优后,问答机器人达到的水平,相当于以往通过至少 2 周人工整理 FAQ 建设的问答系统的水平。

  最后,是新一代融合对话引擎。融合业界首个基于隐空间的端到端预训练对话生成模型 PLATO,提升对话内容丰富度和流畅度,提升交互体验。

  以上,就是百度语言与知识技术峰会上发布的新产品与新升级。

  由此可见,在语言理解、语言生成、对话、机器翻译这 4 个 NLP 领域的重要方向,百度依托自身在语言与知识技术领域的多年深耕,将核心技术以技术平台和产品的形式提供给开发者、业务应用者,布局全面,几乎没有什么短板。

  如此丰富、全面、开放的产品,无疑有助于推动语言与知识技术的落地应用,以及整个语言与知识领域的技术发展。

  而能交出这样一份全能答卷,亦是在深度学习尚未成为显学之际,以王海峰为首的百度科学家智者见于未萌之功。

  产学研共建中文信息处理数据集,还有算力共享计划

  不只是要用核心技术服务于产业发展,在开源方面,百度语言与知识也一直走在产业前沿。

  在峰会上,百度联合中国计算机学会、中国中文信息学会共同发布「千言」数据共建计划。

  百度技术委员会主席吴华表示,语言与知识技术在大规模产业化应用中面临三个挑战:模型处理多个子任务的能力、泛化能力,以及模型鲁棒性带来的应用安全和用户体验问题。

  「千言」作为全球最大的面向 NLP 的中文开源数据共建项目,正是为了应对这些挑战、促进中文 NLP 发展而生。

  千言第一期,包括百度在内,有来自 11 家研究机构、企业的数据集作者进行了共建,包括清华、哈工大、中科院、腾讯、华为、微软等等。

  第一期总共涵盖 7 大任务、20 多个中文开源数据集合。

  任务类型包括开放域对话、阅读理解、机器同传、情感分析、语义解析、信息抽取和文本相似度。同时,每个任务都提供了多维度的综合评价,关注评价模型的全面性、鲁棒性和泛化性等。

  这一项目计划在未来 3 年,面向 20 多个任务,收集和建设不少于 100 个中文自然语言处理数据集,以覆盖知识图谱、语言理解、语言生成、NLP 应用系统、跨模态融合技术等领域。

  吴华表示:

  未来,我们希望有更多的数据集作者能够参与共建千言,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。

  同时,为了应对算力需求的挑战,百度也正式发布了「百度语言与知识算力助力计划」,对外开放共享百度算力:

  通过 AI STUDIO 平台,为语言与知识技术开发者,提供算力支持。

  一手推动开源共建,一手发放海量福利,作为十年来语言与知识工业界的领头羊,百度的雄心,不言而喻。

  百度 NLP「十年十人」

  最后,在峰会上,百度还首次向业内介绍百度语言与知识领域十年里的「代表人物」——百度 NLP「十年十人」。

  王海峰,百度首席技术官,ACL 主席(2013),AACL 创始主席,ACL Fellow,中国中文信息学会副理事长。

  Kenneth Church,Baidu Research Fellow,ACL 主席(2012),ACL Fellow,EMNLP 创始人。

  吕雅娟,百度高级科学家知识图谱技术负责人、中国计算机学会中文信息技术专委会副主任(2015-2019)。

  吴华,百度技术委员会主席,ACL Program Chair(2014)。

  黄亮,百度杰出架构师、IDL(美国)主任,ACL Area Chair 2012, 2014, 2018, 2019)。

  吴甜,百度集团副总裁。

  赵世奇,百度 MEG 用户产品策略平台负责人,ACL 秘书长(2016-2020)。

  田浩,百度研究院首席架构师。

  何中军,百度人工智能技术委员会主席。

  于佃海,百度飞桨平台总架构师。

  均是 NLP 领域里响亮的名字。

  其实,正是像这样的科学家、从业者的星聚,汇作一团火,让中国 NLP 在 2010 到 2020 的这个十年中,完成「破圈」,披荆斩棘地走到世界 NLP 舞台中央。

  而以百度为代表的工业界 NLP 研发力量,作为 NLP 十年发展的全程见证者、参与者,也正在用脚踏实地的技术积累、高瞻远瞩的全面布局和开源开放的态度,推动着 NLP 技术的进步,建设着世界范围的中文信息处理影响力。

  这不只是百度 NLP 的十年,也是中国 NLP 的十年。

  下一个十年,自然语言处理,将是中文论剑的时代。

  你说呢?

  — 完 —

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注