专访图灵人工智能研究院CEO李强:未来合规与数据安全将是国产AI大模型行业应用核心竞争力

出品|网易科技

作者|赵芙瑶

编辑|丁广胜

当我们在谈论ChatGPT时,我们在谈论什么?

时间进入到2023年5月,ChatGPT所引起的风暴还在持续发酵。从其令人震惊的多模态能力、到国产大模型开启“百模大战”、类ChatGPT产品如雨后春笋般涌现,ChatGPT的上下游产业以难以想象的速度进化着。

大模型领域不乏国内大厂的“厮杀”。 阿里通义千问、百度文心一言、商汤日日新SenseNova体系、华为云盘古、360GPT、昆仑万维“天工”等大模型产品接踵而至,大厂们因技术储备、人才储备、应用场景等优势因素,蓄势待发。

那么,基于大模型之上做垂直应用的企业迎来哪些机遇?中国的顶尖高校应该如何开展产学研合作?当大模型逐渐成为头部大厂烧钱的阵地时,垂直应用厂商如何寻找属于自己的红海?

在南京,有这样一家企业,他们核心团队来自清华大学,致力于大模型的垂直应用与高精尖人才培养孵化。该企业为初入社会的顶尖人才提供创业就业的机会,使他们将所学的理论与实践相结合,进而在AI落地场景中检验理论成果。同时,还为学子们所创办的团队进行融资,并提供软硬件支持——它就是南京市图灵人工智能研究院。

图灵人工智能研究院由清华大学与南京市政府于2018年签约共建并正式运营,由计算机科学领域最高奖——图灵奖得主姚期智领衔,有着人工智能技术背景和大型企业管理经验的李强担任CEO,旨在共同推动科技成果转化和产业化发展。

网易科技《智见访谈》此次邀请到了来自南京市图灵人工智能研究院的CEO李强博士,就中国如何奋起直追ChatGPT、如何构建更完善的AI人才培养体系、AI将会取代哪些职业以及智慧城市大模型等议题展开探讨。

ChatGPT引领“百模大战”

合规性与数据来源或成企业成功密钥

网易科技:您如何看待GPT大模型以及ChatGPT的意义?

李强:从我的理解来看,大语言模型的出现可以被视为一场革命,因为它能够将信息化系统内部的信息逻辑与人类思维逻辑直接打通。从最初的机器码编程,到程序语言和面向对象编程的发展,所有这些过程都是朝着“所见即所得”的方向发展。在这个过程中,人工智能能够帮助我们重新组织所有与工作流和信息化相关的东西,这是前所未有的。

与此前的人工智能应用相比,这种“所见即所得”的能力可以帮助我们更好地将人类思维融入到业务系统中。大模型的最大价值在于它可以将人类语言或思维分解为可执行的子任务,从而将各个新型系统的单点模块打通。

也就是说,它可以将所有企业的信息化流程重塑,带来颠覆性的变革。

此外,人类思维与语言之间的关系也是非常重要的。在我们掌握语言之前,我们的思维是无法完全发展的。因此,语言并不仅仅是思维的外在表现,而是真正启动了我们的思维。

人工智能已经有六七十年的历史,但是ChatGPT的诞生无疑为人工智能发展史上添上了浓墨重彩的一笔,它的出现让“人工智能是第四次工业革命”的论断变成了无人可以否认的愿景。

专访图灵人工智能研究院CEO李强:未来合规与数据安全将是国产AI大模型行业应用核心竞争力

图:图灵人工智能研究院CEO、清华大学博士李强

网易科技:您如何看待国内大厂纷纷推出AI大模型?

李强:目前“百模大战”已经开启,我认为大模型的发展包括两个层面,一个是大模型本身,另一个是基于基础大模型的工具链开发及大模型与行业的结合。在大模型本身的发展上,虽然国内算力资源不如国外,但是目前已有一些大厂有相应的积累,如百度、阿里巴巴等。另外,由于大模型的预训练逻辑已经比较清晰,因此相信在可见的未来国内可以达到与GPT3.5的能力水平相当的水平。

但是与此同时,我认为中国AI技术发展的瓶颈主要有三个方面:算力、算法和数据。

在算力方面,国内的算力资源在某些方面上已经足够,但在高端领域还需要进一步提升。虽然国内的一些政府机构和商业机构都拥有大量的闲置GPU集群,但是这些资源并未得到充分利用,因此需要更好的资源调配和管理。

在算法方面,国内AI公司的大模型预训练能力已经比较成熟,但是具体的优化实现方案仍然需要提高,包括具体的数据配方、数据清洗、参数设置、质量控制等等方面的实现细节,往往决定了大模型的最终效果,而这也是从论文到模型的关键步骤,很难一蹴而至。

在数据方面,虽然中文语料的数据量已经非常庞大,但是数据质量和标注的精度还需要进一步提高。数据质量的提高需要更多的投入和努力,包括对数据的更好的管理和处理。

网易科技:有关部门此前发布了《关于<生成式人工智能服务管理办法(征求意见稿)>公开征求意见的通知》,您认为这一规范性政策对人工智能的发展有什么影响?

李强:我认为这一征求意见稿对于生成式AI的各个细节规范的非常明确,会对人工智能产业的发展产生很大的影响。数据的合规性将不容忽视,例如做搜索引擎的大厂,数据来源毕竟清晰,也合规;但是可能一些主打社交的大厂,其数据来源的合理性有待判断。我相信大厂的技术储备,所以毫不夸张的说,在未来,谁在合规方面做的最好,谁就最具有核心竞争力。

合规的第一项就是数据的合规。要想训练一个大模型,数据获取是关键的一步。即使有合法获取数据的渠道,征求意见稿也对数据的使用提出了强烈的限制,此外,个人身份信息的数据很难确定是否合法使用。这是数据使用过程中的一个问题。

另外,征求意见稿中关于AI的责任和规范问题是目前AI研究和应用领域中的热点话题之一。对于虚假信息和误导性信息的定义和辨别确实存在一定的困难,但对于大型AI模型的开发者来说,他们有规避这种信息的责任。同时,AI“胡编乱造”的现象反而表明了它正在向着真正意义上的思维优先方向发展,而这一方向的实现需要AI具备推理和思考能力。因此,在前端规范和筛选AI生成的信息是产品开发者的责任,而大型AI模型的开发者应该承担一定的责任,来确保其应用的安全性和可靠性。

尽管合规是一个比较严格的门槛,但是只有满足合规要求,才能够获得国家的大力支持。因此,建议大家尽量在满足合规要求的同时,兼顾商业利益。因此,建议相关企业在建设过程中,需要有政府内部逻辑和公关能力的人才的支持,才能够把整件事情更好的完成。

深耕行业着手大模型精调

AI助力金融医疗打造智能化未来

网易科技:在AI大模型的应用方面上,中国也许会更有优势。看到很多创业者纷纷投身于

AIGC+游戏、AIGC+教育等方面垂直应用的开发,您认为AI大模型的应用上,有哪些壁垒?

李强:谈到AI大模型在行业中的应用,我的理解是使用通用大模型作为底座,通过在行业应用方向上精调,形成解决领域中特定任务的求解能力。这里面第一个壁垒是合规数据获取能力。我举个例子,在金融和医疗行业,数据难以共享,但是大模型的精调应用对跨主体的数据使用提出了要求,在这样的情况下,可能就需要引入诸如联邦学习、同态加密等技术,在保护数据隐私的同时,实现跨机构的联合数据分析和模型训练。例如,多家银行可以使用联邦学习的方式训练一个共同的模型,或者使用同态加密技术在不暴露数据的情况下进行数据汇总和计算。此外,大模型现在存在的问题是作为一个个人助理或绰绰有余,但是作为专家系统,准确性不够,时有幻觉。通过行业知识库进行精调的过程中,由于参数的调整是黑盒子,怎么样保证大模型在完善理解行业知识的前提下,不丧失通识能力,是一个很大的挑战,需要经过领域知识注入、任务指令调优、人类价值对齐等一系列工程化调优。最后,如何将业务系统的know-how与大模型的推理、生成、任务分解及插件能力无缝组装在一起,形成真实生产力,也有一定的行业壁垒,同时还要求具备一定的伦理与价值安全性。

垂直应用方面,图灵人工智能研究院目前发力于主要业务是2B的方向,智慧政务(智慧城市)、医疗和金融,这几个领域都需要庞大的行业知识库以及严格的合规要求。我们的大模型有开源版本和商业版本,是由清华大学交叉信息研究院的专家团队基于前期学术科研平台转化而来。而行业知识库的导入是一个相对较为漫长的过程,在医疗方面,我们与协和医院以及清华长庚医院在很早就开始针对图像识别诊疗方面的工作展开合作,包括识别病理癌细胞、确定妇科病菌群等,积累了很多诊疗对话以及图像等多模态语料。未来我们计划使用大模型的核心能力,将就诊的语料、图片和病人症状结合起来,实现多模态的诊疗结果输出。这需要大量合规的数据,并能在医院内部私有化部署。在金融方面,数据的准确性和行业知识库也非常重要。解决方案之一是将行业知识库转化为上下文,以便更好地探索业务问题和解决方案。

为南京建设智慧城市添砖加瓦

为人才培养提供孵化支持

网易科技:能不能详细谈一下大模型在智慧政务(智慧城市)领域的一些考虑?图灵人工智能研究院为何选择了这一垂直领域?图灵城市治理大模型的开发部署进展如何?

李强:我们发现了一些城市治理相关的痛点。比如很多城市,即使是数字化程度比较高的政府管理部门,不同政府部门之间拥有自己的信息化系统,数据难以统一整合,从而难以实现城市治理的智能化。针对这个问题,南京市正在进行一项大规模的信息化建设工程,目的是将各个部门的信息化系统整合成一个“一网统管”的大系统。

然而,这个大系统的建设仍然面临着很多困难。其中一个困难就是不同部门之间的数据难以共享,因为每个部门都有自己的部门利益或管理要求,而且直接打通系统的话,也会存在政策和管理上的风险。这种问题导致城市治理者很难实时掌握城市中发生的事件和数据,从而难以对城市进行智能化管理。此外即使数据打通,业务流程也很难完成无缝对接。

所以需要建立一个共同的数据库来整合各个子系统的数据,并建立公共能力模块,如自然语言大模型承担能力。需要与各个能力中心之间协同合作,并签订三方共建协议,最终目的是实现一个城市治理的数据沙盘。但是即使有了这个数据底座,也并不能完全解决业务人员的使用痛点。例如,最上层的城市治理人员,需要实时动态的获取全盘数据沙盘的能力,中层的各个条线的领导和各个板块的领导需要特定的指令下发的能力,基层的管理人员需要即时工单推送和和跨系统反馈的能力。而针对政务数据和语料训练的城市治理大模型,就承担了对接业务人员和底层能力模型的“操作系统”的功能,整个过程中使用自然语言表达需求,并由大模型来分解任务,打通子系统工作流,最终形成有自主学习和进化能力的城市治理体系。

总之,需要以城市治理大模型为抓手,统筹城市级信息中心、公共数据库和公共能力模块,并解决能力中心之间的协作问题,才能实现城市治理的真正智能化。

网易科技:OpenAI与微软的合作打造出了1+1大于2的效果,您认为中国的人工智能企业与高校可以如何进行产学研合作?在AI人才培养孵化方面,您有什么心得?

李强:OpenAI与微软具有顶尖的人才资源以及丰厚的财力、算力资源,对于中国国内人工智能企业来说,发展大模型面临的一些瓶颈,如算力落差、开源的语言数据不够丰富、先进大模型人才短缺,等等,短期内很难完全克服。但中国可以通过政府统一协同的算力布局,统筹算力中心克服短期算力瓶颈;通过超前建设的数据要素市场,建立起语料数据的供应;通过充分发掘在特定领域、行业应用方面丰富的应用场景突破大模型与行业结合的瓶颈,通过高校与企业的产学研合作深化,将学术和产业领域的最前沿人才结合起来。我相信大模型技术在中国有广阔前景。

在AI人才培养孵化方面,图灵人工智能研究院依赖于清华大学的顶尖人才,特别是交叉信息研究院的教授和青年专家,来推动我们孵化的企业和大模型项目的发展。这些人才具有非常强的学术和科研能力,能够帮助机构的企业转化科研成果,同时也能获得实际场景的应用经验。我们通过给这些人才提供基础设施、投资和实践支持等方式,实现了与他们的双赢合作。因为图灵人工智能研究院是清华系企业平台,我认为如果想要吸引清华大学的学生加入进来,我认为靠的绝对不是薪水,姚班的优秀人才完全不缺拿高薪offer的机会,所以我觉得比较前沿的课题更有吸引力。

我们有一个叫做“驻场企业家”的计划,学生毕业后可以在我们这里组建团队,或者加入我们研究院,我们提供一些资助,帮助他们探索行业方向上的一种新技术、新产品,我们也可以帮助他们孵化属于自己的企业。在企业孵化过程中,我们提供技术解决方案和数据中心,帮助找客户,还提供融资支持。

我们有很多成功的案例,到现在为止有超过50家孵化和投资企业,涵盖的方向包括了人工智能辅助新药研发到新能源电厂运维服务,但是在这里我想分享一个很接地气的孵化项目,我们同事自己创立的一个智能垃圾分类企业,我觉得这个例子体现了图灵院挖掘市场真实需求的能力。传统垃圾分类方式需要用人力检查垃圾分类是否正确,我们研发了一款简单的智能摄像头和算法,可以安装在垃圾桶盖上,自动拍照并识别分类是否正确。如果分类错误,系统会发送短信提醒用户,纠正错误,通过逐步算法迭代来实现高精度分类,目前已经做到了95%以上的分类准确识别,是目前全国最领先的。这种解决方案成本低廉,一台设备仅需数千元,一个社区就可以节省超过十万元的人员费用。现在,这家企业已经成为一家以智能垃圾分类设备为核心的公司,并取得了一定的市场份额。这种解决方案的成功秘诀在于我们立足真实需求,并为其提供了切实可行的解决方案。与此类似,其他的AI创业公司也需要找到与客户的紧密联系,从而将技术落地到真正需要它的行业。

网易科技:我们看到在文本、图画、视频等领域涌现出了很多AI工具,GPT和这些AI工具的涌现,将会对哪些行业形成冲击?放眼未来,您认为哪些职业最容易被AI取代?

李强:文案写作、美工、客服等纯内容生产或限定范围人工服务工作可能会受到一些冲击,包括一部分纯软件外包工作,都是相对危险的。例如,在纯粹整理素材成为文章的过程中,比如校对、编辑,人工智能的替代作用会更加明显。虽然这种工作不一定会消失,但是它的重要性可能会下降很多。但与人交流、协作的工作以及需要深度行业know-how的岗位不会受到太大影响。总体来说,每一次工业或技术革命在取消了很多人类体力或脑力劳动岗位的同时,一定会带来更多更丰富的新应用场景和岗位。我始终认为AI为我们提供更高效、更便捷的工具,能够帮助人类使用它们更大的拓宽与自然和人类自身交互和交流的边界,这反而给职业的解放带来更大的可能性。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注