近日,讯飞输入法上线“智能拍照输入”功能,该功能基于科大讯飞新一代视觉A.I.技术,融合手写识别和机器翻译等技术,打造拼音、手写、语音之外的输入交互方式。关于讯飞输入法“智能拍照输入”功能的特点以及产品愿景,网易科技独家专访了科大讯飞输入法业务部总经理程坤。
除了键盘和语音,你还可以这样输入?
一款新产品的发布,或者全新产品功能的推出,作为用户来讲,最关心的莫过于其功能特点所在。关于讯飞输入法“智能拍照输入”功能特点,程坤将其总结为三点。
首先,在使用场景层面,讯飞输入法“智能拍照输入”基于科大讯飞的整体A.I.能力,扩展和延伸了文字扫描功能。用户通过“拍照”就能搞定各种复杂信息的录入,程坤介绍到,讯飞输入法“智能拍照输入”除了基础的文字识别之外,还可以通过拍照识别表格内容并生成可编辑的excel文档,对于包含文本外复杂信息的素材,也可将其恢复为word格式的可编辑文档,解决了多种办公场景的用户刚需。此外,在教育场景中,用户通过拍照,也可以将手写的数理符号、公式等内容转化为电子版,轻松完成输入。
其次,在识别的效果层面,除了对印刷体的识别,讯飞输入法还支持手写体识别,即使角度扭曲、图片模糊、超远距离,依然可以准确识别。语言方面,除了中文还支持英、日、韩、德等多种主流语种语言的识别输入,中英文混合识别。
此外,讯飞输入法“智能拍照输入”扩展了输入的智能性,其智能批改功能,用户通过简单的拍照操作就可以完成对小学数学多种题型的批改。
智能拍照输入是如何克服研发难题的?
针对以上几个产品特点,程坤也介绍了讯飞在研发过程中遇到的技术难点以及解决方案。
程坤谈到,图像识技术实际上也是一种感知智能,在产品研发过程中,需要借助海量训练的数据,而得到这些数据的渠道和方法尤为重要,“印刷体的数据在网上很容易找到,然而手写体由于不同人书写风格的不同,加以光线等影响因素,数据很难得到。”程坤表示。为了解决这个问题,讯飞通过自然场景的数据增强技术,采用人工智能技术生成批量训练数据,解决了前期数据量不足的问题。
同时,针对数学公式的识别,印刷体的识别相对较易实现,但手写体的识别,依然存在极大挑战。程坤介绍,由于数学公式涉及左右、上下等符号角标,考虑符号与符号之间较小的像素比,导致很多情况下难以区分。此外,不同人的书写习惯也存在很大差异。为了能提高数学公式的识别准确度,科大讯飞采用了基于树形结构建模的解决方案。首先从局部识别,区分符号大小,排除干扰因素,进而提取需要进行识别的主体,大大提升了识别效果。
人工智能技术让输入更快更准更聪明
谈到这一功能的研发初衷,程坤表示:“一开始是因为看到了各种各样的用户需求,比如很多人都经历过的想要把图片或者pdf,书报杂志、手写的会议纪要上的文字快速变成可编辑的电子版,或者购买、查看一些商品/物品使用说明是小语种,或者一些数学公式不知道怎么输入,当时就想,作为手机端高频应用服务的输入法,能否将这些用户需求一并考虑进来,扩大信息输入的外延,借助科大讯飞新一代视觉A.I.技术,让大家在不同应用场景下通过手机拍照功能实现文字信息一键录入,我们认为,输入法绝对不止是单纯的打字工具,更是一个集信息输入、查询、获取、娱乐于等各种功能的信息处理平台,希望能通过人工智能技术探索新的输入方式,满足用户不断变化的需求。”
在程坤看来,这也是整个讯飞输入法产品功能的研发动因,希望基于科大讯飞在人工智能领域的一系列积累,以及对于用户使用痛点的不断挖掘,从而不断提出可行性解决方案。“讯飞输入法现阶段的发展重点就是不断将AI技术融入到更多的使用场景中,为用户提供系统化的输入解决方案,满足用户在不同场景下的个性化输入需求。”
被问及讯飞输入法的产品愿景,程坤将其阐述为三个层次:场景化、人群多元化以及智能情感化。程坤谈到,例如用户在即时通讯和游戏时使用输入法,就存在明显的使用场景的差别,而对于不同的用户人群,例如学生、商务人士、老人等,又有基于不同使用需求的人群划分。“年轻人喜欢游戏、喜欢皮肤表情,而商务人士也许只需要高效输入。”程坤表示,基于此。讯飞推出诸如“长辈模式”、“无障碍模式”等,希望针对不同人群的使用习惯,满足他们的输入体验。
最后,程坤希望讯飞输入法在更智能的同时,可以拥有更加感性的使用体验。程坤认为,目前的用户与输入法的交互,更多的是一个被动的过程,讯飞输入法希望借助科大讯飞人工智能技术的持续发展和进步,朝着更快更准更聪明的方向迈进,使输入法产品演变为具备陪伴功能的情感化产品,最终进化成一个有情感、智能的助手角色。