近几年春节,支付宝扫福集五福卡似乎成了一项保留节目,今年同样也没例外,支付宝已经打出了“集齐五福,拼手气分5亿”的口号,通过AR扫福获得福卡,集齐五福后即可获得抽奖的机会,2月11日22:18开奖。
读者朋友们有没有集齐五福呢?
也许有些朋友在扫福的时候会有这样的好奇心:为什么手机扫一扫福字就可以识别出福卡呢?手机也有看懂事物的能力了?
实际上,这就是智能手机的视觉能力。也许读者朋友们不知道的是,这样的视觉能力已经在手机上有着各种各样的体现了。
视觉是生物独有的技能,让手机能够看懂事物,从某种意义上来说也是一种仿生学,其方式与生物视觉大致相同。
比如我想从收纳盒中找到手表,首先需要眼睛获取图像,由大脑对图像进行处理让我们看到画面。
然后大脑对画面进行分析,识别出手表,于是我就找到了目标。
想要让手机看懂事物,也需要大致相同的一个过程:首先对画面进行采集,之后对采集的画面进行识别,最终识别到的关键要素触发对应指令,看上去手机也就“看懂”了事物。
实际上,视觉功能在手机上的应用已经非常广泛,只不过是功能不同所需的视觉能力也不同。
现在已经实现普及的手机人脸识别实际上就是一种视觉功能,其实现原理并不复杂:功能触发时,手机前置相机采集用户的人脸图像,采集到的图像与之前录入的图像进行特征点比对,当达特征相似点到一定比率时,手机即可触发解锁。
我们在文初说到的AR扫福实际上也是一样的,手机扫描的图像通过网络传至云端服务器,该服务器会对图像进行特征点抓取。
当抓取的特征点与其“认知”的福字信息相匹配时,系统就成功扫描到了福字。相信其中非常关键的一点读者朋友们也注意到了:计算机的认知。
拍摄中的场景识别计算机本身不具备辨识的能力,但拥有计算能力的计算机就像一个牙牙学语的孩子一样,需要通过学习来掌握辨识的能力。
不同的视觉功能需要学习的内容不同,难易程度也不同。比如刚才提到的人脸识别,在信息录入时学习到充分的人脸信息就可以;
当前比较流行的手机拍照AI场景识别,就需要对场景分别进行学习,之后才能识别出对应的场景。
刚才我们提到了手机的AR扫福、面部识别、拍照场景AI识别,其实这只是手机视觉功能的一些入门级应用。随着手机AI技术的发展,越来越多实用、有趣的视觉功能被开发出来。
这样的场景相信不少读者朋友都遇到过:想搜个字,但是这个字不认识,笔画还挺多;想翻译墙上或者书上的一段外文,但用翻译软件的话得一个字母一个字母输入非常麻烦;
想搜个实体物体的信息,但不知道这东西叫啥……
简单的说,这样的场景就是需要用户用自己的视觉功能将信息转化成手机可以识别的形式,但这样的转化过程容易出现障碍,或者操作起来比较麻烦。
但手机如果有了视觉能力,需要用户用自身视觉转化信息的过程就省略掉了,障碍和麻烦自然就不存在了,比如——
手机视觉具备文本识别能力后,只需要手机识别就可以将书上、图片上的文字转化成文本,大大提升了输入效率。
手机“看见”外文后,就直接翻译成用户可以看懂的文字了,再也不用字母一个一个地输入了。
前不久垃圾分类成了热门话题,但怎么分类却难倒了不少朋友。如果手机能够看到垃圾并且帮我们分类是不是就简单很多了?
垃圾分类只是物体识别应用的一种,另一种应用就是扫描购物。我们无须再手动输入产品品牌和名称,手机扫一下就可以识别出商品了。
比较典型的场景就是出行。比如一些新手司机们可能看不懂仪表盘上的故障灯,只需要用手机扫一下就可以分辨故障灯信息,帮助用户便捷快速了解车辆潜在风险。
当前主流的地图软件已经支持了AR导航。手机可以实现对道路场景的识别,并且直接在实际的路线画面中给出导航指示。
此外,AR测量也是典型的场景识别应用。我们可以直接通过手机视觉能力来测量现实中的物体长度,而且可以做到较高的精度。
就跟文初提到的扫福一样,手机视觉除了实用价值以外,还有趣味类的应用——
也许有些朋友会说,这个我知道,动画表情就是。没错,通过AR技术实现的动画表情目前已经非常常见了,我们来说点不常见的:对人体进行建模然后进行动作控制。比如踢个瓶盖、来段尬舞……
现在很多游戏都支持了AR拍照,即将游戏中的角色与摄像头采集到的现实画面结合进行拍照,我们可以通过这项功能与游戏角色进行合影。
另外就是AR游戏了,比如几年前爆火的《Pokemon Go》就是典型的例子。
是不是没想到,手机视觉功能原来已经有这么多了?
实际上,以上列举的还并不是当前全部的功能支持,比如还有红酒识别、食物热量识别、美妆试妆等等。
当然,手机视觉在未来还有着更加广阔的发展空间,比如AR试穿衣服、AR试放家居等等。
从更长远的角度来说,未来会有更多的视觉辅助功能进入到我们的生活中,比如当前就已经具备雏形的AR眼镜,它可以为我们创造一个不仅能看到,而且可以进行交互的、切合真实场景的数字世界。
当前的手机视觉功能无疑正是建立这个数字世界的开端。怎么样,是不是突然就有些期待了呢?