风君子博客5月15日消息,尽管OpenAI抢在Google I/O 2024大会之前发布了新的大模型和音视频互动功能,但是今天,Google一口气发布了20多项AI大招,算是狠狠扳回一局。
这些Google AI大招中,在应用端能很快就能让用户感知到的就有AI搜索和AI安卓系统等。
AI搜索
众人期待的AI搜索并没有在昨天OpenAI的发布会上亮相,而在今天Google I/O 2024大会,Google和Alphabet CEO Sundar Pichai花了长篇幅来介绍其最新的AI搜索。
这些AI搜索能力包括:
1、AI Overviews功能,相比传统搜索引擎的结果,它为用户呈现出完整的包括观点、见解、链接的答案等。Google宣布即日起向每位美国用户推出基于Gemini改进的搜索体验,本周将向更多国家开放。
AI Overviews支持更复杂的搜索。
比如,你想找一个合适的普拉提工作室,需要同时考虑时间、价格、距离等因素。你可以在Google搜索输入:“找到波士顿最好的瑜伽或普拉提工作室,告诉我他们的详细介绍,以及从比肯山步行的时间。”
AI Overviews引入多步推理功能(Multi-step reasoning),把大问题分解为小部分,并判断优先顺序。
比如,搜索类似于“为一组人创建一个易于准备的3天膳食计划”,你会得到一个从网上广泛的食谱,还能直接将食谱中用到的食材等导出成购物清单。这意味着用户仅需提问,就能将所需的一切加入购物车。
此外,Google搜索还将很快推出视频搜索功能。例如,你在旧货店买了一个唱机,但当你打开它时,它不工作了,带针的金属片出现了漂移。你可以录制唱片机故障视频并提问搜索如何解决,你会得到一个解决步骤和资源,以解决问题。
2、加持Gemini模型能力后更强的照片搜索(Ask Photos)功能;
使用该功能,用户可以以自然的方式询问您想要的内容。
例如:“给我看看我去过的每个国家公园里最好的照片。”Google Photos就会显示你需要的哪些照片,节省了你滚动寻找的时间。
Ask Photos将在今年夏天推出。
此外,Google还表示,其AI搜索将很快推出多轮推理能力,可将复杂问题分解处理,将原本需要几分钟甚至几个小时的研究压缩到在几秒钟内完成,还将支持在搜索中对视频提问等等。
AI安卓
也是在Google I/O 2024大会前一周,有外媒放风,称苹果正在考虑将OpenAI的技术整合到其下一代iPhone操作系统iOS 18中,并计划在今年晚些时候为iPhone推出一些新功能时使用OpenAI的技术。
不过,关于苹果和OpenAI合作的细节仍处于讨论和计划阶段,具体合作内容和时间表尚未最终确定。
而在Google I/O 2024大会上,Google宣布把AI直接嵌入到了安卓操作系统中,打造AI安卓——“首个内置端侧AI的移动操作系统”。并直接甩出了未来将要具体落地AI的安卓版本——安卓15 Beta 2。
这意味着,把Gemini用在安卓系统底层后,所有搭载安卓系统的手机,只要升级到安卓15 Beta 2及以后版本,都可能会享受到Google Gemini的AI能力。
一直以来,苹果iOS生态自成一系,iOS系统的稳定好用是苹果手机产品维持高价值的重要因素。
这次,Google率先将安卓系统和Gemini合体,AI安卓抢得先发优势,压力给到了苹果iOS。
具体来看,在安卓上体验Google AI的方式包括:
1、画圈搜索(Circle to Search):也就是哪里不会圈住哪里。你可以用一个简单的手势圈住搜索手机上的任何东西——而不需要停止你正在做的事情或切换到不同的页面。
例如,当学生圈出一个他们被卡住的提示时,他们会得到解决问题的一步一步的指示,而不需要离开当前页面。
Circle to Search目前已经在超过1亿台设备上使用,有望在今年年底前将这一数字翻一番。
2、交互体验:用户将很快能够在所在的应用程序上方调出 Gemini 的叠加层,以便更轻松地以更多方式使用 Gemini。
例如,您可以将生成的图片拖放到Gmail、Google Messages和其他地方,或者点击”询问此视频”,在YouTube视频中查找特定信息。
该更新将在未来几个月内推出到数以亿计的设备。
3、Gemini Nano 的多模态功能将引入 TalkBack,帮助视力受损或低视力的人们获得更丰富、更清晰的图像描述。
Gemini系列大模型
当然,Google I/O 2024大会上最大的篇幅都是在讲,能让Google能够脚踢苹果iOS、拳打OpenAI的AI搜索背后的”大功臣“—— Gemini系列大模型。
会上,Google发布了包括Gemini 1.5 Flash轻量级模型、Gemini 1.5 Pro进阶版、视频生成模型Veo、文生图模型Imagen 3、音乐生成模型 Lyria等以及即将发布的下一代开源大模型Gemma 2。
1、 Gemini 1.5 Flash:一个比 Gemini 1.5 Pro 更轻量级的模型,拥有 100 万的上下文窗口,旨在快速高效地进行规模化服务。
Gemini 1.5 Flash 在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。
2、Gemini 1.5 Pro:上下文窗口扩展到 200 万个 tokens ,另外还通过数据和算法的进步增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解。
Gemini 1.5 Pro 可以对 Google AI Studio 中上传的视频进行图像和音频推理。同时,Gemini 1.5 Pro 已经整合到 Google 产品中,包括 Gemini Advanced 和 Workspace 应用程序。
目前,100 万 tokens 上下文窗口的Gemini 1.5 Pro 和Gemini 1.5 Flash 目前都已在 Google AI Studio 和 Vertex AI 中发布公开预览版。使用 API 的开发者和 Google Cloud 客户还可以通过候补名单获取 200 万 tokens 上下文窗口的Gemini 1.5 Pro。
3、将在未来几周内推出开源模型Gemma 2:Gemma 2 采用了一种新型架构,Gemma 2 27B性能媲美Llama 3 70B,尺寸不到Llama 3 70B的一半。
4、视频模型 Veo:可以生成高质量的 1080p 分辨率视频,时长可超过一分钟。Veo 基于多年的生成视频模型工作,包括生成查询网络(GQN),DVD-GAN,Imagen-Video,Phenaki,WALT,VideoPoet 和 Lumiere — 结合架构、scaling laws 和其他新颖技术,以提高质量和输出分辨率。
5、高质量文生图模型 Imagen 3:Google目前质量最高的文本到图像模型,能够生成具有更好细节、更丰富光线和比先前模型更少干扰性伪影的图像。
6、音乐生成模型 Lyria:除了该模型外,还在开发一套AI音乐创作工具Music AI Sandbox。
还有更多模型,这里不一一列出了。有需要可以阅读Google文档。