谷歌I/O大会周二拉开帷幕 推出Gemini 1.5 flash大模型、VideoFX等

风君子博客5月15日消息,据外媒报道,虽然OpenAI抢先推出了新一代AI大模型GPT-4o,抢走了谷歌I/O大会的不少风头,但从大会的进展来看,谷歌过去一段时间在人工智能上仍在不懈探索,他们在当地时间周二上午开始的大会上推出了众多的人工智能产品,包括大语言模型、视频生成模型,搜索等诸多应用在人工智能的加持下也有了更强的能力。

大模型方面:升级Gemini 1.5 Pro 推出Gemini 1.5 flash

谷歌在去年12月份推出了原生多模态大模型Gemini 1.0,有Ultra、Pro 和Nano三种不同尺寸的版本,并在几个月之后推出了100万token文本容量的Gemini 1.5 Pro。

在当地时间周二的I/O大会上,谷歌宣布推出Gemini家族的新模型Gemini 1.5 flash,也是100万token文本容量,较Gemini 1.5 Pro相比是轻量化的模型,专门为更快和更有效的大规模应用设计。

而对于几个月前推出的Gemini 1.5 Pro,谷歌也宣布将文本容量由此前的100万token,升级到200万token。

Gemini Nano大模型也进行了升级,由此前的纯文本输入,扩大到图像。

除了Gemini系列大模型的升级,谷歌在大会上公布了他们开源大模型Gemma的新进展,宣布了用于AI创新的新一代开源大模型Gemma 2,有新的架构。从谷歌方面公布的消息来看,Gemma系列开源大模型,采用了研发Gemini大模型相同的技术。

同OpenAI一样,谷歌旗下谷歌DeepMind的使命也是打造有益于人类的人工智能,他们也一直致力于研发有助于日常生活的通用人工智能,在I/O大会上,他们也分享了为未来打造的人工智能助手Project Astra项目的进展。Project Astra是一款目前仍在研发中的产品,是具有视频理解能力的研究原型。

AI应用及工具方面:升级搜索、ImageFX、MusicFX等

对原有大模型进行升级,并推出了新的大模型的谷歌,也将大模型引入他们的应用中,包括搜索、VideoFX、ImageFX、MusicFX等。

谷歌发源于搜索,搜索也是他们重要的业务,他们也已经将Gemini大模型应用到了搜索中。而作为搜索生成体验的一部分,谷歌在过去的一年响应了数十亿次搜索请求,用户也在用全新的方式搜索,进行更长和更复杂的搜索,甚至用图片搜索。

而在Gemini的加持下,谷歌也对搜索进行针对性的升级,他们也能为用户带来更强的搜索体验,他们在大会上也宣布推出“AI Overviews”这一全新的体验,本周开始向美国用户推出,随后将推向更多的国家。

在引入Gemini后,谷歌照片应用也将进化。谷歌方面表示,9年前他们推出的这一应用,在用户中广泛使用,现在每天上传超过60亿张照片和视频。

谷歌照片应用在今年夏天将推出「询问照片(Ask Photos)」功能,基于Gemini模型,可以让用户以自然语言搜索照片和视频中的人物、宠物、地点等,它能理解照片的上下文和主题,找到特定的回忆信息,无需滑动屏幕。

在今年的I/O上,谷歌也宣布对创作工具ImageFX、MusicFX进行升级,并推出人工智能视频生成工具VideoFX。ImageFX自2月份推出以来,已被广泛用于视觉艺术项目的图片生成,他们宣布这一应用将增加编辑控制功能和Imagen 3,后者是谷歌DeepMind目前最新和能力最强的图片生成模型。

AI视频生成工具VideoFX,由谷歌DeepMind最新的视频生成模型Veo驱动,是他们最新的实验工具,通过文本提示,可以让用户把想法变成视频,也将率先面向美国用户推出。

谷歌方面披露,人工智能图像生产工具ImageFX、人工智能音乐创作工具MusicFX,目前已推广到了全球110多个国家。(海蓝)

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注