谷歌I/O大会周二拉开帷幕推出Gemini 1.5 flash大模型、VideoFX等

风君子博客5月15日消息，据外媒报道，虽然OpenAI抢先推出了新一代AI大模型GPT-4o，抢走了谷歌I/O大会的不少风头，但从大会的进展来看，谷歌过去一段时间在人工智能上仍在不懈探索，他们在当地时间周二上午开始的大会上推出了众多的人工智能产品，包括大语言模型、视频生成模型，搜索等诸多应用在人工智能的加持下也有了更强的能力。

大模型方面：升级Gemini 1.5 Pro 推出Gemini 1.5 flash

谷歌在去年12月份推出了原生多模态大模型Gemini 1.0，有Ultra、Pro 和Nano三种不同尺寸的版本，并在几个月之后推出了100万token文本容量的Gemini 1.5 Pro。

在当地时间周二的I/O大会上，谷歌宣布推出Gemini家族的新模型Gemini 1.5 flash，也是100万token文本容量，较Gemini 1.5 Pro相比是轻量化的模型，专门为更快和更有效的大规模应用设计。

而对于几个月前推出的Gemini 1.5 Pro，谷歌也宣布将文本容量由此前的100万token，升级到200万token。

Gemini Nano大模型也进行了升级，由此前的纯文本输入，扩大到图像。

除了Gemini系列大模型的升级，谷歌在大会上公布了他们开源大模型Gemma的新进展，宣布了用于AI创新的新一代开源大模型Gemma 2，有新的架构。从谷歌方面公布的消息来看，Gemma系列开源大模型，采用了研发Gemini大模型相同的技术。

同OpenAI一样，谷歌旗下谷歌DeepMind的使命也是打造有益于人类的人工智能，他们也一直致力于研发有助于日常生活的通用人工智能，在I/O大会上，他们也分享了为未来打造的人工智能助手Project Astra项目的进展。Project Astra是一款目前仍在研发中的产品，是具有视频理解能力的研究原型。

AI应用及工具方面：升级搜索、ImageFX、MusicFX等

对原有大模型进行升级，并推出了新的大模型的谷歌，也将大模型引入他们的应用中，包括搜索、VideoFX、ImageFX、MusicFX等。

谷歌发源于搜索，搜索也是他们重要的业务，他们也已经将Gemini大模型应用到了搜索中。而作为搜索生成体验的一部分，谷歌在过去的一年响应了数十亿次搜索请求，用户也在用全新的方式搜索，进行更长和更复杂的搜索，甚至用图片搜索。

而在Gemini的加持下，谷歌也对搜索进行针对性的升级，他们也能为用户带来更强的搜索体验，他们在大会上也宣布推出“AI Overviews”这一全新的体验，本周开始向美国用户推出，随后将推向更多的国家。

在引入Gemini后，谷歌照片应用也将进化。谷歌方面表示，9年前他们推出的这一应用，在用户中广泛使用，现在每天上传超过60亿张照片和视频。

谷歌照片应用在今年夏天将推出「询问照片（Ask Photos）」功能，基于Gemini模型，可以让用户以自然语言搜索照片和视频中的人物、宠物、地点等，它能理解照片的上下文和主题，找到特定的回忆信息，无需滑动屏幕。

在今年的I/O上，谷歌也宣布对创作工具ImageFX、MusicFX进行升级，并推出人工智能视频生成工具VideoFX。ImageFX自2月份推出以来，已被广泛用于视觉艺术项目的图片生成，他们宣布这一应用将增加编辑控制功能和Imagen 3，后者是谷歌DeepMind目前最新和能力最强的图片生成模型。

AI视频生成工具VideoFX，由谷歌DeepMind最新的视频生成模型Veo驱动，是他们最新的实验工具，通过文本提示，可以让用户把想法变成视频，也将率先面向美国用户推出。

谷歌方面披露，人工智能图像生产工具ImageFX、人工智能音乐创作工具MusicFX，目前已推广到了全球110多个国家。（海蓝）

谷歌I/O大会周二拉开帷幕推出Gemini 1.5 flash大模型、VideoFX等

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复