26-05-20 15:06 微博认证:AI博主

速递:谷歌I/O大会发布一览,省流版

一句话:模型+Agent平台+全线产品Agent化,谷歌正在用自己庞大的产品矩阵作为Agent的手脚和场景,把模型能力转化为用户离不开的日常自动化

两个新模型Gemini Omni和Gemini 3.5,产品侧:搜索、Gemini Spark+Daily Brief个人助理、智能购物车Universal Cart、眼镜、Ask YouTube等等

1、Gemini Omni
谷歌新搞的模型系列,能从任意输入生成任意输出的全能型模型,首批落地能力他们从视频生成开始,未来支持图像、音频等输出

Omni同时具备理解和生成能力,统一处理文本、图像、音频、视频的任意组合输入,生成视频输出

能力上,能对话式视频编辑,用自然语言逐步修改视频,每条指令基于上一条累积效果,这个功能挺颠覆性的

也就是说AI视频生成将从抽卡式生成迈入可迭代、可精修、可对话的交互式创作阶段

编辑上支持环境替换、动作重想象、多轮精修等

另外你也可以生成外观和声音都像自己的数字分身,只能生成用户自己的分身

目前这个系列中的首款模型Gemini Omni Flash已上线,Gemini App、Google Flow、YouTube Shorts可用

2、Gemini 3.5
定位:智能+行动能力,主打Agentic任务执行
先上了Gemini 3.5 Flash,3.5 Pro在内部测试,下月上

在编程、Agentic、UI控制、多模态、金融分析等任务上超Gemini 3.1 Pro,长上下文检索、抽象推理、经济价值知识工作等深度认知任务上落后Claude Opus 4.7 、GPT-5.5。在速度上说是其他前沿模型的4倍

3、基于3.5 Flash搞了个个人AI智能体:Gemini Spark

7*24替你干活的小伙伴儿,可以设置循环任务、学习新技能、创建完整工作流,好处是深度集成了Gmail、Docs、Slides等Workspace

目前小范围测试,下周向美国Ultra订阅用户开放Beta版

macOS桌面版今年夏天接入,可操作本地文件、自动化桌面工作流

4、Google Search,25年来最大改版

(1)首先搜索框变聪明了
输入框能自动变大,支持长描述
能意图预测,不只自动补全,是主动帮你构建完整问题
支持文字、图片、文件、视频、Chrome 标签页混合输入

(2)还给搞了个Search Agent
你提需求,Agent后台持续监控全网信息+实时数据,发现变化就通知你,还能直接执行操作

比如你要租房,输入需求,AI持续扫房源,有合适的就推给你;比如监控运动员联名款,发售立即提醒

(3)搜索框里可以直接写代码
搜索可以实时生成交互式图表、模拟器、自定义仪表盘

5、Universal Cart智能购物车
可以说是Agent时代“智能代购”的基础设施

(1)可以跨平台一处加购
比如说谷歌搜索里看到一双鞋,加购、YouTube视频里看到博主推荐的化妆品,加购、Gmail邮件里的商品链接,加购,购物车就变成了你的个人购物中枢

(2)核心是它会后台主动监控
自动找优惠,发现降价、 deals 立即提醒
价格历史洞察、补货提醒

(3)一键结账
可以Google Pay一键付,也可以跳转商家官网付

6、智能眼镜Intelligent Eyewear
定位是戴在你脸上的Gemini Agent,它看你所看、听你所听,能回答、能导航、能翻译、能拍照、能后台代你下单

两种形态
音频眼镜:语音播报+定向扬声器,类似智能耳机+眼镜框,今年秋季上市
显示眼镜:在眼前叠加视觉信息

连接手机使用,同时支持Android和iOS手机配对
隐私音频,定向扬声器旁人听不到

7、Google Workspace AI升级
首先Gmail、 Docs、Keep支持语音交互了,说话搜邮件、说话起草文档、说话记笔记

第二个基于最新Nano Banana Google Pics支持精准编辑了

AI Inbox支持自动生成邮件回复草稿、相关文件自动浮现、一键批量标记某类邮件已读了

8、Gemini App 升级
首先换脸了,Neural Expressive新界面,语音对话直接内置,打字和说话无缝切换

换芯了,用Gemini 3.5 Flash,视频用Gemini Omni

回复时图片、视频、动态图表混排,不再是大段文字

还有一个Daily Brief功能,每日读你的Gmail、Google Calendar信息,判断优先级,然后生成一份带有建议的简报

#谷歌I/O大会##Gemini Omni##Gemini 3.5#

发布于 山西