谷歌I/O大会发布新品

速递：谷歌I/O大会发布一览，省流版

一句话：模型+Agent平台+全线产品Agent化，谷歌正在用自己庞大的产品矩阵作为Agent的手脚和场景，把模型能力转化为用户离不开的日常自动化

两个新模型Gemini Omni和Gemini 3.5，产品侧：搜索、Gemini Spark+Daily Brief个人助理、智能购物车Universal Cart、眼镜、Ask YouTube等等

1、Gemini Omni
谷歌新搞的模型系列，能从任意输入生成任意输出的全能型模型，首批落地能力他们从视频生成开始，未来支持图像、音频等输出

Omni同时具备理解和生成能力，统一处理文本、图像、音频、视频的任意组合输入，生成视频输出

能力上，能对话式视频编辑，用自然语言逐步修改视频，每条指令基于上一条累积效果，这个功能挺颠覆性的

也就是说AI视频生成将从抽卡式生成迈入可迭代、可精修、可对话的交互式创作阶段

编辑上支持环境替换、动作重想象、多轮精修等

另外你也可以生成外观和声音都像自己的数字分身，只能生成用户自己的分身

目前这个系列中的首款模型Gemini Omni Flash已上线，Gemini App、Google Flow、YouTube Shorts可用

2、Gemini 3.5
定位：智能+行动能力，主打Agentic任务执行
先上了Gemini 3.5 Flash，3.5 Pro在内部测试，下月上

在编程、Agentic、UI控制、多模态、金融分析等任务上超Gemini 3.1 Pro，长上下文检索、抽象推理、经济价值知识工作等深度认知任务上落后Claude Opus 4.7 、GPT-5.5。在速度上说是其他前沿模型的4倍

3、基于3.5 Flash搞了个个人AI智能体：Gemini Spark

7*24替你干活的小伙伴儿，可以设置循环任务、学习新技能、创建完整工作流，好处是深度集成了Gmail、Docs、Slides等Workspace

目前小范围测试，下周向美国Ultra订阅用户开放Beta版

macOS桌面版今年夏天接入，可操作本地文件、自动化桌面工作流

4、Google Search，25年来最大改版

（1）首先搜索框变聪明了
输入框能自动变大，支持长描述
能意图预测，不只自动补全，是主动帮你构建完整问题
支持文字、图片、文件、视频、Chrome 标签页混合输入

（2）还给搞了个Search Agent
你提需求，Agent后台持续监控全网信息+实时数据，发现变化就通知你，还能直接执行操作

比如你要租房，输入需求，AI持续扫房源，有合适的就推给你；比如监控运动员联名款，发售立即提醒

（3）搜索框里可以直接写代码
搜索可以实时生成交互式图表、模拟器、自定义仪表盘

5、Universal Cart智能购物车
可以说是Agent时代“智能代购”的基础设施

（1）可以跨平台一处加购
比如说谷歌搜索里看到一双鞋，加购、YouTube视频里看到博主推荐的化妆品，加购、Gmail邮件里的商品链接，加购，购物车就变成了你的个人购物中枢

（2）核心是它会后台主动监控
自动找优惠，发现降价、 deals 立即提醒
价格历史洞察、补货提醒

（3）一键结账
可以Google Pay一键付，也可以跳转商家官网付

6、智能眼镜Intelligent Eyewear
定位是戴在你脸上的Gemini Agent，它看你所看、听你所听，能回答、能导航、能翻译、能拍照、能后台代你下单

两种形态
音频眼镜：语音播报+定向扬声器，类似智能耳机+眼镜框，今年秋季上市
显示眼镜：在眼前叠加视觉信息

连接手机使用，同时支持Android和iOS手机配对
隐私音频，定向扬声器旁人听不到

7、Google Workspace AI升级
首先Gmail、 Docs、Keep支持语音交互了，说话搜邮件、说话起草文档、说话记笔记

第二个基于最新Nano Banana Google Pics支持精准编辑了

AI Inbox支持自动生成邮件回复草稿、相关文件自动浮现、一键批量标记某类邮件已读了

8、Gemini App 升级
首先换脸了，Neural Expressive新界面，语音对话直接内置，打字和说话无缝切换

换芯了，用Gemini 3.5 Flash，视频用Gemini Omni

回复时图片、视频、动态图表混排，不再是大段文字

还有一个Daily Brief功能，每日读你的Gmail、Google Calendar信息，判断优先级，然后生成一份带有建议的简报

#谷歌I/O大会##Gemini Omni##Gemini 3.5#

发布于山西