谷歌:Android 手机,听我的,AI 要这么做

文章来源:极客公园

作者 | 芯芯
编辑 | 靖宇

抢先苹果一个月,Google 将 AI+手机的可能性,全都展示在了自己的 Pixel 新机之中。

当地时间 8 月 13 日,Google 发布了 Pixel 9、Pixel 9 Pro 以及二代折叠屏 Pixel 9 Fold、智能手表、耳机等硬件新品。


相比于硬件,人们更关注,在 AI+手机如此火热的当下,作为 Android 系统的管理者,Google 将会如何将端侧 AI 用于 Android 手机之中。

差不多在10个月前,谷歌推出了第一代 AI 手机,如今不到一年,这家巨头再次更新 Gemini、Android 和 Pixel 的产品组合,这一次,主打的是「竞争对手有的,我也有」模式。

自 OpenAI 推出 ChatGPT 语音模式,以及苹果下一代 iPhone 的 AI 功能曝光以来,同行们能做到的,谷歌都不愿落下,包括 AI 语音对话、搜索屏幕截图中的信息等。与此同时,谷歌也在让 AI 进一步集成进自身的应用生态。

谁才是 AI 手机领头羊,Google 一定要和苹果掰掰手腕。

回应 OpenAI,Gemini Live上线

Gemini 是谷歌各种 AI 产品的基石,也是谷歌 Pixel 9 系列手机上的默认助手,Gemini 在集成进手机时有哪些升级,是发布会上的一大焦点。

谷歌 Pixel 手机上的 Gemini 按下电源按钮即可唤出。据谷歌高管称,从今天开始,用户可以在使用的应用程序上方调出 Gemini 的覆盖层,询问有关屏幕上内容的问题。例如,用户可以询问正在观看的 YouTube 视频的相关问题,用户还可以直接从 Gemini 的覆盖层生成图像,并将它们拖放到 Gmail 和 Google Messages 等应用程序中。

谷歌还计划在「未来几周」让 Gemini 连接更多应用程序,包括日历、 Keep 和 YouTube Music 等。具体的功能用途如,让 Gemini「制作一份让我想起 90 年代末的歌曲播放列表。」「拍下演唱会传单的照片,并让 Gemini 查看那天是否有空——甚至设置提醒来购买门票。」「让 Gemini 在你的 Gmail 中找到一份食谱,并要求它将配料添加到 Keep 中的购物清单中。」

Gemini 使用截图提取信息与更多应用程序互动|图片来源:谷歌

除了这些集成体验外,谷歌还正式上线了 Gemini Live,这一功能可以说是谷歌对 OpenAI 推出的 GPT-4o 高级语音模式的回应。该功能此前在谷歌 2024 年的 I/O 开发者大会上曝光过,今天开始正式推出。

用户可以用手机与谷歌的生成式AI聊天机器人 Gemini 进行语音对话,可以中途打断,提出跟进的问题,对话可以随时暂停和恢复。一些具体用途例子包括,让 Gemini Live 陪你准备工作面试、练习演讲,随便聊聊关心的话题等。

Gemini Live 明显要对标 GPT-4o 的语音交互|图片来源:谷歌

那么,Gemini Live 相较于 ChatGPT 的语音模式有优势吗?

据称,支持 Live 的生成式 AI 模型架构——Gemini 1.5 Pro 和Gemini 1.5 Flash,拥有比平均水平更长的「上下文窗口」,这意味着它们可以在生成响应之前处理和推理大量数据,理论上可以进行长达数小时的对话。

Gemini Live 还可免提使用,用户可以在应用后台或手机锁定时继续进行语音对话,有10 种新声音可以选择。

但值得注意的是,Gemini Live 目前还未上线「多模态输入」功能,据称将于「今年晚些时候」推出。

几个月前,谷歌曾经发布了预录视频,展示了 Gemini Live 如何通过手机摄像头捕捉的照片和视频识别用户周围环境,并做出响应,比如指出损坏自行车的某个部件,或解释计算机屏幕上一段代码的功能,这些都未得到现场的真实演示。

而且,Gemini Live 在 Android 手机上的 Gemini Advanced 订阅用户中推出,并不是免费的。目前它仅提供英文版本,谷歌称「未来几周」将扩展到更多语言,还要通过应用程序扩展到 iOS。

谷歌高管直播演示 Gemini Live|图片来源:谷歌

谷歌 Gemini 体验与谷歌助手方面的…


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

谷歌:Android 手机,听我的,AI 要这么做

https://www.gptnb.com/2024/08/15/2024-08-14-auto4-1ILCXR/

作者

ByteAILab

发布于

2024-08-15

更新于

2025-03-21

许可协议