谷歌发布全新多模态直播 API 开启 AI 音视频交互新时代

2024-12-13 10:23:56 | 文白不白 | 2424

12月13日，在昨日的发布会上，谷歌正式推出了全新的多模态直播（Multimodal Live）API，为开发者提供了一个功能强大的工具，支持实时音频和视频流交互。这一创新技术旨在推动 AI 与用户之间的互动体验，进一步接近自然流畅的人类对话模式。

多模态直播 API 实现了低延迟、双向的文本、音频和视频交互，支持用户通过音频和文本形式与 AI 进行实时对话。以下是其主要特点，实时视频理解：用户可以通过摄像头拍摄或共享屏幕，AI 能够实时分析视频内容并提供相关回答。无缝交互：用户可以随时打断模型的回答，进行进一步提问或补充信息，实现更自然的交互体验。多模态输出：支持音频和文本形式的同步输出，满足多场景需求。

谷歌表示，该 API 已向开发者开放，同时推出了一款多模态实时助手的演示应用，展示了其强大的功能。例如，用户可以通过摄像头实时展示一个物体，并询问 AI 其功能或用途，或者共享屏幕录像并就其中的内容进行提问。

多模态直播 API 支持集成多种工具，开发者只需一次 API 调用，即可完成复杂的用例。例如，开发者可以快速构建一个支持实时音视频交互的教育应用，或是一个能够分析共享屏幕内容的企业协作工具。谷歌还强调，该 API 的设计注重低延迟和高可靠性，确保用户在实时交互中获得最佳体验。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。