谷歌发布全新多模态直播 API 开启 AI 音视频交互新时代
12月13日,在昨日的发布会上,谷歌正式推出了全新的 多模态直播(Multimodal Live)API,为开发者提供了一个功能强大的工具,支持实时音频和视频流交互。这一创新技术旨在推动 AI 与用户之间的互动体验,进一步接近自然流畅的人类对话模式。
多模态直播 API 实现了低延迟、双向的文本、音频和视频交互,支持用户通过音频和文本形式与 AI 进行实时对话。以下是其主要特点,实时视频理解:用户可以通过摄像头拍摄或共享屏幕,AI 能够实时分析视频内容并提供相关回答。无缝交互:用户可以随时打断模型的回答,进行进一步提问或补充信息,实现更自然的交互体验。多模态输出:支持音频和文本形式的同步输出,满足多场景需求。
谷歌表示,该 API 已向开发者开放,同时推出了一款多模态实时助手的演示应用,展示了其强大的功能。例如,用户可以通过摄像头实时展示一个物体,并询问 AI 其功能或用途,或者共享屏幕录像并就其中的内容进行提问。
多模态直播 API 支持集成多种工具,开发者只需一次 API 调用,即可完成复杂的用例。例如,开发者可以快速构建一个支持实时音视频交互的教育应用,或是一个能够分析共享屏幕内容的企业协作工具。谷歌还强调,该 API 的设计注重低延迟和高可靠性,确保用户在实时交互中获得最佳体验。