谷歌Gemini Live推出实时AI视频功能 可“看”屏幕内容并实时解答
3月24日,谷歌发言人亚历克斯・约瑟夫向The Verge证实,谷歌已开始向Gemini Live推送新的人工智能功能。这些功能使Gemini能够“看到”用户的屏幕内容,或通过智能手机摄像头获取画面,并实时回答相关问题。
据悉,这些功能基于谷歌去年5月在2024年I/O开发者大会上展示的“阿斯特拉项目”(Project Astra)。该项目是谷歌最新的多模态AI项目,能够本地运行在Pixel手机上,被视为对标OpenAI GPT-4o的最新模型。
谷歌表示,Project Astra可以直接解释用户摄像头画面中的物品,为用户提供更直观的交互体验。此次Gemini Live新功能的推出,标志着谷歌在多模态AI领域又迈出了重要一步。