OpenAI 推出 GPT-4o 语音模式 ChatGPT Plus 用户的全新体验

2024-07-31 10:03:38 | 弘乐 | 1271

7月31日，OpenAI 宣布部分 ChatGPT Plus 用户将即日起开始测试全新的 GPT-4o 语音模式（Alpha 版本），并计划在今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。

今年 5 月，OpenAI 首席技术官米拉・穆拉蒂（Mira Murati）在一次演讲中介绍了 GPT-4o 的创新之处。她表示：“在 GPT-4o 中，我们训练了一个全新的跨文本、视觉和音频的端到端统一模型，这意味着所有输入和输出都由同一个神经网络处理。”由于 GPT-4o 是首个结合所有这些模式的模型，OpenAI 目前仍在探索该模型的功能及其局限性。

原计划在今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式，但由于需要更多时间来打磨该模型，提高其检测和拒绝某些内容的能力，官方在 6 月宣布推迟测试。此前曝光的信息显示，GPT-3.5 模型的平均语音反馈延迟为 2.8 秒，而 GPT-4 模型的延迟为 5.4 秒，因此在语音交流方面不太优秀。即将推出的 GPT-4o 则可以极大地缩短延迟时间，近乎实现无缝对话。

据铋读网了解，GPT-4o 语音模式不仅反应快速，其声音更是堪比真人。OpenAI 表示，GPT-4o 语音模式可以感知语音中的情感语调，包括悲伤、兴奋或歌唱。

OpenAI 发言人林赛・麦卡勒姆（Lindsay McCallum）表示：“ChatGPT 不能假冒他人的声音，包括个人和公众人物的声音，并且会阻止与预设声音不同的输出。”

随着 GPT-4o 语音模式的逐步推广，用户将能够体验到更加自然和流畅的语音交流。这不仅是技术上的突破，也为未来的人机互动设立了新的标准。OpenAI 在不断探索和提升的道路上，致力于为用户带来更优质的体验。

OpenAI 的这一最新进展，预示着人工智能技术在语音交互领域的又一次飞跃。我们期待着在不久的将来，更多用户能够体验到 GPT-4o 带来的全新语音互动体验。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。