字节跳动回应“OpenAI研发大模型致账户被禁”:生成数据已在今年年中删除
12月16日下午,针对“字节跳动秘密使用OpenAI技术研发大模型,导致账户被暂停”一事,字节跳动回应称,GPT生成的数据已经在今年年中左右,从字节跳动的训练数据中删除。
此前,据外媒报道,字节跳动正在秘密使用OpenAI的技术开发自己的大语言模型(LLM)。在人工智能领域,这种做法通常被认为是不合适的。这也直接违反了OpenAI的服务条款,条款规定。据铋读网了解,当字节跳动使用GPT训练他们的人工智能模型的消息曝光后,OpenAI暂停了他们的账户。然而,字节跳动大部分的GPT使用是通过微软Azure平台完成的,而不是直接通过OpenAI。目前还不清楚微软是否会效仿OpenAI,暂停字节跳动的访问权限。
外媒报道称,其获得的字节跳动内部文件证实,字节跳动在几乎每个开发阶段都依赖 OpenAI 的应用程序接口(API)来开发其代号为“种子计划”(Project Seed)的基础大语言模型,包括训练和评估模型。参与“种子计划”的员工都深知这一行为的不良影响。根据字节跳动员工在内部通讯平台飞书海外版 Lark 的聊天记录,他们讨论了如何通过“数据脱敏”来粉饰证据。外媒称,字节跳动员工大量使用 OpenAI 的技术,以至于“种子计划”的员工经常达到 OpenAI API 的最大访问上限。
内部文件显示,字节跳动更多的是在“种子计划”的早期阶段使用 OpenAI 的技术。几个月前,该公司命令该团队在“模型开发的任何阶段”停止使用 GPT 生成的文本。大约在这个时候,该公司获得了批准发布了自家 AI 大模型“豆包”,从而让“种子计划”上线。但是,字节跳动继续以违反 OpenAI 和微软服务条款的方式使用 API,包括评估豆包背后模型的性能。一位对字节跳动内部情况有第一手了解的人指出,“他们说他们想确保一切都是合法的,但他们实际上只是不想被抓住把柄”。
对此,字节跳动发言人约迪・赛斯(Jodi Seth)对此回应称,GPT 生成的数据在“种子计划”的早期开发中用于注解模型,并且在今年年中左右的时候已从字节跳动的训练数据中删除。“字节跳动获得了微软的许可能够使用 GPT API。我们使用 GPT 驱动非中国市场的产品和功能,但使用我们自主开发的模型驱动豆包。豆包只在中国提供。”赛斯在声明中称。
OpenAI 发言人尼克・菲利克斯(Niko Felix)发表声明,确认字节跳动的账户已被暂停。“所有 API 客户必须遵守我们的使用政策,以确保我们的技术被用于好的一面。虽然字节跳动很少使用我们的 API,但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不符合公司政策,我们将要求他们做出必要的改变或终止他们的账户。”菲利克斯表示。