世界数字技术院发布大模型安全标准 推动AI安全评估新进程
最近,世界数字技术院(WDTA)发布了两项国际标准,即《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》,这标志着国际组织首次就大模型安全领域发布了国际标准,为全球人工智能安全评估和测试树立了新的基准。
这两项标准的发布是多家知名单位的多名专家学者共同编制的成果,包括OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等。《生成式人工智能应用安全测试标准》由WDTA牵头制定,为测试和验证生成式AI应用的安全性提供了一个框架,特别是那些使用大语言模型(LLM)构建的应用程序。该标准定义了人工智能应用程序架构每一层的测试和验证范围,确保AI应用各个方面都经过严格的安全性和合规性评估,保障其在整个生命周期内免受威胁和漏洞侵害。
《大语言模型安全测试方法》由蚂蚁集团牵头制定,为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案。该标准提出了大语言模型的安全风险分类、攻击的分类分级方法以及测试方法,并给出了四种不同攻击强度的分类标准,可解决大语言模型固有的复杂性,全面测试其抵御敌对攻击的能力。
WDTA人工智能安全可信负责任工作组组长黄连金表示,随着人工智能系统,特别是大语言模型的广泛应用,制定全面的安全标准变得至关重要。这些标准汇集了全球AI安全领域的专家智慧,填补了安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高AI系统安全性,促进AI技术负责任发展,增强公众信任。