AMD 推出完全开源的3B参数语言模型 Instella 性能媲美Llama-3.2-3B和Qwen 2.5-3B
3 月 6 日, AMD 今日正式宣布推出全新 3B 参数语言模型 Instella,并全面开源,标志着公司在人工智能 (AI) 领域迈出了重要一步。同时,AMD 还为 Radeon RX 9070 系列显卡开源了 Linux 驱动程序,进一步强化了开源生态系统的支持。
Instella 代表着“完全开源的尖端 30 亿参数语言模型(LMs)”,是 AMD 在 Instinct MI300X GPU 上从头开始训练的 AI 模型。根据 AMD 提供的数据,Instella 的性能与 Llama 3.2 3B、Gemma-2 2B 和 Qwen 2.5 3B 等知名模型相媲美,在语言理解和生成任务中展现出出色的表现。
Instella 模型的核心特点包括,完全开源和可访问性:AMD 公开了模型权重、训练超参数、数据集和相关代码,支持 AI 开发者和研究人员自由使用和定制,为推动 AI 社区的创新与协作提供了强有力的工具。高效训练与性能优化:得益于 Instinct MI300X 硬件的强大算力,Instella 实现了高效的模型训练流程,保证了优异的推理速度和响应能力。
Instella 的发布不仅展示了 AMD 在 AI 领域的技术实力,更体现了公司推动开源生态发展的长期承诺。AMD 强调,Instella 的完全开源策略将为 AI 社区带来更大的灵活性,帮助开发者探索更多实际应用场景,从自然语言处理 (NLP) 到自动化内容生成,再到智能助手和数据分析领域,都具备广泛的应用潜力。
除了 AI 模型的开源,AMD 还宣布为 Radeon RX 9070 系列显卡开源 Linux 驱动程序。这一举措将为开发者提供更多自由,尤其是在构建高性能计算 (HPC) 和深度学习 (DL) 应用时,能更好地利用 AMD GPU 的硬件性能,实现更高效的软硬件协同优化。