腾讯云AIGC存储解决方案全面升级 搭载自研引擎让研发效率翻倍
随着人工智能技术的飞速发展,大规模模型已成为推动AI应用领域进步的关键。4月8日,腾讯云宣布云存储解决方案面向AIGC场景全面升级,能够针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。
腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾经表示,大模型将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱、元象等明星大模型企业。
剖析腾讯云的AI云存储解决方案产品组成
腾讯云AIGC云存储解决方案主要由多款产品组成,包括对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等。其中,COS支持百EB级别的存储规模,提供多种协议支持,满足大规模数据采集需求;而CFS Turbo在模型训练环节,通过自研技术实现了每秒总读写吞吐达到TiB/s级别的性能,极大地提升了训练效率。
AI大规模模型的研发生产流程面临着诸多挑战,包括数据采集清洗、模型训练和推理等多个环节。针对这些难题,腾讯云提出了一系列解决方案。例如,在数据清洗环节,通过自研的数据加速器GooseFS,实现了高达数TBps的读取带宽,极大地提升了数据清洗效率。在模型训练环节,CFS Turbo的优化更是将3TB checkpoint写入时间从10分钟缩短至10秒内,有效提高了训练效率。
其中,腾讯云对象存储COS支持单集群管理百 EB 级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。在数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,支撑计算高速运行,大大提升数据清洗效率。
在模型训练环节,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚,因此快速地读写checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键。
腾讯云自主研发并行文件存储CFS Turbo ,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。3TB checkpoint 写入时间从10分钟,缩短至10秒内,使大模型训练效率大幅提升。
大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索“业务全流程提供有力支撑,优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。
同时,随着训练数据和推理数据的增长,需要提供低成本的存储能力,减少存储开销。对象存储服务提供了高达 12 个 9 的数据持久性和 99.995% 的数据可用性,能够为业务提供持续可用的存储服务。
起底腾讯云自主研发存储引擎
腾讯云的卓越性能得益于自主研发的存储引擎与技术。作为国内唯一实现存储引擎全面自研的云存储解决方案,腾讯云凭借其分布式对象存储引擎YottaStore和并行文件存储系统CFS Turbo等自研技术,在性能、可靠性和成本等方面都具备了显著优势。
腾讯云自研的分布式对象存储引擎YottaStore,支持任意多副本及纠删码冗余模式并存,在大幅提升可用性、可靠性及性能的同时大幅降低成本。基于YottaStore,腾讯云对象存储服务COS作为统一的数据存储池,支持单集群1万台服务器,单集群百EB级的存储。
在数据清洗环节中,数据加速器GooseFS可根据数据的使用频率,将数据智能存储至内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,低成本缩短IO路径,提升数据访问性能。相比起从对象存储COS中直接读取,GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。
面向模型训练场景的CFS Turbo,则是目前业内唯一自研的并行文件存储系统。
基于自研分布式高性能存储引擎Histor,CFS Turbo底层通过自研用户态协议栈和RDMA等技术,减少数据的多次拷贝与虚拟化消耗,大幅降低了存储时延、提升吞吐性能;在应用侧,CFS Turbo自研并行文件传输协议,实现了多链路并行访问,大大提升了吞吐效率。原来的文件存储受限于传统NFS协议,单客户端只能单链路访问,也导致吞吐存在性能瓶颈。
此外,针对AIGC的checkpoint记录、大视频文件读写、小图片读写等场景,腾讯云CFS Turbo还自研了分级缓存、自适应条带化、分布式元数据的技术,大幅提升了AIGC场景下的读写性能。除了大模型企业以外,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等仿真场景,墨镜天合、追光等影视特效场景。
写在最后:
在人工智能时代的浪潮中,大规模模型已成为推动科技创新和产业发展的核心引擎。有数据机构表示,在2023年中国云存储解决方案市场报告中,腾讯云存储入选“领导者”阵营,位列第一。随着AI时代的到来,腾讯云不断迭代优化自身产品,服务最新场景需求,助力企业把握时代红利。
作为中国领先的云计算服务提供商,腾讯云以自主研发的先进技术和全面的解决方案,为AI时代的到来铺设了坚实的基础,为企业的创新和发展注入了新的活力与动力。未来,随着人工智能技术的不断发展,腾讯云将继续致力于打造更适合大规模模型的云服务,为AI应用的发展提供持续支持。