导读
THECAPITAL

传统数据存储架构在支撑大模型快速迭代升级过程中暴露出承载瓶颈,以AI原生存储为代表的新型AI存储具备超高性能、超大容量、极致安全、数据编织等特征,可以有效支撑大模型数据归集、预处理、训练、推理等全生命周期流程。
本文13510字,约19分钟
作者 | 融中咨询
来源 | 融中咨询
(ID:gh_fdc07527ac52)
行业概述
(1)背景
伴随人工智能大模型的高速发展,数据量呈指数级增长,存储产业迎来新一轮的增长。根据IDC和华为GIV团队预测,全球每年新产生的数据总量随着AI的发展快速增长,从2020年每年产生2ZB到2025年每年产生175ZB,2030年将达到1,003ZB,即将进入YB时代[1]。
图1:全球每年新产生的数据总量预测(ZB)
来源:华为
人工智能大模型快速迭代创新,其研发生产各阶段都对存储提出了新的要求。
在数据采集与清洗环节,由于原始数据规模大、来源多样、种类丰富,需要构建大容量、低成本、高可靠的数据存储底座,并且用标准文件的方式完成海量数据的清洗和转换,以缩短数据预处理的时长。
在模型训练与推理应用环节,由于主流预训练模型训练过程不稳定,需要用Checkpoint(检查点)机制来确保训练回退到还原点,因此,要求存储能快速读写Checkpoint文件。
此外,为保证大模型生成的内容是合法、合规的,存储需要提供比较丰富的数据审核能力。
同时,各企业采用的算力、算法逐渐收敛,数据成为真正体现大模型差异性的关键要素。训练数据的体量与质量对提升大模型的效果具有显著作用。尽管LLaMA3的参数规模不到GPT-3.5的一半,但其15TB训练数据远超GPT-3.5的570GB训练数据,使其在大部分基准上均表现更优[2]。
图2:数据是大模型的核心要素
来源:中国信息通信研究院
传统数据存储架构在支撑大模型快速迭代升级过程中暴露出显著瓶颈,已难以承载世界级认知系统的数据需求。
首先,传统存储系统的吞吐性能与并发能力难以匹配GPU算力需求,IO延迟导致算力空转现象普遍;其次,面对大量非结构化数据,传统方案极易出现孤岛与重复拷贝的问题,缺失元数据追溯与可复现性机制;再者,冷热数据分层依赖人工,存在误判风险,影响训练效率;此外,对象存储在AI训练场景中暴露高并发读写短板,多存储系统拼接导致数据频繁搬运与格式冲突。
以AI原生存储为代表的新型AI存储是专为人工智能应用和服务设计的数据存储系统,具备超高性能、超大容量、极致安全、数据编织等特征,可以有效支撑大模型数据归集、预处理、训练、推理等全生命周期流程,正成为破局的关键。
图3:AI基础架构
来源:中国信息通信研究院
(2)定义
AI原生存储(AI-Native Storage)是指为AI系统尤其是大模型训练、推理、数据治理等工作负载量身定制的下一代智能存储系统,其架构、性能、接口、调度、元数据系统等各方面都以AI应用的需求为核心设计,而非对传统存储系统的简单改造。
AI原生存储与通用存储(传统存储)在架构设计和功能特性上存在显著差异,主要面向AI大模型训练和推理场景的特定需求,在智能调度、数据版本控制、组成架构、数据治理、数据分层、安全性等方面进行优化。
表1:原生存储与通用存储(传统存储)对比
来源:融中咨询
(3)组成
AI原生存储(AI-Native Storage)涵盖底层硬件、性能、容量、调度、数据治理、输出输入接口等各层级,提升大模型数据存储能力。
表2:AI原生存储结构组成
来源:融中咨询
(4)分类
1)存储架构维度
AI原生存储体系在应对大模型商用化挑战时,逐步形成了多维度协同的架构范式,成为AI基础设施中主动参与任务调度的“神经中枢”,主要包括分布式文件系统架构、对象存储架构、混合存储架与并行文件系统架。
表3:从存储架构维度进行分类
来源:融中咨询
2)数据形态维度
为确保不同的数据形态维度在训练、推理及知识库构建中的高效流动与智能调度,针对不同数据形态维度,AI原生存储体系可分为结构化数据存储、非结构化数据存储及多模态数据存储。
表4:从数据维度进行分类
来源:融中咨询
3)工作负载维度
不同的工作负载维度各有其独特的需求和特点,对应的AI原生存储中包括训练型存储、推理型存储和采集预处理型存储。
表5:从工作负载维度进行分类
来源:融中咨询
4)感知能力维度
基于感知能力维度,存储体系可分为被动型传统存储、智能型存储、与自学习型存储。传统存储系统主要遵循“被动响应”的模式,在面对AI应用中复杂多变的数据访问模式和性能需求时,往往显得力不从心,更适用于AI大模型领域的是智能型存储、与自学习型存储。
表6:从感知能力维度进行分类
来源:融中咨询
行业发展历程
(1)传统存储阶段(AI大模型兴起前)
传统存储阶段主要采用集中式设计,数据存储和处理高度依赖于中心化硬件设备,如存储区域网络(SAN)和网络附加存储(NAS)。这类架构通过专用硬件(如高端磁盘阵列)和封闭协议(如光纤通道)实现数据集中管理,虽能提供较高的单点性能和可靠性,但存在显著局限性。
其扩展性受限于硬件设备的物理容量,无法弹性应对数据量激增;存储与计算紧耦合的设计导致资源利用率低下,尤其在处理海量非结构化数据时易出现性能瓶颈。此外,集中式架构存在单点故障风险,容灾能力较弱,且依赖昂贵专有硬件,维护成本高昂。
随着数据规模指数级增长及AI等新场景对高并发、低延时的需求,传统架构在吞吐能力、成本效益和灵活性上的不足日益凸显,逐渐被分布式存储架构取代。
(2) 需求驱动探索阶段(2020年代初期)
需求驱动下的探索阶段是随着数据量的爆发式增长和技术革新推动的必然产物。在全球及中国数据产量持续攀升的背景下(2023年达32.85ZB)[3],数据资源呈现出海量规模、多样类型、低价值密度和高速流转的“4V”特性,传统集中式关系型数据库在处理半结构化/非结构化数据时遭遇严重瓶颈。
生成式人工智能与大模型技术的突破进一步提升了数据存储的刚性需求,倒逼技术变革。这一阶段的核心特征体现为从“关系型、集中式”向“非关系型、分布式”的范式转移,并逐步向“多模型、云原生”深化演进。通过存算分离、资源池化等技术重构数据管理架构,云原生数据库的私有化部署模式因满足“数据不外流”的安全需求而快速崛起。
与此同时,多模型数据管理系统应运而生,支持结构化、图数据、文档等多类型数据的融合处理,显著降低跨模型数据联合处理的架构复杂度与运维成本。这一阶段的技术探索为后续AI原生存储体系的形成奠定了基础,标志着数据管理软件从被动适配向主动创新的关键转折。
(3) AI原生存储体系形成阶段(2022-至今)
随着大模型技术快速发展,在AI从科研范式转向工业级应用的过程中,传统存储架构面临多模态数据管理、海量版本控制、实时推理支持等核心挑战,促使存储系统从被动数据仓库向主动智能中枢转型。
这一体系形成的关键在于存储技术与AI任务需求的深度耦合:初期通过分布式架构突破性能瓶颈,实现EB级扩展和千万级IOPS;中期引入智能调度引擎,使存储系统能感知训练任务特征,动态优化数据预取和分层策略;后期深度融合数据编织技术,构建跨域数据湖并实现全生命周期治理。
随着LakeFS、DeltaLake等数据版本系统的普及,以及KVCache持久化、RAG知识库等新型存储形态的出现,存储系统逐渐具备任务感知、算法协同能力,形成存算一体的智能数据供应链。
云厂商和头部企业通过自研调度引擎、统一存储底座等实践,推动存储从基础设施升维为AI系统的神经中枢,最终实现数据不动模型动、推理即取即用的新一代范式,为AI应用提供高效、安全、自主可控的数据支撑。
政策环境
自2021年以来,中国在AI数据存储及先进存储领域陆续出台了一系列扶持政策,涵盖国家层面顶层设计与地方政府的具体实施方案,涉及数据存储基础设施建设、智能算力调度、数据安全合规、关键核心技术突破等多个方向。
这些政策文件不仅体现在《“十四五”数字经济发展规划》《国家信息化规划》《算力基础设施发展行动计划》等国家级战略中,也延伸至深圳、上海、北京等地在算力中心布局、智能数据湖建设、AI原生存储场景落地方面的专项支持。
整体来看,政策导向呈现出“重基础设施、强安全管理、促产业融合”的特征,体现出中国政府对AI数据存储关键地位的高度认可。其核心目标是通过政策牵引、资金扶持与资源配置,推动形成安全可控、高性能、高效率的数据存储能力体系,为人工智能大模型、AIGC、长记忆Agent等新兴应用提供坚实底座,加快建设数字中国。
表7:2021年至今我国AI算力的电力设备行业相关政策及举措
来源:融中咨询
商业模式
(1)软硬件一体化销售模式
软硬件一体化销售模式(Appliance Model)是存储领域中一种典型的商业交付方式,其核心在于企业将自主研发的AI原生存储软件与经过深度优化和预配置的硬件设备(如高性能服务器、NVMeSSD、高速网络接口卡等)打包成完整的一体机系统,作为“交钥匙”解决方案直接销售给客户。
该模式的典型代表包括DDN的AI400X、华为OceanStorPacific系列、浪潮HFSS系列等。这类产品通常面向大型智算中心、AI科研平台、大型科技企业等客户群体,单次合同金额较高,交付复杂度大,但也带来了强客户粘性和稳定的后续服务收益。
对厂商而言,软硬一体化不仅有助于控制整体系统性能边界,还能增强产品的差异化竞争力,构建深度绑定的行业解决方案生态。
(2)软件授权订阅模式
软件授权订阅模式(Subscription Licensing)的基本形式是将AI原生存储系统作为一款独立的软件产品授权给客户使用,客户根据使用周期(如年、季度、月)或使用资源量(如存储容量、并发节点数、IO带宽等)支付订阅费用,从而获得该软件的合法使用权以及持续更新、技术支持和版本升级等服务。
订阅授权模式强调“持续价值交付”,使厂商可以通过不断迭代优化产品、增加新功能和适配更多AI场景来保持客户粘性。典型厂商如WEKA、VASTData、国内的杉岩数据、星辰天合等。
订阅模式不仅有助于降低客户初期采购门槛,也让厂商获得可持续的现金流和用户反馈,支撑其在AI时代不断演进的产品策略。
(3)托管云服务模式
托管云服务模式(Managed Cloud Service)是通过云平台将其存储能力以服务的形式交付给客户的一种商业模式。该种模式下,用户可以通过API或控制台快速申请存储资源,并根据实际业务需求进行动态扩容或缩容。
与本地部署或私有化部署不同,这种模式的核心理念是“即开即用、按需计费、弹性扩展”,客户无需采购硬件或自行搭建复杂的存储系统,而是通过公有云、私有云或混合云平台直接访问和使用厂商提供的AI原生存储服务,计费方式通常包括按存储容量、访问频率(如Get/Put请求数)、带宽流量、并发连接数等维度进行精细化计费。
这种服务通常以对象存储、文件系统或高性能并行存储的形式提供,支持高吞吐、低延迟、高并发等AI模型训练和推理所需的关键能力。典型提供者包括如WEKA在AWS/GCP上的云原生版本、VASTData的UniversalStorage云服务版本,以及国内的华为云FusionStorage、阿里云PanguStorage等。
(4)项目定制部署模式
项目定制部署模式(Project-based Custom Deployment)是针对特定行业客户或大型项目需求,提供定制化解决方案,包括从存储系统架构设计、软硬件选型、接口适配、性能优化,以及到现场部署、运维体系建设、人员培训等多个环节。
该模式通常发生在政企单位、智算中心、科研院所、大型国有企业等场景中,以“项目合同制”进行商务交付,项目金额高、交付周期长,客户粘性强。例如,某政务大模型项目需要支持跨区域多中心的数据共享与异地灾备,厂商可能会提供多副本容灾结构、AI任务调度感知存储分层机制、统一运维平台等专属功能,并针对客户原有系统进行接口对接和兼容适配。
典型厂商如华为、浪潮信息,以及部分国产AI原生存储新锐企业(如杉岩数据、星辰天合)均积极尝试这种模式在智算中心、科研院校和关键行业客户中建立深度合作关系。
表8:AI原生存储领域的商业模式
来源:融中咨询
行业全景与市场规模
(1)产业链
AI原生存储行业的上游主要包括存储介质与存储器、存储主控芯片与接口芯片、关键材料与零部件以及核心专利与技术。
中游参与者主要是各大AI存储系统综合解决方案提供商,包括软件平台,硬件基础设施集成以及综合云平台。
下游应用领域覆盖智算中心、金融、自动驾驶、医疗、政务、科研机构等。
图4:AI原生存储系统产业链
来源:融中咨询
(2)市场规模
随着人工智能技术的快速发展,尤其是在大模型、AIGC(生成式人工智能)等新兴应用的推动下,传统存储系统已难以满足AI对海量数据的高并发访问、高吞吐率与低延迟处理的需求。
在这一背景下,AI原生存储作为专为AI工作负载设计的新型存储架构,正在成为行业关注的焦点,市场需求正随着数据规模的爆炸式增长而迅速扩大。
2024年,全球AI原生存储行业的市场规模为8.47亿美元,预计至2028年全球AI原生存储行业的市场规模增长至132.80亿美元。
图6:全球AI原生存储行业的市场规模
来源:融中咨询
在“AI+”国家战略持续推进下,中国AI产业快速发展,带动对数据存储能力提出前所未有的需求。与欧美相比,中国在AI训练数据量的生成速度和模型应用的广度上具备独特优势,AI原生存储因此成为国产化技术突围的重要方向。
头部云厂商、存储设备制造商与AI基础设施服务商正在加速布局,推动形成涵盖自研硬件、智能软件、异构计算适配与高效数据调度的完整生态。随着AI模型的参数量、推理密度与多模态应用的不断升级,中国AI原生存储市场正步入高速成长期,成为全球市场中最具活力的增长引擎之一。
2024年,中国AI原生存储行业的市场规模为14.36亿元,同比增长逾2倍,预计至2028年市场规模增长至224.32亿元。
图7:中国AI原生存储行业的市场规模
来源:融中咨询
典型应用场景
(1)智算中心
智算中心作为面向AI、大数据、高性能计算的核心平台,其计算任务普遍具备“多节点、高并发、数据密集型”的特点,对存储系统提出了极高要求。
AI原生存储通过支持海量非结构化数据的分布式管理、GPU直通读写、RDMA高速互联、冷热数据智能分层等能力,满足了智算中心在算力密集型任务下的存储性能瓶颈挑战:
另外,智算中心对数据安全和管理的需求较高,AI原生存储系统往往具备访问审计、配额管理、WORM、防篡改等企业级能力,满足政府、科研和行业用户的数据合规要求。
智算业务在实际应用中主要包括两个环节:训练和推理。根据IDC的统计数据,2022年部署的智算算力里,训练算力占比为41.5%,推理算力占比达到58.5%
随着推理算力的逐渐普及,其占比将会得到持续提升,预计到2026年,推理算力的占比将会提升到62.2%,带动智算中心的规模和处理能力呈指数级增长,对AI原生存储系统的依赖更加持续和广泛。
图8:云端推理算力逐步提升
来源:IDC、中信建投、腾讯研究院
(2)金融
金融领域的业务天然具备数据体量大、类型复杂、实时性强与安全合规要求高等特点,而AI原生存储体系则通过高吞吐、低延迟、高并发与智能分层管理等核心能力,有效支撑了金融机构对海量数据进行高效建模和智能分析的需求。
AI原生存储系统在金融行业中主要应用于量化交易、金融大模型训练与推理、反欺诈检测、智能风控等关键业务场景:
图9:AI原生存储在金融领域的应用
来源:融中咨询
此外,AI原生存储还支持合规要求下的数据审计、加密、WORM机制与本地化部署,确保金融数据的安全与可控。
(3)自动驾驶
自动驾驶系统每天会产生大量车载传感器数据,包括高清摄像头视频、雷达点云、GPS轨迹、CAN总线信息等,这些非结构化数据体量庞大、格式多样,对存储系统提出了高并发写入、高吞吐读取与高可扩展性的要求。
AI原生存储凭借分布式架构、多协议支持(如POSIX、S3)、智能分层存储和高效元数据管理,能够支持数据采集、模型训练、仿真验证、闭环学习等全链条流程中。
图10:AI原生存储在自动驾驶领域的应用
来源:融中咨询
AI原生存储系统还具备高可靠性、数据压缩与重复数据删除能力,大幅降低了长期存储成本,并通过权限控制与访问审计机制,满足车企对数据安全与合规的要求。
(4)医疗
人工智能在医疗行业的应用不断拓展,已成为支撑智能医学图像分析、临床辅助诊断、药物研发、健康管理以及医疗大模型训练等关键场景的重要技术手段。
医疗数据具有数据类型多样(图像、文本、结构化信息混合)、数据增长迅速、合规与隐私要求高等特点,传统存储系统难以应对AI负载下的复杂数据流转需求。
AI原生存储以其分布式架构、高并发读写能力、智能分层存储和原生对接AI训练框架的特性,能够为医疗AI提供强有力的数据支持,不仅优化了医疗AI的数据处理效率,更成为医疗机构实现智能化升级、保障数据安全合规、推动精准医疗发展的核心支撑平台。
图11:AI原生存储在医疗领域的应用
来源:融中咨询
此外,该类存储系统往往具备数据加密、访问控制、WORM等特性,满足《个人信息保护法》《HIPAA》等法律对医疗数据安全和隐私的严格要求。
(5)政务
政务数据往往呈现出数据来源分散、类型复杂(视频、图像、文本、结构化数据并存)、访问并发高、安全合规要求严等特点,传统存储难以满足人工智能在政务场景中的训练、推理和治理需求。
AI原生存储系统具备高吞吐、高并发、智能分层和原生支持AI算力体系的能力,能够支撑政务数据的全生命周期管理。同时,AI原生存储系统还可提供细粒度权限控制、数据防篡改、审计追踪等功能,满足政府对数据主权、安全合规和分级管理的严格要求。
AI原生存储系统在政务领域的应用正日益深入,成为支撑政务数据中台、智能办事大厅、档案数字化、政务舆情监测以及城市治理决策等核心场景的数据底座。
图12:AI原生存储在政府领域的应用
来源:融中咨询
(6)科研
AI原生存储系统在科研领域的应用愈发广泛,已成为支撑多学科交叉研究、高性能计算模拟、科学大模型训练、科研数据共享与管理的重要基础设施。
科研活动正从传统实验逐步走向数据驱动与模型驱动,特别是在天文观测、基因组学、材料科学、气象模拟、脑科学等前沿领域,实验设备和传感器每天生成PB级的原始数据,对存储系统的性能、扩展性与智能管理提出了极高要求。
AI原生存储通过分布式架构、高并发I/O能力、智能数据分层和原生对接AI算力平台,有效解决了科研数据“存不下、调不快、用不顺”的瓶颈。
例如在天体物理或粒子物理研究中,其可支撑海量观测数据的高速写入与并行分析处理;
在生命科学领域,原生存储能优化基因测序数据、多组学数据与AI分析模型之间的协同访问;
在科研大模型训练中,系统可无缝对接多节点GPU集群,实现海量科研语料和模拟数据的高效加载与训练加速;
在科研数据共享与归档方面,AI原生存储具备多协议接入、数据生命周期管理、元数据管理等功能,支持跨机构、跨平台的开放协同研究。更重要的是,该类系统还内置数据加密、访问审计、WORM等安全机制,满足科研机构对知识产权保护和数据长期可用性的核心诉求。
总之,AI原生存储正在重构科研数据基础架构,助力科研从“重积累”走向“快计算”,从而加速科学发现与技术突破。
未来发展趋势
AI存储系统从存储介质、系统、架构、数据编织、数据范式和数据安全等多方面发力,协同提升大模型数据存储能力。AI原生存储系统未来将向先进介质应用、以数据为中心的体系架构、数据内生安全、智能数据编织、可持续存储共五大方向演进。
图13:AI存储结构分层
来源:中国信息通信研究院
(1)先进介质应用
随着AI大模型逐步走向多模态,多样化的数据驱动存储介质多样化发展。其中,极热数据内存型介质将以DRAM为主、SCM为辅,内存的分级将成为新生态;热数据介质将全部使用NANDFlash,Flash闪存技术则会继续向高密度、低时延演进;在温、冷数据介质技术中,磁带有望继续向高密度、高并发方向演进,光盘则会走向更大容量、更高并发、更长寿命。
在介质工艺层面,受半导体制造工艺和介质结构物理极限的限制,SSD、DRAM等介质的集成度无法持续提升,未来可通过Wafer级创新、Chiplet级创新、接口和协议创新来进一步提升介质密度和寿命,降低介质功耗,增强介质的可靠性。
数据编码技术通过智能调度与优化释放介质潜能,包含缩减数据量的压缩编码、抗数据错误的纠错编码以及抗数据丢失的纠删编码。未来面对海量多元的存储数据以及介质融合的存储系统,通过智能化数据压缩、联合编码、智能化数据分类,有望突破数据编码技术,实现存储有效容量提升、集约节能、长期可靠。
图14:数据联合编码
来源:华为
图15:智能分类图示
来源:华为
(2)以数据为中心的体系架构
以数据为中心的体系架构是为了应对数据量爆炸式增长与数据处理能力不足之间的矛盾而提出的新型架构范式。传统以CPU为中心的架构因存储与计算资源紧耦合导致资源利用率低下,数据频繁移动和格式转换消耗大量计算资源,难以满足AI、大数据等应用需求。
该架构在宏观层面采用存算分离策略,通过高通量互联总线将计算、存储、内存等资源解耦为独立池化的硬件资源(如CPU池、DPU池、闪存池),实现弹性扩展与灵活共享,消除本地存储超配浪费,同时支持内存拉远、SSD池化等技术突破物理边界,使GPU等算力能直接访问远端存储资源;
图16:存算分离架构
来源:华为
微观层面则强调存算一体,将专用算力嵌入数据存储节点或网络传输路径,通过近数据处理、算子下推、网存协同等方式减少数据搬运,实现“数据不动计算动”的高效范式。
图17:存算融合原理
来源:华为
这种架构通过存储资源池化、全内存语义访问、NPU直通存储等创新,显著提升数据处理效率,在万卡GPU智算场景中可将CheckPoint恢复时间从分钟级压缩至秒级,有效解决数据重力效应,为YB时代的数据密集型应用提供高通量、低时延、高扩展的支撑能力。
(3)智能数据编织
智能数据编织是一种通过自动化方式动态协调分布式数据源的技术,旨在打破数据孤岛并实现跨平台数据整合,从而高效支持多样化的应用需求。其核心在于利用人工智能、知识图谱等技术,持续识别并连接来自不同应用的数据,发现数据间的业务关联关系,构建全局虚拟数据总线以实现数据的智能流动。
图18:智能数据编制框架
来源:华为
在数据网络中,智能数据编织能够自动感知存储网络状态、数据活跃度及业务特征,通过数据画像精准刻画数据重力、时空信息等多维度属性,并结合数据大脑生成最优的数据排布策略。例如,在跨数据中心、云端与边缘的场景中,它通过语义感知存储、在网计算服务等技术优化数据存取路径,实现冷热数据的分级存储(如“东数西存”降低运营成本),同时确保数据在流动过程中的安全可信。
该技术还支持数据版本管理和血缘追踪,防止数据质量在多次流转中劣化,最终构建起高效、自动化且具备认知能力的存力网络,为大规模AI训练、实时决策等场景提供坚实的数据基础。
(4)内生安全保护
存储系统的内生安全保护要求将安全机制深度融入数据全生命周期管理的核心架构中,形成主动防御体系以应对复杂威胁,为AI时代海量数据的高效利用与合规流转提供了坚实保障。其核心在于通过硬件自主可控、可信启动、防侧信道攻击等底层技术构建基础防护层,同时在软件层面实现数据采集、传输、存储、处理、共享及销毁各环节的端到端加密与动态脱敏。
图19:主动数据保护
来源:华为
其中,零信任存储旨在解决当前存储面临的数据泄漏、完整性被破坏、数据可用性破坏等诸多安全问题。所有的数据访问与操作都被视为未被验证的,访问主体、数据以及数据操作动作三者基于最小授权原则,通过持续验证、动态授权等方式实现最小粒度数据访问控制。
图20:零信任存储
来源:华为
(5)绿色节能
基于经典的冯•诺伊曼架构,数据在存储和计算单元间传输所需能耗,占IT系统总能耗的60%~90%。AI大模型的发展要求更高性能低能耗的存储系统,在通过技术创新与系统优化降低能耗及环境影响的同时,确保数据基础设施的长期高效运行。
存储系统层面的节能,通过硬件功耗智能调优、数据分级节能、存储设备散热、资源感知的统筹调度等技术,感知计算、存储、网络设备的运行状态,识别数据冷热特征,并结合业务负载规律,构建系统调优模型。其中,芯片级动态能耗管理对存储系统节能至关重要,通过异构多样化算力集成、片上动态能效智能管理等技术,可有效解决高算力与低功耗的矛盾。
未来,通过制定覆盖芯片能效、碳足迹追踪、再生材料应用的绿色标准体系,存储产业将推动每比特数据读写能耗下降50%,助力全球ICT行业碳减排目标实现,真正构建起环境友好、资源高效的数据生态。
全闪存存储技术是AI元素存储系统的理想选择。比机械硬盘时延小100倍左右,每秒数据读写次数大1000倍以上,空间占用节省50%。随着闪存介质堆叠层数与颗粒类型方面的突破,其成本也在持续走低,成为处理大模型数据的理想选择。
此外,使用全闪存存储技术相比机械硬盘能减少能耗70%。尤其是高密存储节点密度能达到传统存储服务器的2.6倍以上,结合存算分离架构,相对使用通用型服务器,减少了存储节点CPU、内存及配套交换机,同等容量下带来能耗节约10%~30%。显著降低大模型数据的存储能耗。
竞争格局
(1)竞争格局分析
全球AI原生存储领域的竞争呈现多元化和分层化特征,国际市场主要由三类参与者主导:传统存储巨头、云服务商和新兴技术公司。
HPE、Dell等老牌企业凭借混合云解决方案和全闪存技术,在金融、科研等高端场景保持优势;AWS、Azure等云厂商通过全球化布局和全托管服务占据公有云存储市场主导地位;VAST Data、Zilliz等新兴公司则以创新架构(如分布式存储、开源向量数据库)切入AI原生存储赛道,布局多模态搜索、边缘计算等领域。
国内市场整体由综合云平台占据市场主导地位,代表企业有阿里云、腾讯云、华为云等,其数据湖、向量数据库、分布式存储架构等存储解决方案与AI训练框架深度整合,覆盖电商、政务、制造等核心场景,天翼云、移动云等运营商背景的平台在国企数字化转型中也占据独特地位。
图20:中国AI原生存储行业的竞争格局
来源:融中咨询
硬件基础设施集成领域以华为、京东云海、中科曙光、浪潮信息为代表,通过存算一体机、液冷存储服务器等支撑国家级算力中心和行业级AI应用,参与AI原生存储市场。
软件平台领域,深信服、星辰天合等独立第三方厂商通过研发分布式文件系统、超融合架构(aSAN)等新型技术跻身AI原生存储市场赛道。
(2)代表企业分析
1)华为
华为在AI原生存储领域的核心产品或服务包括Fusion Storage存储解决方案、存算一体芯片、液冷存储解决方案和OceanStor数据湖存储产品。
Fusion Storage:采用全对称分布式架构,支持文件、对象、块存储协议的统一访问,并通过分布式哈希算法实现负载均衡。其弹性EC算法提升存储利用率,支持EB级数据存储,已应用于多个国家级智算中心的AI大模型训练场景,数据存取效率较传统方案提升30%;
华为海思昇腾920存算一体芯片:通过将计算单元嵌入存储介质,突破传统“存储墙”和“功耗墙”问题,能效比提升5倍,显存占用降低37%,支撑5G基站和云计算中心的实时数据处理;
液冷存储解决方案:将数据中心PUE值降至1.05-1.2,单机架支持最大60kW制冷能力,服务超30个省级政务云平台;
OceanStorA800深度学习数据湖存储产品:定义了存储技术的六维标准——高性能、数据韧性、新数据范式、高扩展性、绿色节能及数据编织能力,覆盖医疗、金融、工业等场景。
2)阿里云
阿里云在AI原生存储领域的核心产品或服务为MaxCompute数据湖、阿里云Milvus向量数据库和Pangu存储引擎。
MaxCompute:支持EB级多模态数据存储,集成文本、图像、时序数据的统一管理框架,与机器学习平台PAI深度联动,支撑淘宝双11期间万亿级商品特征的实时检索;
阿里云Milvus向量数据库:在开源Milvus版本的基础上增强了可扩展性,实现海量向量的存储、索引与毫秒级检索,并通过分布式架构存储千亿级别向量数据,存储效率提升,优化金融反欺诈和电商推荐场景的响应速度;
Pangu存储引擎:采用纠删码算法,将存储成本降低40%,同时支持GPU直连访问,显著提升AI训练数据吞吐量;
定制化数据湖仓一体方案:主要应用在工业领域,实现制造业质检数据的多模态融合存储与实时分析。
3)腾讯云
腾讯云的核心产品包括Tbase分布式数据库、基于Iceberg的腾讯云湖仓一体架构和Tencent Cloud VectorDB向量数据库。
Tbase:通过分布式事务确保数据的一致性和可靠性,支持高扩展性、高SQL兼容度,以及多级容灾能力,适用于亿级数据的存储、分析和查询场景,日均处理10亿笔微信商户订单交易。
数据湖计算服务(DLC):以开源Iceberg 为底层标准存储格式,采用流批一体架构,实现毫秒级响应,百万级数据实时写入。
Tencent Cloud VectorDB:基于腾讯集团每日处理千亿次检索的向量引擎 OLAMA,单索引支持千亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟。应用于推荐系统、自然语言处理等 AI 领域。
4)中科曙光
中科曙光的产品线涵盖ParaStor分布式存储系统和液冷存储解决方案。
ParaStor:支持单一集群3-4096节点扩展,提供EB级存储空间,采用Scale-Out横向扩展架构,通过智能SSD Cache及小文件聚合技术优化性能,应用于自动驾驶训练场景,具备低延迟特点,其中ParaStor300S为宣武医院提供了高通量基因组学数据处理方案。
液冷存储方案:采用冷板式液冷技术降低散热功率,结合数据重删压缩等技术,存储节点PUE值降至1.2以下,电费节省60%,已落地华南理工大学数据中心,并入选IDC《液冷数据中心白皮书》案例。
5)浪潮信息
浪潮信息的AS13000分布式存储系列、绿色算力解决方案、AIStation智能管理平台构成AI存储技术矩阵。
AS13000:支持异构硬件兼容,通过无感知数据迁移技术帮助企业实现传统存储向AI原生架构的平滑过渡,支持EB级容量扩展。
绿色算力方案:通过硬件加速与智能功耗管理,实现千万级IOPS并发处理,PUE值控制在1.2以下,服务智能制造产线的质检数据高效存取。
AI Station智能管理平台:集成存储资源调度功能,可动态分配训练数据至GPU集群,通过显存隔离实现单节点8卡支持56个开发环境,资源利用率显著提升。
6)深信服
深信服的产品包括软件定义存储(SDS)及超融合存储(HCI)系统和EDS存储解决方案。
SDS及HCI:深信服关注各行业用户核心需求,打造适配的全栈替代方案,累计助力12,000+用户完成对VMware架构的替代。
EDS存储解决方案:例如在医学领域,通过自动AI分层技术,阅片速度从约90张/秒提升至450+张/秒,联合调优后影像调阅性能提升60.9%。
7)星辰天合
星辰天合的核心技术为XGFS全共享架构文件系统和混合云数据管理平台。
XGFS:支持文件、对象、块存储协议的统一访问,通过全局缓存技术将跨云数据访问速度提升50%,适配90%国产化硬件环境。
混合云平台:实现公有云与私有云存储资源的智能调度,在音视频处理场景支持4K/8K素材的实时编辑与存储。其XEOS对象存储系统通过纠删码算法与智能预取机制,将海量非结构化数据的存储成本降低35%,服务超200家企业的AI训练数据管理需求。
此外,星辰天合开源社区贡献的Ceph优化方案被多家云厂商采用,提升分布式存储集群的稳定性。
8)京东云海
京东云海主营统一存储平台,提供块存储、对象存储、文件存储、并行文件存储、大数据存储等多种自研产品,属于 AI 原生存储的产品主要是云海AI 存储。
云海AI存储具备原生KV Cache等特性,适配主流推理框架,助力大模型训练,应对自动驾驶等场景的海量小文件读写与目录热点难题,也适用于各类高性能推理场景。
9)极道科技
极道科技(北京)有限公司的主营业务是围绕数据“存、管、算”协同设计,提供企业级数据系统解决方案,其中属于AI原生存储或与AI应用深度集成的存储解决方案主要有ALAMO分布式文件存储系统、ANNA分布式统一存储、metaView数据管理系统以及Achelous智能集群运维系统。
ALAMO:提供了卓越的带宽和元数据的高IOPS,既支持横向扩展,也支持纵向扩展,随着横向扩展的节点数的增加,存储的容量和性能均得到线性增长。
ANNA:支持多种文件访问协议(CIFS,NFS,POSIX)、块访问、S3对象访问协议,一套存储系统满足多样化的应用需求。
metaView:构建了一个无上限的包含工业标准数据特征和用户自定义数据特征的元数据管理系统。通过独特的“存/管协同”设计模式和并行分布式图处理引擎,实时捕获并追踪元数据的变化,涵盖数据感知、数据发现、数据溯源和数据重组。
Achelous:将各种异构计算汇聚,共享硬件资源(包括CPU、Memory、GPU、FPGA等),按需动态构建计算框架,旨在提高计算的并行度和提高资源利用率,以降低用户的整体拥有成本。
10)华瑞指数云
华瑞指数云主营业务是为政府、企业及机构提供数据基础设施整体解决方案,专注于智能数据存储与管理。其核心产品全栈自研 AI 原生数据平台 WADP,具备超高吞吐、低延迟、无限扩展等特性,打破 AI 计算“存储墙”,适配多种行业场景,如金融数据分析、医疗影像处理、企业级 AI 开发等。
华瑞指数云提供 ET 系列存储产品(如极速分布式块存储、统一存储、对象存储等),分别针对高性能、融合存储、海量数据管理需求,助力用户高效处理数据,支持 AI 应用落地。
11)同友科技
同有科技聚焦信创存储,主要产品为ACS系列全闪存阵列和双活存储系统。
ACS5000F:采用飞腾FT-1500A处理器和国产SSD,其全闪存阵列提供260万IOPS性能,为信息处理计算机、磁盘阵列、存储服务器等设备提供强有力的配套及支持。
双活存储架构:通过跨数据中心同步技术,实现金融业务RTO控制在秒级,RPO为0,应用层不中断,数据库无需回滚,极大地降低了业务运行的风险。
12)上海赜睿
上海赜睿信息科技有限公司旗下品牌Zilliz以Milvus开源向量数据库和Zilliz Cloud全托管服务为核心,构建AI原生数据检索基础设施。
Milvus:支持万亿级向量索引,通过分布式架构实现多模态数据(如图文、视频特征)的融合索引,在电商商品搜索、生物医药分子库匹配等场景形成技术标杆。
Zilliz Cloud:提供企业级向量数据库服务,内置自动扩缩容与多租户隔离功能,支撑金融风控系统的实时数据查询需求。在开源生态中,Milvus社区贡献者超2000人,被应用于超1000家企业的AI应用场景。
13)后摩智能
后摩智能的车规级存算一体芯片和多传感器融合存储系统服务于自动驾驶领域。
鸿途H30芯片:基于存算一体架构,基于12nm工艺制程,Int8精度下实现256TOPS物理算力,典型功耗35W,支持智能驾驶场景的经典CV网络及BEV、PointPillar等先进算法。
公司于2023年通过ISO 26262:2018 ASIL D功能安全流程认证,为车规级产品研发奠定基础。
14)火山引擎
火山引擎的VikingDB多模态数据库和工业质检存储方案是其核心产品。
VikingDB多模态数据库:采用存算分离架构,支持实时向量写入与流式更新,实现非结构化数据到向量的高效转换;在检索性能上可支持百亿级向量库的毫秒级响应,同时结合混合检索能力提升精度与效率;
此外,VikingDB提供云原生弹性调度与自动调参功能,优化资源成本并保障服务稳定性,其技术实践已覆盖智能问答、推荐广告、版权去重等多样化场景。
[1]华为《数据存储2030报告(2024版)》
[2]Llama3初体验以及和ChatGPT 3.5 Turbo对比 - Eric技术圈
[3]星环信息科技(上海)股份有限公司2024年年度报告
# 线索爆料 # rzcj@thecapital.com.cn
媒体合作:010-84464881