推广 热搜： page 小红红书数据论文考试数据分析关键词哪些搜索

科技行业：AI大模型需要什么样的数据(202305).pdfVIP

日期：2024-12-27 移动：https://sicmodule.kub2b.com/mobile/quote/14653.html

证券研究报告

科技

AI大模型需要什么样的数据

华泰研究

2023年5月11日│中国内地专题研究

数据是大模型竞争关键要素之一，关注中国AI大模型数据发展

AI的突破得益于高质量数据，我们认为数据是大模型竞争关键要素之一：1）

训练大模型需要高质量、大规模、多样性的数据集；2）优质中文数据集稀

缺，数字中国战略将促进数据要素市场完善，助力数据集发展。近期欧洲议

会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法（征

求意见稿）》对大模型训练数据的版权披露、合法性提出要求，对于数据产

业链的投资机会，我们认为：1）数据资产储备公司的商业化进程值得关注；

2）行业数据价值高，具有优质数据和一定大模型能力的公司或通过行业大

模型赋能业务；3）关注卡位优质客户、技术降低人力成本的数据服务企业。

海外开源数据集积累丰富，合成数据或将缓解高质量数据耗尽隐忧

我们梳理了海外主要的开源语言和多模态数据集，主要的发布方包括高校、

互联网巨头研究部门、非盈利研究组织以及政府机构。我们认为海外积累丰

富的开源高质量数据集得益于：1）相对较好的开源互联网生态；2）免费线

上书籍、期刊的长期资源积累；3）学术界、互联网巨头研究部门、非盈利

研究组织及其背后的赞助基金形成了开放数据集、发表论文-被引用的开源

氛围。然而，高质量语言数据或于2026年耗尽，AI合成数据有望缓解数据

耗尽的隐忧，Gartner预测2030年大模型使用的绝大部分数据或由AI合成。

中文开源数据集数量少、规模小，看好数字中国战略激活数据要素产业链

与国外类似，国内大模型的训练数据包括互联网爬取数据、书籍期刊、公司

自有数据以及开源数据集等。就开源数据集而言，国内外的发布方都涵盖高

校、互联网巨头、非盈利机构等组织。但国内开源数据集数量少、规模小，

因此国内大模型训练往往使用多个海外开源数据集。国内缺乏高质量数据集

的原因在于：1）高质量数据集需要高资金投入；2）相关公司开源意识较低；

3）学术领域中文数据集受重视程度低。看好数字中国战略助力国内数据集

发展：1）各地数据交易所设立运营提升数据资源流通；2）数据服务商链接

数据要素产业链上下游，激活数据交易流通市场，提供更多样化的数据产品。

数据产业链投资机会：关注数据生产与处理环节

数据产业链包括生产、处理等环节。我们认为数据生产可以分为通用数据和

行业数据：1）海外主要数据集的通用数据来自维基、书籍期刊、高质量论

坛，国内相关公司包括文本领域的百度百科、中文在线、中国科传、知乎等，

以及视觉领域的视觉中国等。2）数据是垂直行业企业的护城河之一，相关

公司包括城市治理和ToB行业应用领域的中国电信、中国移动、中国联通，

CV领域的海康、大华等。数据处理环节，模型研发企业的外包需求强烈，

利好卡位优质客户、技术赋能降低人力成本的数据服务企业，如Appen、

TelusInternational、ScaleAI。

隐私保护：监管与技术手段并举

个人数据的采集、存储和处理引发了对于AI时代数据隐私保护的关注。隐

私保护可从监管、技术角度着手：1）监管：全球各地区出台相关法律法规，

例如《中华人民共和国个人信息保护法》、欧盟《通用数据保护条例》等。2）

技术：隐私保护计算在不泄露原始数据的前提下，对数据进行处理和使用。

风险提示：AI及技术落地不及预期；本研报中涉及到未上市公司或未覆盖个

股内容，均系对其客观公开信息的整理，并不代表本研究团队对该公司、该

股票的推荐或覆盖。

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

正文目录

AI大模型需要什么样的数据集5

数据将是未来AI大模型竞争的关键要素5

本文地址：https://sicmodule.kub2b.com/quote/14653.html 企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行