全球快资讯：AI大模型“无米下锅”？合成数据多重优势凸显硅谷巨头正加速布局

《科创板日报》5月20日讯（编辑邱思雨）5月19日，北京拟组织实施“北京市通用人工智能产业创新伙伴计划”，谋划建设国家级数据训练基地。

北京提出，在谋划建设国家级数据训练基地的过程中，要开发涵盖文本、图像、视频等多模态的高质量数据集，助力国家级数据训练基地建设。支持发展基于AIGC技术的合成数据新产业。

回溯到今年3月初，中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称，建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”，助力打造面向人工智能未来发展的数据优势。

【资料图】

被多次点名强调的合成数据，究竟是何方神圣？

顾名思义，合成数据（synthetic data）是通过计算机技术人工生成的数据，而不是由真实事件产生的数据。但合成数据具备“可用性”，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试并验证大模型。

在训练大模型的过程中，除了需要庞大的数据量以外，数据的质量同样至关重要。例如，ChatGPT的训练使用了45TB的数据、近1万亿个单词。据姚前分析推测，ChatGPT等大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点等。总体来看，数据来源严重依赖于现有的互联网公开文本数据。

但互联网文本数据有限，GPT-3的参数量已达到千亿级别，如果下一代大模型的参数达到万亿级别以上的话，数据短缺问题恐成为训练的瓶颈。在此背景下，合成数据的重要性日益凸显。

▌合成数据：更高效率、更低成本、更高质量

正如上文所述，“更高效率、更低成本、更高质量”是目前合成数据的优势所在。市场调研机构Gartner预测，到2024年，人工智能和数据分析项目中的数据预计有60%将来自合成数据。具体来看：

“更高效率”：合成数据能够在相对较短的时间内大量生成，且能够精确地复制原始数据集的统计特征，但又与原始数据不存在任何关联，便于在更大范围内分享和使用；

“更低成本”：合成数据服务商AI.Reverie指出，人工标注一张图片可能需要6美元，但人工合成的话只需要6美分；

“更高质量”：合成数据能够补充边缘案例，可以通过深度学习算法合成原始数据中没有的罕见样本，保障了数据的多样化。

除此以外，在AIGC时代，数据的隐私性、保密性、安全性等问题尤为重要。例如，医疗行业的数据通常会包括患者个人健康信息等；金融行业则涉及到历史交易信息等敏感数据。

利用合成数据训练AI大模型则能够有效规避用户隐私问题。在上述案例中，通过合成数据集，医疗机构能够在不提供患者隐私信息的条件下训练相关模型完成药物研发工作；金融机构则能够在不提供敏感的历史交易信息前提下，通过合成数据集训练量化交易模型提升获利能力，也可以用来训练客服机器人以改善服务体验。

《麻省理工科技评论》（MIT Technology Review）将大模型合成数据列为2022年十大突破性技术之一，称其有望解决人工智能领域的“数据鸿沟”问题。

▌先行应用于计算机视觉巨头已争相布局

具体到产业应用层面，合成数据先行应用于计算机视觉领域，例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练，但获取原始数据却相对较难。

以自动驾驶领域为例，实际驾驶场景路况复杂、变量较多，且极端天气下获取真实路况数据可能存在困难或危险，因此难以完全依赖于真车现场数据。但是，通过合成数据集模拟各种驾驶场景，就能够在保障人员和设备安全的条件下，提升自动驾驶能力。

目前，合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。摩根大通于2021年9月提出通过合成数据来加快金融领域的AI研究和模型开发，以解决欺诈检测和反洗钱等问题，并改善服务体验；美国运通也同样正在尝试创建合成数据来训练、优化其用于欺诈检测的AI模型。

微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。

英伟达自动驾驶仿真平台DRIVE Sim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力；

谷歌利用AI生成的医疗记录来帮助预测保险诈骗；

微软开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase，并创建了合成人脸数据库。

Meta于2021年11月收购了合成数据创业公司AI.Reverie。

国内方面，据《科创板日报》不完全统计，A股上市公司中：

天风证券、上海证券等多家机构分析师一致认为，AIGC模型算法创建的合成数据功能将为新技术产业提供支撑，让数据约束不再成为产业发展瓶颈。

推荐内容

全球快资讯：AI大模型“无米下锅”？合成数据多重优势凸显 硅谷巨头正加速布局

白重恩：支持创新创业需要更加宽松的政策环境，空间更大一些

全球最资讯丨清炒冬瓜家常做法（清炒冬瓜怎么做好吃又简单）

鸿蒙坐稳第三大手机操作系统：全球市场份额 2%，中国占比达 8% 环球速读

请问中秋月饼哪种最好吃

天天看热讯：汇率破7，北向资金本周以卖出为主，偏偏对一个方向大买42亿！

建筑面积怎么计算_建筑面积 环球热门

超级格斗战士官网在哪下载 最新官方下载安装地址

“有房才有家”、“有房才有根”的观念当改改了-每日聚焦

北向资金本周流出这些品种！

“AI+硬件”时代拉开序幕 业界期待下一“iPhone时刻” 边缘算力或成胜负手

alobon是什么牌子的口红（alobon是什么牌子） 天天观点

资讯推荐:英雄联盟壁纸iphone专用 英雄联盟壁纸

环球快报:股份回购计划频出！年内19家科创板公司出手 半导体个股成主力军

未实际参与被投企业尽调及投决管理，激石伟业基金多项违规被监管出警示函

葡超阿罗卡vs沙维什比分预测今日推荐：沙维什表现稳定 世界热点评

【世界热闻】把营商环境变成镇江高质量发展的“肥沃土壤”

34岁网红晒9个娃获赞75W，目标集齐12生肖，家产百亿豪宅6万一平

戮力同心是什么意思_戮力同心解释 全球热资讯

今日快讯：thomas是姓还是名_Thomas Newcomen是谁

Alex和申爱_第二次出场我们结婚了时 主持人清唱的歌叫什么|世界热点

全球富豪涌入迪拜买房，房价三年上涨149%，“新房开盘就抢爆”

西条高人动漫名_西条高人动漫 天天播报

速讯：atm机跨行转账多久到账怎么查进度_atm机跨行转账多久到账

环球观天下！铭利达（301268）：5月19日北向资金减持4.81万股

申菱环境（301018）：5月19日北向资金减持19.61万股_今日报

焦点热议:中国婚庆行业数据分析：40.4%新人为婚礼筹办花费/预算花费金额为5-10万元

济人药业：核心单品的关键专利保护期已不足3年 屡获殊荣但非核心技术也非自研

今日看点：5名男子酒后推车1公里回家 网友：这真不算酒驾

蛋糕怎么做好吃又简单家庭做法 蛋糕怎么做好吃又简单

全球快资讯丨客厅沙发高度标准尺寸 客厅沙发的标准尺寸

冰箱温度调节1-7对应多少度_新飞冰柜温度调节 天天消息

高尔基《童年》解析_高尔基童年赏析

AI热潮延续，这个板块再添把火 全球热资讯

面膜保存需要放冰箱吗 保存面膜用不用放冰箱 每日资讯

今天打开个税APP，我直接人麻了！

当前热议!醴陵农商银行助力“一镇一品”

魔兽世界第三部_关于魔兽世界第三部简述|天天热议

科创板今年第三只“百元股”！安杰思上市即破发 元生创投、天堂硅谷等投了-全球快看

全球最新：小摩托歌曲原唱是谁_小摩托歌曲

丁禹兮、宋小宝空降《漂亮的战斗》 世界时讯

浩瀚深度：Q1亏损约172万元 持续关注包括华为鲲鹏在内的信创行业生态业务｜直击业绩会

全球时讯：朗姿股份：公司将积极关注人工智能技术的发展与应用，持续探索人工智能技术应用的场景与可能性

即时看！成都一批次35宗宅地成交34宗，总成交金额达311亿元

环球视讯！泰德股份：积极拓展新能源领域客户 研发中心建设项目已正式启用

服务保障航运经济高质量发展，上海海事法院发布实施意见

民政部公布2023年第一批涉嫌非法社会组织名单

连续套现，刘强东想干什么？ 每日头条

【风口解读】瑞斯康达股东拟减持不超2%股份，今年一季度由盈转亏|全球观天下

新疆库尔勒：幼儿园萌宝走进森林消防参观体验

每日热讯!造车新势力淘汰赛继续：爱驰汽车员工称欠薪两月，下一家会是谁

世界实时：截至4月底中国累计发电装机容量约26.5亿千瓦 同比增9.7%

反弹次日的必然结局！

环球报道:全市场几乎最稳的板块！中药行情后续空间还有多少？

IPO参考：诺康达首发暂缓审议 金智教育、雅虎汽车冲刺创业板

元宇宙新鲜事|苹果公司大幅削减其MR头显销售预期 “希壤”业务负责人马杰离职

环球精选！农银策略收益混合：成立2年多累亏34%，基金经理多只在管产品年内净值下行

每日动态!2023沈阳皇姑区半程马拉松！49条公交线路进行临时调整

“移民大巴”计划继续 美国得州使用大巴运送移民至科罗拉多州 快消息

木加石加木读什么_木加石是什么字_世界热闻

【聚看点】涪陵榨菜：公司的轻盐下饭菜品类丰富多样，包含萝卜、青菜、豇豆等蔬菜制品，包括脆口萝卜丁、麻辣萝卜干、泡萝卜丝等产品

世界快报:第十一届智慧医疗高峰论坛暨国药励展大健康产业 系列新知丛书发布会在上海成功举办

【全球播资讯】大方向与小周期

司南导航多家子公司亏损拖后腿，招股书披露同行数据竟出错

每日视讯：宝新能源（000690.SZ）：陆丰甲湖湾电厂含8台100万千瓦超超临界燃煤机组

今夜河南多地预报有雨，周末全省大部有扬沙或浮尘|天天新视野

环球热点评！女生回复昂昂_女生回复昂什么意思

安彩高科：公司正采取各种措施降本增效，如加快推进硅基项目建设，提高盈利水平

5.19收评|盯住了他！

智能行情能否再造当年“五一九”？

本周美股牛股 | 美股AI龙头“杀疯了”！英伟达周涨近12%，年内股价翻倍；Palantir再度蝉联周涨幅榜冠军|天天观速讯

应急管理部赴广州暗查暗访，发现这些隐患！

世界焦点！文创甬江城·约42万方滨江城市综合体，二期新品上线

股市每天交易需要多长时间？股票一般几点买入几点卖出？

什么是成交转化率？转化率和观看成交率是否一样？

征信有逾期怎么处理可以消除？网贷逾期了怎么协商延期还款？

中概股是什么意思？中概股集体大跌说明什么？

中国人民银行副行长宣昌能出席欧洲复兴开发银行2023年年会 世界即时

长城汽车注册资本减至84.87亿元 当前快看

全球快资讯：AI大模型“无米下锅”？合成数据多重优势凸显硅谷巨头正加速布局

建筑面积怎么计算_建筑面积环球热门

超级格斗战士官网在哪下载最新官方下载安装地址

“AI+硬件”时代拉开序幕业界期待下一“iPhone时刻” 边缘算力或成胜负手

alobon是什么牌子的口红（alobon是什么牌子）天天观点

资讯推荐:英雄联盟壁纸iphone专用英雄联盟壁纸

环球快报:股份回购计划频出！年内19家科创板公司出手半导体个股成主力军

葡超阿罗卡vs沙维什比分预测今日推荐：沙维什表现稳定世界热点评

戮力同心是什么意思_戮力同心解释全球热资讯

Alex和申爱_第二次出场我们结婚了时主持人清唱的歌叫什么|世界热点

西条高人动漫名_西条高人动漫天天播报

济人药业：核心单品的关键专利保护期已不足3年屡获殊荣但非核心技术也非自研

今日看点：5名男子酒后推车1公里回家网友：这真不算酒驾

蛋糕怎么做好吃又简单家庭做法蛋糕怎么做好吃又简单

全球快资讯丨客厅沙发高度标准尺寸客厅沙发的标准尺寸

冰箱温度调节1-7对应多少度_新飞冰柜温度调节天天消息

AI热潮延续，这个板块再添把火全球热资讯

面膜保存需要放冰箱吗保存面膜用不用放冰箱每日资讯

科创板今年第三只“百元股”！安杰思上市即破发元生创投、天堂硅谷等投了-全球快看

丁禹兮、宋小宝空降《漂亮的战斗》世界时讯

浩瀚深度：Q1亏损约172万元持续关注包括华为鲲鹏在内的信创行业生态业务｜直击业绩会

环球视讯！泰德股份：积极拓展新能源领域客户研发中心建设项目已正式启用

连续套现，刘强东想干什么？每日头条

世界实时：截至4月底中国累计发电装机容量约26.5亿千瓦同比增9.7%

IPO参考：诺康达首发暂缓审议金智教育、雅虎汽车冲刺创业板

“移民大巴”计划继续美国得州使用大巴运送移民至科罗拉多州快消息

世界快报:第十一届智慧医疗高峰论坛暨国药励展大健康产业系列新知丛书发布会在上海成功举办

中国人民银行副行长宣昌能出席欧洲复兴开发银行2023年年会世界即时

长城汽车注册资本减至84.87亿元当前快看

环球热消息：【20230519午评】决策线上的逐鹿鹿死谁手

高度依赖鹿晗风华秋实的第七次IPO能否如愿？|独家焦点

天天观焦点：IPO参考：阿里巴巴多业务启动上市计划威邦运动冲刺沪市主板

【环球时快讯】杭州：1-4月全市社会消费品零售总额2305亿元同比增长8.2%

计算机视觉行业繁荣发展数字经济ETF（560800）持续获资金流入

天天简讯:涨停雷达：汽车零部件个股异动远东传动触及涨停

网信护航上市企业“青岛实践”再出圈青岛企业之星·长三角知名财经媒体采访行正式启动

最后一波僵尸官网在哪下载最新官方下载安装地址|世界最资讯

天天微速讯：美好生活·民法典相伴|少年学法 “典”亮青春宁夏民法典普法宣传走近群众身边

首日收涨27.68%！军工雷达第一股航天南湖上市航天科工系拿下首个科创板IPO|观察

满车木材的三轮车路口抛锚公交228司机及时帮忙推车

徐小明：周五操作策略世界热点

阿里：云智能集团分拆上市菜鸟、盒马启动上市计划_世界微动态