别再拿架构说事儿了!OpenAI工程师实锤: 数据即模型



jbetker在OpenAI 工作近一年,观察到生成模型的训练过程显示模型行为主要由数据集决定‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
jbetker一线观察
- 作者训练了大量生成模型,观察到所有训练运行之间存在相似性
 
- 模型高度逼近其数据集 
- 模型行为不由架构、超参数或优化器选择决定,而是由数据集决定, 其他因素只是有效地将计算交付给逼近数据集的手段
详细信息‍‍‍‍‍‍‍‍‍‍‍
这哥们在过去一年的OpenAI工作经历中,不断地训练各种生成式AI模型,规模之大令人咂舌。在这个过程中,渐渐发现了一个惊人的现象:
无论你采取何种模型架构、超参数设置或优化方法,只要基于同一训练数据集进行充分的训练,最终模型的行为输出都将收敛到一个相近的结果
这就意味着,影响AI模型行为的决定性因素,并非其架构或配置参数,而是作为模型"蓝本"的训练数据集本身。模型通过近乎"模拟复制"的方式,逐步逼近数据集固有的各种分布模式和内在特征,无论是如何识别狗狗和猫咪,还是学会人类拍照和写作时的一些常见习惯‍
案例: 
比如说,基于同一张宠物照片数据集,不同架构的扩散卷积模型与Vision Transformer生成器最后生成的图像结果是完全一致的;而自回归采样方法与基于扩散模型的图像,在视觉效果上也是如出一辙。这些现象再次印证了训练数据的决定性地位‍
所以当我们在日常生活中谈论诸如"Gemini"、"ChatGPT"、或"Claude"时,我们所指的并非模权重,而是赋予它们以"生命力"的数据集本身。
‍‍‍‍‍‍‍‍
对于生成式人工智能而言,训练数据的重要性甚至超越了模型本身。只有高质量、全面覆盖的数据集,才能真正培育出卓越的AI助手。从这个角度思考,数据集犹如AI模型的"灵魂",为其注入知识和认知能力。我们搭建再强大的模型架构,若无内容丰富的数据做支撑,终将付诸东流
The “it” in AI models is the dataset
国产大模型有没有遇到数据问题?
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

数据是AI的灵魂👇👇
到顶部