2023年AI研究、产业和开源领域的主要发展高潮与低谷:⼀年回顾



本文为6508字,建议阅读10分钟
作者:SEBASTIAN RASCHKA 博士
原文:https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023
翻译整理:opencat
一篇不错的回顾性文章,但是显然作者写的时候OpenAI发布会还没有举行,这篇文章加上这两天OpenAI发布会应该就比较全面了,关于OpenAI发布会总结可以去看我写的这篇文章OpenAI首次开发者大会:GPT商店重磅来袭,AI要开始狂飙了,系好安全带!‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
以下是正文:
我们正在缓慢但稳步地接近 2023 年年底。我认为现在是对 2023 年⼈⼯智能研究、⾏业和开源领域发⽣的主要事件进⾏简要回顾的好时机。当然,这篇⽂章只是我脑海中最相关的主题的⼀瞥。
2022 年科技趋势的发展
今年,我们在⼈⼯智能产品⽅⾯还没有看到任何根本性的新技术或⽅法。相反,今年的重点 是在去年有效的基础上加倍努⼒:
ChatGPT 与 GPT 3.5 升级到 GPT 4 DALL-E 2 升级为 DALL-E 3
Stable Diffusion 2.0 升级为 Stable Diffusion XL
...
⼀个有趣的传⾔是,GPT-4 是由 16 个⼦模块组成的专家 (MoE) 模型的混合体。据传这 16 个⼦模块中的每⼀个都有 1110 亿个参数(作为参考,GPT-3 有 1750 亿个参数)。

2023 年⼈⼯智能现状报告中的 GPT-3/GPT-4 模因
GPT-4 是 MoE 的事实可能是真的,尽管我们还不确定。⼀个趋势是,⾏业研究⼈员在论⽂中分享的信息⽐以前越来越少。例如,虽然 GPT-1、GPT-2、GPT-3 和 InstructGPT 论⽂公开了架构和训练细节,但 GPT-4 架构却是⼀个严格保守的秘密。或者再举⼀个例⼦:虽然Meta AI 的第⼀篇 Llama 论⽂详细介绍了⽤于训练模型的训练数据集,但 Llama 2 模型将此信息保密。关于这⼀点,斯坦福⼤学上周推出了基⾦会模型透明度指数,根据该指数, Llama 2 以 54% 领先,GPT-4 以 48% 排名第三。
当然,要求公司分享商业秘密可能是不合理的。这仍然是⼀个值得⼀提的有趣趋势,因为看 起来我们将在 2024 年继续沿着这条路线⾛下去。
关于缩放,今年的另⼀个趋势是缩放输⼊上下⽂⻓度。例如,GPT-4 竞争对⼿ Claude 2 的主要卖点之⼀是它⽀持最多 100k 个输⼊令牌(GPT-4 ⽬前仅限于 32k 个令牌),这使得它对于⽣成⻓⽂档摘要特别有吸引⼒。它⽀持 PDF 输⼊这⼀事实使其在实践中特别有⽤。

使⽤ Claude 2 ⽣成 PDF ⽂档的摘要
开源和研究趋势
我记得去年开源社区主要关注潜在扩散模型(例如稳定扩散)和其他计算机视觉模型。扩散 模型和计算机视觉仍然与以往⼀样相关。然⽽,今年开源和研究社区更加关注的是大语言模型LLM。
开源(或者更确切地说是公开可⽤)LLM的爆炸式增⻓部分归功于 Meta 发布的第⼀个预训练的 Llama 模型,尽管其许可受到限制,但激发了许多研究⼈员和从业者:Alpaca、Vicuna、Llama-Adapter 、Lit-Llama,仅举⼏例。
⼏个⽉后,Llama 2在很⼤程度上取代了 Llama 1,成为功能更强⼤的基础模型,甚⾄还提供了微调版本。
然⽽,⼤多数开源 LLM 仍然是纯⽂本模型,尽管 Llama-Adapter v1 和 Llama-Adapter v2 微调⽅法等⽅法有望将现有的 LLM 转变为多模式 LLM。

数据来⾃ Llama-Adapter V2,https://arxiv.org/abs/2304.15010
⼀个值得注意的例外是 Fuyu-8B 型号,该型号仅在⼏天前的 10 ⽉ 17 ⽇发布。

带注释的图来⾃ https://www.adept.ai/blog/fuyu-8b
值得注意的是,Fuyu 将输⼊补丁直接传递到线性投影(或嵌⼊层)以学习⾃⼰的图像补丁嵌⼊,⽽不是像其他模型和⽅法那样依赖额外的预训练图像编码器(示例包括 LLaVA 和MiniGPT-V)。极⼤地简化了架构和训练设置。
除了上⾯提到的少数多模态尝试之外,最⼤的研究重点仍然是将 GPT-4 ⽂本性能与 <100 B 参数范围内的较⼩模型相匹配,这可能是由于硬件资源成本和限制、有限的数据访问以及对  更短的开发时间(由于发布的压⼒,⼤多数研究⼈员⽆法花费数年时间来训练单个模型)。
然⽽,开源LLM的下⼀个突破不⼀定来⾃于将模型扩展到更⼤的规模。看看 MoE 的⽅法能否在 2024 年将开源模型提升到新的⾼度将会很有趣。
有趣的是,在研究前沿,我们还看到了 2023 年基于 Transformer 的 LLM 的⼀些替代⽅案,包括循环 RWKV LLM 和卷积 Hyena LLM,旨在提⾼效率。然⽽,基于 Transformer 的LLM仍然是当前最先进的技术。

Hyena LLM 架构来⾃https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna
总体⽽⾔,开源领域度过了⾮常活跃的⼀年,取得了许多突破和进步。这是整体⼤于部分之 和的领域之⼀。因此,令我感到难过的是,有些⼈正在积极游说反对开源⼈⼯智能。但我希 望我们能够保持积极的势头,构建更⾼效的解决⽅案和替代⽅案,⽽不是仅仅更加依赖⼤型 科技公司发布的类似 ChatGPT 的产品。
感谢开源和研究社区,我们看到了可以在单个  GPU 上运⾏的⼩型⾼效模型,例如 1.3B 参数 phi1.5、7B Mistral 和 7B Zephyr 更接近⼤型专有模型的性能,这是⼀个令⼈兴奋的趋势,我希望在 2024 年能够继续下去。
⽣产⼒承诺
我认为开源⼈⼯智能是开发⾼效和定制的LLM解决⽅案的主要途径,包括基于我们的个⼈或特定领域数据为各种应⽤程序进⾏微调的LLM。
⾃从 ChatGPT 发布以来,我们已经看到 LLM 被⽤于⼏乎所有领域。本⽂的读者可能已经使⽤过 ChatGPT,因此我不必解释 LLM 确实对某些任务有⽤。
关键是我们将它们⽤于“正确”的事情。例如,我可能不想向 ChatGPT 询问我最喜欢的杂货店的营业时间。然⽽,我最喜欢的⽤例之⼀是修复我的语法或帮助我集思⼴益,重新措辞我 的句⼦和段落。从更⼤的⻆度来看,LLM的基础是提⾼⽣产⼒的承诺,您可能也已经体 验过这⼀点。
除了常规⽂本的LLM之外,微软和 GitHub 的 Copilot 编码助⼿也⽇趋成熟,越来越多的⼈开始使⽤它。今年早些时候,Ark-Invest 的⼀份报告估计,代码助⼿可以将完成编码任务的时间减少约 55%。

图表来⾃ https://ark-invest.com/home-thank-you-big-ideas-2023/
是⾼于还是低于  55%  尚有争议,但如果您以前使⽤过代码助⼿,您会发现这些助⼿⾮常有⽤,可以让繁琐的编码相关任务变得更加轻松。
有⼀点是肯定的:编码助理会留下来,⽽且随着时间的推移,他们可能只会变得更好。他们 会取代⼈类程序员吗?我希望不是。但它们⽆疑会让现有的程序员变得更有⽣产⼒。
这对 StackOverflow 意味着什么?《⼈⼯智能现状》报告中包含⼀个图表,显示了StackOverflow 与 GitHub 的⽹站流量对⽐,这可能与 Copilot 的采⽤率不断提⾼有关。然⽽,我相信即使是 ChatGPT/GPT-4 对于编码相关的任务也已经⾮常有帮助了。我怀疑ChatGPT 也对 StackOverflow 流量下降负有部分(甚⾄很⼤程度上)责任。

图表来⾃《2023 年⼈⼯智能现状》报告
⼈⼯智能问题
幻觉
到 2023年,同样的问题仍然困扰着LLM:他们会产⽣有毒内容,并且容易产⽣幻觉。在这⼀年中,我讨论了解决这个问题的⼏种⽅法,包括⼈类反馈强化学习 (RLHF) 和 Nvidia 的 NeMO Guardrails。然⽽,这些⽅法仍然是过于严格或不够严格的创可贴。
到⽬前为⽌,还没有⼀种⽅法(甚⾄没有⼀种⽅法的想法)能够100%可靠地解决这个问 题,并且不会削弱LLM的积极能⼒。在我看来,这⼀切都取决于我们如何使⽤LLM:不要将LLM⽤于所有事情,使⽤计算器进⾏数学计算,将LLM视为您的写作伴 侣并仔细检查其输出,等等。
此外,对于特定的业务应⽤程序,探索检索增强(RAG)系统作为折衷⽅案可能是值得的。在 RAG 中,我们从语料库中检索相关⽂档段落,然后根据检索到的内容调整基于 LLM 的⽂本⽣成。这种⽅法使模型能够从数据库和⽂档中提取外部信息,⽽不是记住所有知识。

机器学习 Q 和 AI 中的 RAG 示例
版权
更紧迫的问题是围绕⼈⼯智能的版权争论。根据维基百科的说法,“受版权保护材料训练的LLM的版权状况尚未完全了解。”总体⽽⾔,许多规则似乎仍在起草和修改中。我希望规则,⽆论是什么,都能明确,以便⼈⼯智能研究⼈员和从业者能够做出相应的调整和⾏ 动。
评估
困扰学术研究的⼀个问题是,流⾏的基准测试和排⾏榜被认为是半破解的,因为测试集可能已经泄露并成为了LLM的训练数据。
⾃动化 LLM 评估的⼀种流⾏但不太简单的⽅法是询问⼈们的偏好。另外,许多论⽂也依赖GPT-4 作为次优⽅法。

使⽤ LIMA 论⽂中的⼈类和 GPT-4 偏好评估的示例
收⼊
⽣成式⼈⼯智能⽬前仍处于探索阶段。当然,我们都经历过⽂本和图像⽣成器对于特定应⽤程序很有帮助。然⽽,由于昂贵的托管和运⾏时间成本,它们是否能为企业产⽣正现⾦流仍然是⼀个备受争议的话题。例如,据报道 OpenAI 去年亏损 5.4 亿美元。另⼀⽅⾯,最近的报告称 OpenAI ⽬前每⽉收⼊ 8000 万美元,这可能抵消或超过其运营成本。
假图像
与⽣成⼈⼯智能相关的更⼤问题之⼀是虚假图像和视频的创建,⽬前在社交媒体平台上尤为 明显。虚假图像和视频⼀直是⼀个问题,与 Photoshop 等软件降低虚假内容的进⼊⻔槛类似,⼈⼯智能正在将这⼀问题提升到⼀个新的⽔平。
其他⼈⼯智能系统旨在检测⼈⼯智能⽣成的内容,但这些系统对于⽂本、图像或视频都不可 靠。某种程度上遏制和解决这些问题的唯⼀⽅法是依靠值得信赖的专家。与我们不从互联⽹上的随机论坛或⽹站获取医疗或法律建议类似,我们可能也不应该在没有仔细检查的情况下 信任互联⽹上随机帐户的图像和视频。
数据集瓶颈
与前⾯提到的版权争论相关,许多公司(包括 Twitter/X 和 Reddit)关闭了免费 API 访问以增加收⼊,同时也是为了防⽌抓取者收集平台数据⽤于 AI 训练。
我⻅过许多专⻔从事数据集相关任务的公司的⼴告。尽管令⼈遗憾的是,⼈⼯智能可能会导 致某些⼯作⻆⾊的⾃动化,但它似乎同时创造了新的机会。
为开源 LLM 进步做出贡献的最佳⽅法之⼀可能是构建⼀个众包数据集的平台。我的意思是编写、收集和整理具有 LLM 训练明确许可的数据集。
RLHF 是蛋糕上的樱桃吗?
当 Llama 2 模型套件发布时,我很⾼兴看到它包含针对聊天进⾏了微调的模型。Meta AI 使⽤⼈类反馈强化学习 (RLHF),提⾼了模型的有⽤性和⽆害性

来⾃ Llama 2 的图:开放基础和微调聊天模型, https://arxiv.org/abs/2307.09288
我⼀直认为 RLHF 是⼀种⾮常有趣且有前途的⽅法,但除了 InstructGPT、ChatGPT 和 Llama 2 之外,它并没有被⼴泛使⽤。因此,我惊讶地发现了⼀张关于 RLHF ⽇益流⾏的图表。我当然没想到它会出现,因为它还没有被⼴泛使⽤。

《2023 年⼈⼯智能状况报告》中的 RLHF 受欢迎程度图表。
由于 RLHF 实施起来有点复杂和棘⼿,因此⼤多数开源项⽬仍然专注于指令微调的监督微调。
RLHF 的最新替代⽅案是直接偏好优化 (DPO)。在相应的论⽂中,研究⼈员表明,RLHF 中 拟合奖励模型的交叉熵损失可以直接⽤于 LLM 的微调。根据他们的基准,使⽤ DPO 效率更⾼,并且在响应质量⽅⾯通常也优于 RLHF/PPO。
图来⾃ DPO 论⽂
DPO 似乎还没有被⼴泛使⽤。然⽽,令我兴奋的是,两周前,我们通过 Lewis Tunstall 及其同事通过 DPO 训练了第⼀个公开可⽤的 LLM,该模型似乎优于通过 RLHF 训练的更⼤的
Llama-2 70b 聊天模型:

Zephyr 7B 公告截图
然⽽,值得注意的是,RLHF 并未明确⽤于优化基准性能;它的主要优化⽬标是⼈类⽤户评估的“有⽤”和“⽆害”,这⾥不做阐述。
分类有⼈吗?
上周,我在⼏周前的 Packt ⽣成⼈⼯智能会议上发表了演讲,强调⽂本模型最突出的⽤例之⼀仍然是分类。例如,想想常⻅的任务,例如垃圾邮件分类、⽂档分类、客户评论分类以及 社交媒体上的有毒⾔论标记。
根据我的经验,使⽤“⼩型”LLM(例如 DistilBERT)仅使⽤单个 GPU 可以获得⾮常好的分类性能。

图表明您可以将⼩型LLM作为⽂本分类器进⾏微调
我在今年的深度学习基础课程第     8     单元中发布了使⽤⼩型LLM进⾏⽂本分类的练习, 其中 Sylvain Payot 甚⾄通过微调现成的 Roberta 模型,在 IMDB 电影评论数据集上实现了>96% 的预测准确度。(作为参考,我在该数据集上训练的最好的基于机器学习的经典词袋模型仅达到 89% 的准确率)。

在我的深度学习基础课程中讨论最佳分类模型.
话虽如此,我还没有看到任何关于LLM分类的新的主要⼯作或趋势。⼤多数从业者仍然 使⽤基于 BERT 的编码器模型或编码器-解码器模型,例如 2022 年推出的 FLAN-T5。这可能是因为这些架构的⼯作效果仍然令⼈惊讶且令⼈满意。
表格数据的状态
2022 年,我写了《表格数据深度学习简史》,涵盖了许多有趣的基于深度学习的表格数据⽅法。然⽽,与上⾯提到的分类LLM类似,表格数据集⽅⾯也没有太多进展,或者我只 是太忙⽽没有注意到。

供参考的表格数据集示例
2022 年,Grinsztajn 等⼈。写了⼀篇论⽂《为什么基于树的模型在表格数据上仍然优于深度学习?》我相信,对于中⼩型数据集(10k     训练样本)上的表格数据,基于树的模型(随机森林和 XGBoost)优于深度学习⽅法的主要结论仍然是正确的。
就这⼀点⽽⾔,在存在近 10 年之后,XGBoost 推出了⼀个⼤型 2.0 版本,该版本具有更好的内存效率、⽀持不适合内存的⼤型数据集、多⽬标树等等。
2023 年计算机视觉
虽然今年的重点是LLM,但计算机视觉领域也取得了许多进展。由于本⽂已经很⻓了, 我不会介绍最新的计算机视觉研究。不过,我有⼀篇关于 2023 年计算机视觉研究现状的独⽴⽂章,是我今年夏天参加 CVPR 2023 时写的:
AI 前沿 :2023 年计算机视觉现状
⼤型语⾔模型开发 (LLM) 的开发仍在快速进⾏。与此同时,抛开⼈⼯智能监管争论不谈,LLM的消息发布速度似乎⽐平时稍慢⼀些。这是⼀个 偶尔关注计算机视觉并讨论该领域研究和开发现状的好机会。这个主题也 与温哥华 CVPR 2023 的回顾相得益彰,这是⼀次精彩的会议,可能是我迄今为⽌参加过的最好的会议场地。
除了研究之外,与计算机视觉相关的⼈⼯智能也激发了新产品和体验的灵感,这些产品和体 验在今年已经⽇趋成熟。
例如,当我今年夏天参加奥斯汀的 SciPy 会议时,我看到第⼀辆真正的⽆⼈驾驶 Waymo 汽⻋在街道上⾏驶。
⽽从⼀次电影院之旅中,我也看到⼈⼯智能在电影⾏业的应⽤越来越普遍。最近的⼀个例⼦ 是《夺宝奇兵     5》中哈⾥森·福特的去衰⽼,电影制作者使⽤演员的旧档案材料训练⼈⼯智能。
然后,⽣成式⼈⼯智能功能现已牢固地集成到流⾏的软件产品中。最近的⼀个例⼦是 Adob e 的 Firefly 2。
2024 年预测
预测始终是最具推测性和挑战性的⽅⾯。去年,我预测我们会看到LLM在⽂本或代码以  外的领域有更多应⽤。其中⼀个例⼦是 HyenaDNA,⼀种 DNA LLM。另⼀个是Geneformer,这是⼀个经过 3000 万个单细胞转录组预训练的Transformer,旨在促进⽹络⽣物学的预测。
到 2024 年,LLM将越来越多地改变计算机科学之外的 STEM 研究。
另⼀个新兴趋势是由于需求⾼⽽  GPU 稀缺,各公司开发定制⼈⼯智能芯⽚。⾕歌将加⼤⼒度开发 TPU 硬件,亚⻢逊推出了 Trainium 芯⽚,AMD 可能正在缩⼩与 NVIDIA 的差距。⽽现在,微软和OpenAI也开始开发⾃⼰的定制AI芯⽚。挑战将是确保主要深度学习框架内对该硬件的全⾯和强⼤的⽀持。
在开源⽅⾯,我们仍然落后于最⼤的闭源模型。⽬前,最⼤的公开型号是 Falcon 180B。这可能不太令⼈担忧,因为⼤多数⼈⽆论如何都⽆法访问处理这些模型所需的⼤量硬件资源。我更渴望看到更多由多个较⼩⼦模块组成的开源 MoE 模型,⽽不是更⼤的模型,我在本⽂前⾯讨论过这⼀点。
我还乐观地看到众包数据集⽅⾯的努⼒不断增加,以及 DPO 的崛起,以取代最先进的开源模型中的监督微调。
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

觉得好看,请点“在看”👇👇
到顶部