本文为2607字,建议阅读5分钟
在当今这个信息爆炸的时代,预测未来事件的能力对于政策制定和决策至关重要。近期,一项由加州大学伯克利分校的研究团队开展的研究,探索了语言模型(LMs)在预测未来事件方面的潜力,尤其是它们是否能够达到与人类竞争性预测者相当的水平。这项研究不仅在技术层面取得了突破,也为未来决策提供了新的视角。
研究团队开发了一个增强检索的语言模型系统,该系统能够自动搜索相关信息、生成预测并聚合预测结果。研究团队在基线评估中使用了GPT-4模型
为了进行这项研究,他们收集了来自五个竞争性预测平台的大量问题数据集。
SpaceX Starship发射预测:
问题:Starship飞船是否能在2023年5月1日星期一之前实现升空?
背景:SpaceX在4月14日获得了Starship飞船的发射许可。原定于4月17日的发射因阀门冻结而被取消。SpaceX CEO埃隆·马斯克在推特上表示:“今天学到了很多,现在正在卸载推进剂,几天后重试。”
解决标准:如果Starship在4月30日晚上11:59 ET之前离开发射台并自主飞行,该问题将被解决为“是”。
Reddit API费用调整预测:
问题:在2023年7月1日之前,Reddit是否会就其API定价结构的变更或实施费用的推迟做出官方宣布?
背景:Reddit计划从7月1日起对API调用收费,目前的定价为每1000次API调用0.24美元。
解决标准:如果Reddit宣布了与当前定价模型不同的变更,或者调整了免费API使用阈值,或者推迟了实施日期,或者与个别组织就特定费率进行了谈判,该问题将被解决为“是”。
以色列对伊朗军事行动预测:
问题:在2023年底之前,以色列是否会在伊朗境内进行军事行动,导致至少五名伊朗人死亡,并随后公开宣称对此行动负责,或者以明确且公开的方式执行行动,使得可信来源可以明确地将攻击归咎于以色列?
背景:考虑到当前的地缘政治紧张局势和历史事件,以色列可能会对伊朗进行军事行动。
特朗普参加RNC辩论预测:
问题:前总统唐纳德·J·特朗普是否会确认参加2023年8月23日举行的共和党全国委员会(RNC)总统初选辩论?
背景:参与标准包括他在辩论中至少发言一次,并被辩论主持人认可。即使他远程参加辩论,也适用此标准。
电影票房预测:
问题:电影《芭比》是否会在首周末的国内票房收入至少是《奥本海默》的两倍?
背景:这一比较将基于Box Office Mojo记录的7月21日至23日的三日首周末票房最终报告数据。
这些例子展示了研究团队如何利用语言模型来处理不同类型的预测问题,包括政治、科技、娱乐等领域。通过这些预测,研究团队评估了他们的系统在不同情境下的性能,并与人类预测者的表现进行了比较。
在模型知识截止日期之后发布的测试集上,他们评估了该系统与人类预测聚合的端到端性能。结果表明,该系统在平均情况下接近于竞争性预测者的群体聚合水平,并且在某些情况下甚至超越了它。
如何预测
研究团队详细描述了他们如何利用语言模型(LMs)来生成预测和推理。这部分的核心是构建一个系统,该系统不仅能够提供预测结果,还能够解释这些预测背后的逻辑。
推理路径的结构化:
研究团队使用开放式草稿纸(scratchpad)来引导模型的推理过程。这种结构化的推理路径包括重新表述问题、提供支持预测的论据、权衡不同论据的重要性,以及最终形成预测。
模型的微调:
为了提高模型在预测任务中的推理能力,研究团队采用了自我监督的微调方法。他们首先在训练集上生成预测,然后选择那些超越群体预测的输出作为微调数据。通过这种方式,模型学会了在特定上下文中应用合适的推理方法。
推理提示的优化:
研究团队通过超参数搜索来优化推理提示(prompt),以引导模型生成更准确的预测和推理。他们测试了不同的提示,并根据在验证集上的表现来选择最佳提示。
模型的基线性能:
在基线设置中,研究团队评估了所有14个语言模型在没有额外信息检索的情况下的预测性能。他们发现,大多数模型的预测性能并不理想,通常接近或低于随机猜测的水平。
系统性能的评估:
研究团队通过在测试集上评估优化后的系统,发现系统的性能接近于人类群体预测。他们还分析了系统在不同条件下的表现,例如在群体预测不确定性较高时,系统的表现尤为出色。
系统与人类预测的比较:
在某些情况下,研究团队的系统在特定的选择性设置中超过了人类群体预测。例如,当系统仅在检索到至少5篇相关文章时才进行预测,或者仅在群体预测表达高度不确定性时进行预测,系统的表现超过了人类群体。
预测结果
研究团队详细报告了他们开发的系统在预测任务上的表现,并与人类预测者的群体表现进行了比较。主要关注了系统在测试集上的性能评估
系统性能评估:
研究团队首先在测试集上评估了他们系统的Brier分数,这是衡量预测准确性的标准指标。他们发现,系统的平均Brier分数接近于人类预测者的群体聚合水平,这表明系统在预测未来事件方面的表现与人类相当。
准确性比较:
除了Brier分数,研究团队还报告了系统与人类群体在准确性上的比较。他们发现,尽管系统在某些类别上的表现有所波动,但总体上,系统在准确性上与人类群体相当。
系统优势和劣势分析:
研究团队进一步分析了系统在不同条件下的表现,发现系统在人类群体预测不确定性较高时表现更好。此外,系统在较早的检索日期和检索到更多相关文章时,预测性能也有所提升。
选择性预测:
研究团队提出了一种选择性预测的策略,即系统可以根据其识别的优势和劣势来决定是否对特定问题进行预测。在这种策略下,系统在某些条件下的表现超过了人类群体。
系统与人类预测的结合:
研究团队还展示了如何将系统预测与人类群体预测相结合,以提高整体预测性能。通过加权平均,他们发现结合两者的预测结果在Brier分数上有所改善。
系统校准:
研究团队指出,他们的系统在验证集和测试集上表现出良好的校准性,这意味着系统能够合理地估计预测的不确定性。
这项研究的重要性在于,它不仅展示了语言模型在预测领域的潜力,而且还提出了一种新的方法,即通过自我监督的方式来微调语言模型,以提高其在预测任务中的推理能力。研究团队首先使用各种草稿纸提示来引导基础语言模型,以在训练集中的问题上产生预测。然后,他们在那些超越群体预测的输出上微调一个新的语言模型,这教会了模型在给定上下文中应用哪种推理方法,并提高了预测性能
研究还发现,通过优化和评估系统,可以收集到大量关于训练集的预测数据,然后选择那些模型表现优于人类群体的子集。这种方法不仅提高了模型的预测准确性,而且也为我们理解模型的预测提供了一种方式。此外,研究团队还提出了一种新的数据增强方法,通过在不同检索配置下为每个问题检索两套文章,从而增加了数据的多样性。
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
大模型做复杂预测👇👇