Prompt Engineer 刚入职即失业?深度学习模型优化Prompt的新方法



本文为1580字,建议阅读4分钟,
Google DeepMind 刚刚发表了一篇新的论文,介绍了如何使用 大语言模型LLM 来优化 prompt,优化过的 prompt 在 PaLm 2-L / GPT-3.5 / GPT-4 模型中测试,benchmark 的指标都提升了。 
优化的方法: 
1. 创建一个元提示 meta prompt(如何创建 meta prompt 可以参考论文) 
2. 在每一个优化的步骤生成新的 prompt 
3. 评估 & 迭代 
当然,并不是所有的 prompt 都可以用这种方法来优化,在某些场景上(例如 high-dimensional and complex problems)这种方法的效果还不是特别好。  
详细的论文分析:大家可以去这个地址‍‍
https://app.copilothub.ai/read/s/1hxkweg1ukj5s

论文主要内容
1)这篇论文提出了一种名为“优化引导(Optimization by PROmpting,OPRO)”的简单而有效的方法,以将大型语言模型(LLMs)用作优化器。

作者通过线性回归和旅行推销员问题(Travelling salesman problem, TSP是组合优化中的一个NP困难问题,在运筹学和理论计算机科学中非常重要。问题内容为“给定一系列城市和每对城市之间的距离,求解访问每座城市一次并回到起始城市的最短回路)的案例研究展示了LLMs在优化中的潜力。他们表明,LLMs可以通过提示找到高质量的解决方案,有时甚至可以胜过手工设计的启发式算法。
2)作者还展示了LLMs优化提示的能力,特别是在自然语言处理任务中,目标是找到最大化任务准确性的提示。他们指出,对于LLMs实现良好性能,提示工程非常重要,并且在小型训练集上优化准确性提示就足以在测试集上获得高性能。
3)OPRO框架包括LLM根据元提示(meta prompt)生成目标函数的新解决方案,元提示包含先前生成的解决方案及其分数,以及任务的自然语言描述。新解决方案经过评估后添加到元提示中,以进行下一次优化步骤。优化过程在LLM无法提出更高分数的新解决方案或达到最大步数时终止。
4)作者对几种LLMs进行了全面评估,包括PaLM-2模型系列中的text-bison和Palm 2-L,以及gpt-3.5-turbo和gpt-4。他们在GSM8K和Big-Bench Hard基准上优化提示,表明在他们的评估中,所有LLMs都通过迭代优化持续改进了生成的提示的性能。最佳生成的指令与少数示范的思维链提示性能相匹配,并且在GSM8K上优于人工设计提示的零示范性能高达8%。优化的提示还可以转移到同一领域的其他基准,并实现显著的性能提升
结语‍‍
从长期上来看,让 LLM 来写 & 优化 prompt 应该是一个必然的过程。从ChatGPT发布以来,以我每天对当前AI技术进化的追踪和了解来看,不管你喜不喜欢,人类正在朝着通用人工智能AIGC快速前行,感觉似乎一切都在自动化,ChatGPT之前是人工智障,ChatGPT之后第一次强列感觉到了人工智能技术每天都在大踏步向前推进,我们这代人肯定会经历机器大量代替人工的时刻,那么人以后干什么?娱乐?艺术?你觉得呢?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

周末愉快,想想以后吧,哈哈👇👇
到顶部