Prompt Engineer 刚入职即失业？深度学习模型优化Prompt的新方法

2023-09-09 00:01#1 标记1

本文为1580字，建议阅读4分钟，
Google DeepMind 刚刚发表了一篇新的论文，介绍了如何使用大语言模型LLM 来优化 prompt，优化过的 prompt 在 PaLm 2-L / GPT-3.5 / GPT-4 模型中测试，benchmark 的指标都提升了。
优化的方法：
1. 创建一个元提示 meta prompt（如何创建 meta prompt 可以参考论文）
2. 在每一个优化的步骤生成新的 prompt
3. 评估 & 迭代
当然，并不是所有的 prompt 都可以用这种方法来优化，在某些场景上（例如 high-dimensional and complex problems）这种方法的效果还不是特别好。
详细的论文分析：大家可以去这个地址‍‍
https://app.copilothub.ai/read/s/1hxkweg1ukj5s

论文主要内容
1）这篇论文提出了一种名为“优化引导（Optimization by PROmpting，OPRO）”的简单而有效的方法，以将大型语言模型（LLMs）用作优化器。

作者通过线性回归和旅行推销员问题（Travelling salesman problem, TSP是组合优化中的一个NP困难问题，在运筹学和理论计算机科学中非常重要。问题内容为“给定一系列城市和每对城市之间的距离，求解访问每座城市一次并回到起始城市的最短回路）的案例研究展示了LLMs在优化中的潜力。他们表明，LLMs可以通过提示找到高质量的解决方案，有时甚至可以胜过手工设计的启发式算法。
2）作者还展示了LLMs优化提示的能力，特别是在自然语言处理任务中，目标是找到最大化任务准确性的提示。他们指出，对于LLMs实现良好性能，提示工程非常重要，并且在小型训练集上优化准确性提示就足以在测试集上获得高性能。
3）OPRO框架包括LLM根据元提示（meta prompt）生成目标函数的新解决方案，元提示包含先前生成的解决方案及其分数，以及任务的自然语言描述。新解决方案经过评估后添加到元提示中，以进行下一次优化步骤。优化过程在LLM无法提出更高分数的新解决方案或达到最大步数时终止。
4）作者对几种LLMs进行了全面评估，包括PaLM-2模型系列中的text-bison和Palm 2-L，以及gpt-3.5-turbo和gpt-4。他们在GSM8K和Big-Bench Hard基准上优化提示，表明在他们的评估中，所有LLMs都通过迭代优化持续改进了生成的提示的性能。最佳生成的指令与少数示范的思维链提示性能相匹配，并且在GSM8K上优于人工设计提示的零示范性能高达8%。优化的提示还可以转移到同一领域的其他基准，并实现显著的性能提升
结语‍‍
从长期上来看，让 LLM 来写 & 优化 prompt 应该是一个必然的过程。从ChatGPT发布以来，以我每天对当前AI技术进化的追踪和了解来看，不管你喜不喜欢，人类正在朝着通用人工智能AIGC快速前行，感觉似乎一切都在自动化，ChatGPT之前是人工智障，ChatGPT之后第一次强列感觉到了人工智能技术每天都在大踏步向前推进，我们这代人肯定会经历机器大量代替人工的时刻，那么人以后干什么？娱乐？艺术？你觉得呢？‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

周末愉快，想想以后吧，哈哈👇👇