最近在测试大模型的外挂知识库的能力。
咋测试呢?一般来说,一是测回答准确度,二是测鲁棒性。
简单理解,就是我问的准确时候,AI能不能也准确回复。问的不准确时候,能不能大致回复准确。
既然要测试准确度,自然需要有测试集。测试集也就是提前准备好的一个个问答对。
然后把问题挨个去问大模型,收集答案,再把AI回答的答案,跟自己提前准备好的内容比对,计算一个准确率。
然后不断调整RAG知识库的内容,来得到一个相对较高的准确率。
当然,提高准确率的方法,不只有调整知识库内容,也可以调整向量召回的方法,比如多路召回,或者调整文字匹配和向量匹配的权重等。
不过这不是本文的重点,我还是想先讨论一下测试集的构建。
咋构建测试集呢?
一般是用问题模板,往里塞具体的问题情况。
举个例子,对于酒店的客服问答知识库测试集。
我的模板可能是:
{问题1}截止到几点?比如这个问题1就可以“早餐”、“自助餐”、“温泉”
那么用自动化工具,就能构建出三个问题:
早餐截止到几点?自助餐截止到几点?温泉截止到几点?
诸如此类。
当然,问题模板不止这一个,可以根据情况多预设几个模板。
这段时间测试下来,一个个手造模板还是太繁琐了。
还不如让AI根据具体的知识库自己的构造问题。
此时此刻,我终于明白了为啥字节要用GPT4的api,来萃取知识数据库了,毕竟 gpt4 智能又方便,在这种任务完成的效果很好。
用gpt4哪儿都好,唯一的缺点是贵,字节家大业大不缺钱,但是我缺钱,就只能用免费的国产AI搞。
这是我最近的一个感悟:
研究AI,学习AI,不能只浮于表面,只研究prompt和应用用法这些。想要用的好,还是要多实践,往深水区走,学习底层原理亲自部署领略一番。
我是想象力AI,写过很多个有意思的自动化机器人,有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话,千万记得要加我 aiaiai2098,发送暗号:“芝麻开门”,我会拉你进 AI-RPA 群,一起交流。
往期文章:
盘点一下之前写过的AI、RPA机器人(内附使用教程)
价值 3w 的 RPA 自动化运营公众号的设计图
必看!RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年,我赚了多少钱?