理解字节：自己构建数据集，还不如压榨 gpt4

2024-05-08 15:41#1 标记1

最近在测试大模型的外挂知识库的能力。
咋测试呢？一般来说，一是测回答准确度，二是测鲁棒性。
简单理解，就是我问的准确时候，AI能不能也准确回复。问的不准确时候，能不能大致回复准确。
既然要测试准确度，自然需要有测试集。测试集也就是提前准备好的一个个问答对。
然后把问题挨个去问大模型，收集答案，再把AI回答的答案，跟自己提前准备好的内容比对，计算一个准确率。
然后不断调整RAG知识库的内容，来得到一个相对较高的准确率。
当然，提高准确率的方法，不只有调整知识库内容，也可以调整向量召回的方法，比如多路召回，或者调整文字匹配和向量匹配的权重等。
不过这不是本文的重点，我还是想先讨论一下测试集的构建。
咋构建测试集呢？
一般是用问题模板，往里塞具体的问题情况。
举个例子，对于酒店的客服问答知识库测试集。
我的模板可能是：
{问题1}截止到几点？比如这个问题1就可以“早餐”、“自助餐”、“温泉”
那么用自动化工具，就能构建出三个问题：
早餐截止到几点？自助餐截止到几点？温泉截止到几点？
诸如此类。
当然，问题模板不止这一个，可以根据情况多预设几个模板。
这段时间测试下来，一个个手造模板还是太繁琐了。
还不如让AI根据具体的知识库自己的构造问题。
此时此刻，我终于明白了为啥字节要用GPT4的api，来萃取知识数据库了，毕竟 gpt4 智能又方便，在这种任务完成的效果很好。
用gpt4哪儿都好，唯一的缺点是贵，字节家大业大不缺钱，但是我缺钱，就只能用免费的国产AI搞。
这是我最近的一个感悟：
研究AI，学习AI，不能只浮于表面，只研究prompt和应用用法这些。想要用的好，还是要多实践，往深水区走，学习底层原理亲自部署领略一番。
我是想象力AI，写过很多个有意思的自动化机器人，有小红书自动发图、抖音自动涨粉、和微信自动加好友拉群等等。
如果你感兴趣的话，千万记得要加我 aiaiai2098，发送暗号：“芝麻开门”，我会拉你进 AI-RPA 群，一起交流。
往期文章：
盘点一下之前写过的AI、RPA机器人（内附使用教程）
价值 3w 的 RPA 自动化运营公众号的设计图
必看！RPA 自动化开发效率增加100%
记录 | 学习实践 AI 一年，我赚了多少钱？