扁鹊-2.0 中文医疗大模型来了!


扁鹊[1]是华南理工大学未来技术学院-广东省数字孪生人重点实验室开源的中文医疗大模型,该模型是由千万规模中文健康对话数据指令微调而来。
近期热文
当 AI 遇上爬虫:让数据提取变得前所未有的简单!
超强 OCR 神器:支持批量 OCR、文档识别、公式识别,离线可用、完全免费!
2024 年最完整的 AI Agents 清单来了,涉及 13 个领域,上百个 Agents!
扁鹊 2.0
基于扁鹊健康大数据集,扁鹊大模型开发团队选用了 ChatGLM-6B[2] 作为初始模型,并对其进行了全参数的精细指令微调,成功开发出了 BianQue-2.0。
与前一代 BianQue-1.0 模型相比,BianQue-2.0 在数据层面进行了显著扩展,新增了药品说明书、医学百科以及 ChatGPT 的蒸馏指令等,这些新增内容显著提升了模型在提供建议和进行知识查询方面的能力。
示例1
宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊
示例2
我外婆近来身体越来越差了,带她去医院检查,医生说她得了肾静脉血栓,我们全家都很担心,医生开了很多注射用低分子量肝素钙,我想问它的药理毒理?
示例3
扁鹊-2.0 与扁鹊-1.0 联合使用
在对话的前几轮中,扁鹊-1.0 模型负责进行问询,以收集必要的信息。而在对话的最后一轮,扁鹊-2.0 模型则根据前面收集到的信息,提供了经过深思熟虑的回答。
扁鹊 2.0 快速上手
1.克隆项目
git clone https://github.com/scutcyr/BianQue.git
2.安装依赖
cd BianQueconda env create -n proactivehealthgpt_py38 --file proactivehealthgpt_py38.ymlconda activate proactivehealthgpt_py38pip install cpm_kernelspip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
对于 Windows 平台,推荐使用以下命令来安装相应依赖:
cd BianQueconda create -n proactivehealthgpt_py38 python=3.8conda activate proactivehealthgpt_py38pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116pip install -r requirements.txtpip install rouge_chinese nltk jieba datasets# 以下安装为了运行demopip install streamlitpip install streamlit_chat
启动服务
streamlit run bianque_v2_app.py --server.port 9005
当服务启动成功后,你可以打开浏览器输入 http://localhost:9005/ 来访问 BianQue-2.0。
扁鹊健康大数据
在健康领域,用户在单轮交互中往往无法清晰完整地描述自己的问题。即使是 ChatGPT,在没有明确指示采用问答形式的情况下,也会倾向于根据用户的描述迅速提供建议和方案。这忽略了实际医疗咨询中医生会根据用户描述进行多轮深入询问的情况。
如下图所示,扁鹊大模型开发团队把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。

此外,扁鹊大模型开发团队通过深入分析多个开源中文医疗问答数据集,如 MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、cMedQA2 和 Chinese-medical-dialogue-data,关注了单轮和多轮交互特性以及医生问询行为,同时结合实验室长期积累的生活空间健康对话大数据,成功构建了千万级别规模的扁鹊健康大数据集。
对话数据被统一为一种指令格式:
input: "病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目医生:您好病人:六岁宝宝拉大便都是一个礼拜或者10天才一次正常吗,要去医院检查什么项目医生:宝宝之前大便什么样呢?多久一次呢病人:一般都是一个礼拜,最近这几个月都是10多天医生:大便干吗?病人:每次10多天拉的很多医生:"target: "成形还是不成形呢?孩子吃饭怎么样呢?"
在训练数据中,包含了大量的医生问询文本,这些文本并非直接提供建议,而是以提问的形式出现。这种设计有助于增强 AI 模型在进行医疗对话时的询问技巧,从而更有效地获取用户信息。
https://github.com/scutcyr/BianQue
往期文章
开源流式数字人来了:实现音视频同步对话,基本可达商用效果!
PDF 转 Markdown 神器,精准且快速:支持 90 多种语言 OCR,还支持提取表格、图片和公式!
自动化爬虫神器:把网页转成大模型所需数据,助力 AI 应用与大模型训练全面优化!
Text2SQL 效果不好?不要错过这个神器!自带 RAG、复杂数据集准确度高,还能自训练模型
3 款强大的开源低代码 LLM 编排工具,可视化定制专属 AI Agent 和 AI 工作流!
25.4K Star 低代码LLM编排工具:终于支持 Multi Agent,内置 5 大 Multi Agent 开箱即用!
欢迎您与我交流 AI 技术/工具

关注 AI 真好玩,带你玩转各类 AI 工具,掌控数字未来!
如果这篇文章对您有所帮助,请点赞、关注,并分享给您的朋友。感谢您的支持!
参考资料
[1] 
扁鹊: https://github.com/scutcyr/BianQue[2] 
ChatGLM-6B: https://huggingface.co/THUDM/chatglm-6b
到顶部