Vach[1] 是一个开源的流式数字人项目,实现音视频同步对话,基本可以达到商用效果。
近期热文
当 AI 遇上爬虫:让数据提取变得前所未有的简单!
超强 OCR 新秀:支持 90 多种语言,性能超越云服务!
7.8K Star RAG 引擎:基于深度文档理解,最大程度降低幻觉、无限上下文快速完成 “大海捞针” 测试!
Vach 核心功能
支持文本/语音交互(✅)
支持 SyncTalk[2] 项目(✅)
声音克隆(开发中)
直播间业务(开发中)
展示屏互动(开发中)
Vach 快速上手
1.克隆项目
git clonehttps://github.com/Hujiazeng/Vach.gitcd Vach
2.安装项目依赖
conda create -n Vach python==3.10conda activate Vachpip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113pip install -r requirements.txtpip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py38_cu113_pyt1121/download.html# Note the following modules. If installation is unsuccessful, you can navigate to the path and use pip install . or python setup.py install to compile and install.# NeRF/freqencoder# NeRF/gridencoder# NeRF/raymarching# NeRF/shencoder
3.下载数字人模型文件
从模型地址[3]下载预训练模型,也可以替换成自己训练的模型[4]。
模型地址: https://github.com/Hujiazeng/Vach/releases/tag/ckpt
模型文件目录结构:
.├── data│ ├── obama(user-defined)│ ├── transforms_train.json│ ├── au.csv │ ├── ngp_kf.pth│ ├── template.npy(首次运行自动生成)│ ├── torso_imgs(仅全身推理时使用)│ ├── fullbody_imgs(仅全身推理时使用)
4.启动项目
python app.py
若要开启麦克风监听功能,则需要添加 --mike 参数:
python app.py --mike
如果您不能正常访问 huggingface,则需要在运行前配置镜像地址:
export HF_ENDPOINT=https://hf-mirror.com
5.访问项目
当项目成功启动之后,您可以在浏览器中打开 http://127.0.0.1:8010/webrtc.html 地址,来访问该项目。在建立连接后,你就可以在文本框提交任何文字。
https://github.com/Hujiazeng/Vach
往期文章
自动化爬虫神器:把网页转成大模型所需数据,助力 AI 应用与大模型训练全面优化!
3 款强大的开源低代码 LLM 编排工具,可视化定制专属 AI Agent 和 AI 工作流!
25.4K Star 低代码LLM编排工具:终于支持 Multi Agent,内置 5 大 Multi Agent 开箱即用!
Kimi+麦肯锡,5 秒摸透一个行业!
Kimi 10 秒生成流程图,别再手动绘图了!
万字长文秒变精华!Kimi 的超强提示词秘籍
欢迎您与我交流 AI 技术/工具
关注 AI 真好玩,带你玩转各类 AI 工具,掌控数字未来!
如果这篇文章对您有所帮助,请点赞、关注,并分享给您的朋友。感谢您的支持!
参考资料
[1]
Vach: https://github.com/Hujiazeng/Vach[2]
SyncTalk: https://github.com/ZiqiaoPeng/SyncTalk[3]
模型地址: https://github.com/Hujiazeng/Vach/releases/tag/ckpt[4]
自己训练的模型: https://github.com/Fictionarry/ER-NeRF