OmniParse 是一个强大的数据转换工具,它能够将各种非结构化数据源转化为结构化、易于操作的格式。这个平台专为与生成式人工智能(GenAI)应用程序,如大语言模型的集成而设计。
无论是文档、电子表格、图片、视频、音频还是网页内容,OmniParse 都能高效地清洗和组织您的数据,使其成为适用于如检索增强生成(RAG)和模型微调等先进人工智能技术的理想输入。
近期热文
当 AI 遇上爬虫:让数据提取变得前所未有的简单!
2024 年最完整的 AI Agents 清单来了,涉及 13 个领域,上百个 Agents!
超强 OCR 神器:支持批量 OCR、文档识别、公式识别,离线可用、完全免费!
OmniParse 主要特点
支持 10 几种文件类型
支持将文档、多媒体和网页,转换成高质量的 Markdown 文档
支持表格抽取、图像提取、音视频转录(语音转文本)和网页抓取等
完全本地化运行,无需外部 API
可使用 Docker 和 Skypilot 快速部署
OmniParse 使用示例
操作界面
解析效果
OmniParse 快速上手
本机安装
注意:目前 OmniParse 只能在 Linux 的系统上运行。这是因为某些依赖项和特定系统配置与 Windows 或 macOS 不兼容。
1.克隆项目
git clone https://github.com/adithya-s-k/omniparsecd omniparse
2.创建虚拟环境
conda create --name omniparse-venv python=3.10conda activate omniparse-venv
3.安装依赖
poetry install# orpip install -e .
Docker 安装
docker pull savatar101/omniparse:0.1# if you are running on a gpu docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1# elsedocker run -p 8000:8000 savatar101/omniparse:0.1
启动服务器
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documents:加载解析和提取文档的模型(SuryaOCR 和 Florence-2)
--media:加载 Whisper 模型,拥有转录音视频文件
--web:配置 selenium 环境
启动 API 服务器
python main.py --host 0.0.0.0 --port 8000
当 API 服务器正常启动后,就可以通过 HTTP 请求来调用 OmniParse 服务。文档解析的使用示例如下:
1.解析 PDF 文档
curl -X POST -F "file=@/path/to/document.pdf" http://localhost:8000/parse_document/pdf
2.解析 PPT
curl -X POST -F "file=@/path/to/presentation.ppt" http://localhost:8000/parse_document/ppt
3.解析 Word
curl -X POST -F "file=@/path/to/document.docx" http://localhost:8000/parse_document/docs
4.解析图片
curl -X POST -F "image=@/path/to/image.jpg" -F "task=Caption" http://localhost:8000/parse_image/process_image
5.解析视频
curl -X POST -F "file=@/path/to/video.mp4" http://localhost:8000/parse_media/video
6.解析音频
curl -X POST -F "file=@/path/to/audio.mp3" http://localhost:8000/parse_media/audio
7.解析网页
curl -X POST -H "Content-Type: application/json" -d '{"url": "https://example.com"}' http://localhost:8000/parse_website
https://github.com/adithya-s-k/omniparse
往期文章
超强 MedicalGPT:训练医疗领域大模型,支持 Qwen-2 和 Llama-3 等十几种开源模型!
30.3K Star 超强工具:让你用本地微信聊天记录,训练你的专属 AI 聊天助手!
开源流式数字人来了:实现音视频同步对话,基本可达商用效果!
PDF 转 Markdown 神器,精准且快速:支持 90 多种语言 OCR,还支持提取表格、图片和公式!
自动化爬虫神器:把网页转成大模型所需数据,助力 AI 应用与大模型训练全面优化!
欢迎您与我交流 AI 技术/工具
关注 AI 真好玩,带你玩转各类 AI 工具,掌控数字未来!
如果这篇文章对您有所帮助,请点赞、关注,并分享给您的朋友。感谢您的支持!