微软最新超级视觉模型:支持多种任务,手写体文字识别能力超强!


Florence-2 是一个创新的视觉基础模型,该模型能够理解文本提示,并执行包括图像字幕、物体检测和分割在内的多种任务。它是基于一个名为 FLD-5B 的大型数据集进行训练的,该数据集包含了超过 1.26 亿张图片和 54 亿条注释,为模型的多任务学习提供了支持。
Florence-2 具有超强的 OCR 能力,特别在手写体的识别方面表现出众。
Dylan Freedman近期热文
当 AI 遇上爬虫:让数据提取变得前所未有的简单!
超强 OCR 神器:支持批量 OCR、文档识别、公式识别,离线可用、完全免费!
Florence-2 使用场景
Florence-2 视觉模型支持图像字幕、物体检测、图像分割和 OCR 等多种任务。支持的任务列表如下图所示:
OCR
OCR with Region
Object Detection
Detailed Caption

在线示例:https://huggingface.co/spaces/gokaygokay/Florence-2
Florence-2 模型信息
Florence-2-base[1]
Florence-2-large[2]
Florence-2-base-ft[3]
Florence-2-large-ft[4]
Florence-2 快速上手
该模型能够通过更改提示执行不同的任务。首先,让我们定义一个运行提示的函数。
import requestsfrom PIL import Imagefrom transformers import AutoProcessor, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("microsoft/Florence-2-large", trust_remote_code=True)processor = AutoProcessor.from_pretrained("microsoft/Florence-2-large", trust_remote_code=True)url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg?download=true"image = Image.open(requests.get(url, stream=True).raw)def run_example(task_prompt, text_input=None):    if text_input is None:        prompt = task_prompt    else:        prompt = task_prompt + text_input    inputs = processor(text=prompt, images=image, return_tensors="pt")    generated_ids = model.generate(      input_ids=inputs["input_ids"],      pixel_values=inputs["pixel_values"],      max_new_tokens=1024,      num_beams=3    )    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]    parsed_answer = processor.post_process_generation(generated_text, task=task_prompt, image_size=(image.width, image.height))    print(parsed_answer)
然后设置 prompt 来执行对应的任务:
prompt = "<CAPTION>"run_example(prompt)
论文地址:https://arxiv.org/abs/2311.06242
往期文章
超强 MedicalGPT:训练医疗领域大模型,支持 Qwen-2 和 Llama-3 等十几种开源模型!
30.3K Star 超强工具:让你用本地微信聊天记录,训练你的专属 AI 聊天助手!
开源流式数字人来了:实现音视频同步对话,基本可达商用效果!
PDF 转 Markdown 神器,精准且快速:支持 90 多种语言 OCR,还支持提取表格、图片和公式!
自动化爬虫神器:把网页转成大模型所需数据,助力 AI 应用与大模型训练全面优化!
欢迎您与我交流 AI 技术/工具

关注 AI 真好玩,带你玩转各类 AI 工具,掌控数字未来!
如果这篇文章对您有所帮助,请点赞、关注,并分享给您的朋友。感谢您的支持!
参考资料
[1] 
Florence-2-base: https://huggingface.co/microsoft/Florence-2-base[2] 
Florence-2-large: https://huggingface.co/microsoft/Florence-2-large[3] 
Florence-2-base-ft: https://huggingface.co/microsoft/Florence-2-base-ft[4] 
Florence-2-large-ft: https://huggingface.co/microsoft/Florence-2-large-ft
到顶部