? olmOCR ?

:tada: olmOCR 可能是目前最强的 开源 OCR(光学字符识别)模型,它基于 7B 视觉语言模型 进行微调,并专注于高质量的 PDF 文本提取。

:rocket: olmOCR 的亮点

:magnifying_glass_tilted_left: 高精度 OCR:

基于 7B 视觉语言模型,相比传统 OCR 技术(如 Tesseract),在复杂文档上的识别率更高。

:page_facing_up: 针对 PDF 优化:

使用 26 万页 PDF 页面 进行训练,擅长处理扫描版 PDF、论文、书籍等格式。

:free_button: 完全开源:

免费开放 模型权重、数据集、训练代码、推理代码,可自由部署和改进。

:laptop: 本地运行:

RTX 4090 即可本地运行,无需昂贵的服务器支持。

:globe_with_meridians: 在线体验:

无需安装,可直接上传文件测试效果。

Github:https://github.com/allenai/olmocr
模型:https://huggingface.co/collections/allenai/olmocr-67af8630b0062a25bf1b54a1
在线使用:https://olmocr.allenai.org

已收藏,感谢分享

谢谢分享