? olmOCR ?

awq · 2025 年3 月 3 日 21:27

olmOCR 可能是目前最强的开源 OCR（光学字符识别）模型，它基于 7B 视觉语言模型进行微调，并专注于高质量的 PDF 文本提取。

olmOCR 的亮点

高精度 OCR：

基于 7B 视觉语言模型，相比传统 OCR 技术（如 Tesseract），在复杂文档上的识别率更高。

针对 PDF 优化：

使用 26 万页 PDF 页面进行训练，擅长处理扫描版 PDF、论文、书籍等格式。

完全开源：

免费开放模型权重、数据集、训练代码、推理代码，可自由部署和改进。

本地运行：

RTX 4090 即可本地运行，无需昂贵的服务器支持。

在线体验：

无需安装，可直接上传文件测试效果。

Github：https://github.com/allenai/olmocr
模型：https://huggingface.co/collections/allenai/olmocr-67af8630b0062a25bf1b54a1
在线使用：https://olmocr.allenai.org

AmeliaDoyle · 2025 年3 月 3 日 22:14

已收藏，感谢分享

Hoog2025 · 2025 年3 月 4 日 08:14

谢谢分享

话题		回复	浏览量
想部署一个OCR图片转文字的服务，请问需要什么样性能的鸡？日常 \| General	8	74	2024 年5 月 15 日
text-extract-api 日常 \| General	0	71	2025 年1 月 10 日
Docling 日常 \| General	1	76	2025 年3 月 20 日
?️ 开箱即用的翻译 & OCR 工具：STranslate 日常 \| General	3	75	2025 年3 月 23 日
Zerox 日常 \| General	0	78	2025 年1 月 22 日

? olmOCR ?

相关话题