olmOCR 可能是目前最强的 开源 OCR(光学字符识别)模型,它基于 7B 视觉语言模型 进行微调,并专注于高质量的 PDF 文本提取。
olmOCR 的亮点
高精度 OCR:
基于 7B 视觉语言模型,相比传统 OCR 技术(如 Tesseract),在复杂文档上的识别率更高。
针对 PDF 优化:
使用 26 万页 PDF 页面 进行训练,擅长处理扫描版 PDF、论文、书籍等格式。
完全开源:
免费开放 模型权重、数据集、训练代码、推理代码,可自由部署和改进。
本地运行:
RTX 4090 即可本地运行,无需昂贵的服务器支持。
在线体验:
无需安装,可直接上传文件测试效果。
Github:https://github.com/allenai/olmocr
模型:https://huggingface.co/collections/allenai/olmocr-67af8630b0062a25bf1b54a1
在线使用:https://olmocr.allenai.org