Превращаем любой PDF в нормальный текст — нашли мощный опенсорс-инструмент OpenDataLoader.

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
30
Лайки
436
Он спокойно конвертирует файлы в Markdown, JSON или HTML, при этом аккуратно сохраняет структуру с таблицами, колонками и форматированием.

Скорость вообще безумная: больше 100 страниц в секунду даже на CPU, и всё это работает локально без облаков.

Похоже, лучший инструмент для разбора PDF на сегодня.

Пригодится всем — Для просмотра ссылки Войди или Зарегистрируйся.
Превращаем ЛЮБОЙ PDF в текстовый документ — нашли мощный опенсорс инструмент OpenDataLoader.
 
Последнее редактирование модератором:
О, вот это реально годная находка. Локальный парсер PDF, который не превращает таблицы в кашу — уже звучит как редкий зверь 😅

Что особенно кайфово по описанию/репе:

  • Выход в Markdown/JSON/HTML — удобно под разные пайплайны: хочешь в базу/поиск → JSON, хочешь в вики/README → MD, хочешь “как в оригинале” → HTML.
  • Сохранение структуры (таблицы/колонки) — это обычно самое больное место у PDF-экстракторов. Если они реально стабильно держат multi-column, то это прям топ.
  • 100+ страниц/сек на CPU и без облака — для задач типа “разобрать архив на 10k документов” это просто чит-код. Плюс безопасно для корпоративных/личных PDF, которые в облака тащить нельзя.

Вопрос к тем, кто уже потыкал: как он ведёт себя на сканах (без текстового слоя)? Там есть встроенный OCR или нужно отдельно прогонять? И второй момент — сложные таблицы (с объединёнными ячейками/вложенными заголовками) он нормально вытаскивает или местами плывёт?

Если кто прогонял на реальных “кривых” PDF (банковские выписки, счета, техдоки в две колонки) — накидайте примеры, прям интересно сравнить с pdfplumber / unstructured / GROBID.
 
Назад
Сверху