OCR, PDF с возможностью поиска и PDF/A: корректное сканирование документов.

OCR и PDF с возможностью поиска: этап, который превращает «сканирование» в полезный файл.

Многие люди просматривают документы и думают, что они "организованы"... пока им не понадобится найти номер, и они не поймут, что PDF-файл — это просто фотография. Технология распознавания текста (OCR) решает эту проблему.

1) Что такое OCR и почему оно меняет правила игры?

Оптическое распознавание символов (OCR) преобразует изображение документа в распознаваемый текст, создавая PDF-файл с возможностью поиска и извлекая его содержимое.

2) Настройка №1 для распознавания текста: 300 dpi (в большинстве случаев)

Для офисных документов обычно достаточно и рекомендуется разрешение 300 dpi для обеспечения хорошей точности распознавания текста, при этом сохраняется баланс между качеством и размером файла.
Если оригинал низкого качества (старые фотокопии, очень мелкий текст), вы можете увеличить разрешение (например, до 400–600 dpi), но это увеличит размер файла.

3) Цветовые режимы: черно-белый, серый, цветной

Черно-белый: легкий файл, отлично подходит для четкого текста.
Серый: отлично подходит для квитанций и документов со штампами/тенями.
Цвет: когда необходимо сохранить точность воспроизведения (подписи, штампы, графика).

Цель состоит в том, чтобы сохранить разборчивость и облегчить распознавание текста (обеспечить контраст, не "пересвечивая" изображение).

4) Обычный PDF против PDF/A: когда использовать

PDF/A — это стандарт ISO для долговременного хранения данных, разработанный для обеспечения возможности воспроизведения документов в будущем.
Если вы создаёте корпоративный архив и хотите использовать более консервативный формат, PDF/A — отличный вариант.

5) Пошаговое создание высококачественного PDF-файла с возможностью поиска.

Сканирование с разрешением 300 dpi (обычно в режиме оттенков серого).
Примените оптическое распознавание символов (в программном обеспечении сканера или в инструменте оптического распознавания символов).
Сохранено в формате PDF с возможностью поиска.
(Необязательно) Если файл длинный, экспортируйте его в формат PDF/A.
Проверка: откройте PDF-файл и выполните поиск по термину (имя, CPF, значение).

6) Распространенные ошибки, которые портят распознавание текста.

Очень низкое разрешение (неровный текст)
чрезмерная яркость/контрастность (размывает буквы)
Неправильное выравнивание документа (исправляет искажение/выравнивание)
густые тени (особенно на помятых чеках)

Часто задаваемые вопросы

Работает ли OCR на термочеках?
Наилучшие результаты достигаются при сканировании с хорошим контрастом и в оттенках серого, а также при условии, что чек хорошо читается (термочеки со временем портятся).

Всегда ли формат PDF/A лучше?
Он лучше всего подходит для сохранения и архивирования, но не всегда необходим для повседневного использования.

Предыдущая статья Следующая статья