OCR и PDF с возможностью поиска: этап, который превращает «сканирование» в полезный файл.
Многие люди просматривают документы и думают, что они "организованы"... пока им не понадобится найти номер, и они не поймут, что PDF-файл — это просто фотография. Технология распознавания текста (OCR) решает эту проблему.
1) Что такое OCR и почему оно меняет правила игры?
Оптическое распознавание символов (OCR) преобразует изображение документа в распознаваемый текст, создавая PDF-файл с возможностью поиска и извлекая его содержимое.
2) Настройка №1 для распознавания текста: 300 dpi (в большинстве случаев)
Для офисных документов обычно достаточно и рекомендуется разрешение 300 dpi для обеспечения хорошей точности распознавания текста, при этом сохраняется баланс между качеством и размером файла.
Если оригинал низкого качества (старые фотокопии, очень мелкий текст), вы можете увеличить разрешение (например, до 400–600 dpi), но это увеличит размер файла.
3) Цветовые режимы: черно-белый, серый, цветной
-
Черно-белый: легкий файл, отлично подходит для четкого текста.
-
Серый: отлично подходит для квитанций и документов со штампами/тенями.
-
Цвет: когда необходимо сохранить точность воспроизведения (подписи, штампы, графика).
Цель состоит в том, чтобы сохранить разборчивость и облегчить распознавание текста (обеспечить контраст, не "пересвечивая" изображение).
4) Обычный PDF против PDF/A: когда использовать
PDF/A — это стандарт ISO для долговременного хранения данных, разработанный для обеспечения возможности воспроизведения документов в будущем.
Если вы создаёте корпоративный архив и хотите использовать более консервативный формат, PDF/A — отличный вариант.
5) Пошаговое создание высококачественного PDF-файла с возможностью поиска.
-
Сканирование с разрешением 300 dpi (обычно в режиме оттенков серого).
-
Примените оптическое распознавание символов (в программном обеспечении сканера или в инструменте оптического распознавания символов).
-
Сохранено в формате PDF с возможностью поиска.
-
(Необязательно) Если файл длинный, экспортируйте его в формат PDF/A.
-
Проверка: откройте PDF-файл и выполните поиск по термину (имя, CPF, значение).
6) Распространенные ошибки, которые портят распознавание текста.
-
Очень низкое разрешение (неровный текст)
-
чрезмерная яркость/контрастность (размывает буквы)
-
Неправильное выравнивание документа (исправляет искажение/выравнивание)
-
густые тени (особенно на помятых чеках)
Часто задаваемые вопросы
Работает ли OCR на термочеках?
Наилучшие результаты достигаются при сканировании с хорошим контрастом и в оттенках серого, а также при условии, что чек хорошо читается (термочеки со временем портятся).
Всегда ли формат PDF/A лучше?
Он лучше всего подходит для сохранения и архивирования, но не всегда необходим для повседневного использования.
