OCR e PDF pesquisável: o passo que transforma “scan” em arquivo útil

Muita gente digitaliza e acha que está “organizado”… até precisar de encontrar um número e perceber que o PDF é só uma fotografia. OCR resolve isso.

1) O que é OCR e por que muda o jogo

OCR (Reconhecimento Ótico de Caracteres) converte a imagem do documento em texto reconhecido, criando PDF pesquisável e extração de conteúdo.

2) A definição nº1 para OCR: 300 dpi (na maioria dos casos)

Para documentos de escritório, 300 dpi costuma ser suficiente e recomendado para boa precisão de OCR, equilibrando qualidade e tamanho do ficheiro.
Se o original for fraco (fotocópias antigas, texto muito pequeno), podes subir (ex.: 400–600 dpi), mas com maior peso.

3) Modos de cor: preto e branco vs cinzento vs cor

  • Preto e branco: ficheiro leve, ótimo para texto limpo

  • Cinzento: ótimo para recibos e documentos com carimbos/sombras

  • Cor: quando precisas manter fidelidade (assinaturas, carimbos, gráficos)

O objetivo é manter legibilidade e ajudar o OCR (contraste sem “estourar” a imagem).

4) PDF normal vs PDF/A: quando usar

PDF/A é um padrão ISO para preservação a longo prazo, pensado para manter documentos “reproduzíveis” no futuro.
Se estás a construir arquivo de empresa e queres formato “mais conservador”, PDF/A é excelente.

5) Passo a passo: criar PDF pesquisável com qualidade

  1. Digitaliza a 300 dpi (modo cinzento, geralmente)

  2. Aplica OCR (no software do scanner ou numa ferramenta OCR)

  3. Guarda em PDF pesquisável

  4. (Opcional) Se for arquivo longo, exporta como PDF/A

  5. Valida: abre o PDF e pesquisa um termo (nome, NIF, valor)

6) Erros comuns que destroem o OCR

  • DPI muito baixo (texto serrilhado)

  • brilho/contraste exagerado (apaga letras)

  • documento torto (corrige “deskew”/alinhamento)

  • sombras fortes (especialmente em recibos amassados)

FAQ

OCR funciona em recibos térmicos?
Funciona melhor se digitalizares com bom contraste e cinzento, e se o recibo estiver legível (os térmicos degradam com o tempo).

PDF/A é sempre melhor?
É melhor para preservação e arquivo, mas nem sempre necessário para uso casual.