Como fazer OCR de um PDF e ativar a seleção e pesquisa de texto

Suponha que você tenha um PDF que foi criado usando um scanner ou que foi passado para você, mas contém as informações na forma de uma imagem. O procedimento ao qual devemos enviar nosso amado PDF é chamado OCR: um processo que identifica automaticamente símbolos ou caracteres pertencentes a um determinado alfabeto, a partir de uma imagem para armazená-la na forma de dados com os quais podemos interagir através de um programa de edição de texto ou similar.

pdfocr é uma ferramenta simples que cria um novo PDF com uma camada de texto embutida, permitindo ao usuário selecionar o texto e pesquisar palavras nele, sem alterar a aparência final do PDF.

O que o pdfocr NÃO se destina:

Isso funciona apenas se o PDF contiver as informações em forma de imagem; se você exportou o PDF do OpenOffice, ele já possui uma camada de texto incorporada, portanto, este procedimento é desnecessário.

Como instalar o pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get instalar pdfocr

Como usar o pdfocr:

Abra um terminal, vá para o diretório onde o PDF que você deseja converter está localizado e digite o seguinte (substituindo input.pdf pelo PDF que você deseja converter e output.pdf pelo nome do novo arquivo com a camada de texto incorporada )

pdfocr -i entrada.pdf -o saída.pdf

Aguarde que cada página do seu PDF seja praticada com o OCR e o arquivo modificado final seja criado. Isso deve levar alguns segundos por página, dependendo da resolução do seu PDF.

Deixe um comentário Cancelar resposta

Rudolph Lara dito
atrás Anos 11

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Lendo lista de pacotes ... Concluído
Criando árvore de dependências
Lendo as informações de status ... Concluído
E: O pacote pdfocr não pôde ser localizado
rodolfo @ rodolfo-desktop: ~ $

Resposta a Rodolfo Lara
Vamos usar Linux dito
atrás Anos 11

Você se certificou de adicionar o PPA correspondente?
Este PPA provavelmente tem versões do pdfocr para versões mais antigas do Ubuntu. Pense que este post já tem vários meses. Enfim, a ideia é a mesma. Vá para o Launchpad e procure um PPA que contém versões do pdfocr para Maverick.
Felicidades! Paulo.

Responda a Vamos usar o Linux
jvare dito
atrás Anos 11

Bem, será uma questão de testá-lo para ver como funciona

Responder a jvare
Vamos usar Linux dito
atrás Anos 11

Continue! Avise-nos se você teve sucesso !! Se não funcionar, também podemos tentar ajudá-lo! Felicidades! Paulo.

Responda a Vamos usar o Linux
a01653 dito
atrás Anos 11

Olá,
Testei o programa em pdf e o resultado não é muito bom. Estou acostumado com o acrobata profissional 8 e procurava algo semelhante. O Acrobat passa utilitários para os arquivos para limpar e corrigir os PDFs digitalizados e, assim, obter uma fonte melhor para o ocr. Você sabe se existe uma solução para isso.

Uma saudação

Responder a A01653
Vamos usar Linux dito
atrás Anos 11

Olá! Ouvi dizer que o Tesseract é o melhor OCR de código aberto. Não sei se vai ficar bom. Além disso, você tem que sujar um pouco as mãos para que funcione. Aqui estão algumas instruções. Se você for bem-sucedido, por favor me avise porque, se funcionar, provavelmente acabará virando uma postagem.

Primeiro instale os pacotes "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" de "http://download.tuxfamily.org/guadausers/guadaV4/".

Em seguida, crie a pasta tmp em: / home / seunomedeusuario / tmp

Em seguida, abra o Xsane para configurá-lo, Preferências–> Configuração–> guia OCR e preencha o seguinte:

Comando OCR -> xsane2tess -l spa
Opção de arquivo de entrada -> -i
Opção de arquivo de saída -> -o
Opção de saída -fd interface -> -x

Nas configurações do Xsane na guia "salvar" na parte onde diz diretório temporário, certifique-se de que haja a pasta "tmp" que você criou em "/ home / seunomedeusuario"

Também deixo uma página com detalhes sobre como fazer OCR no Ubuntu: https://help.ubuntu.com/community/OCR

Responda a Vamos usar o Linux
Vamos usar Linux dito
atrás Anos 11

Outro método que descobri x é o seguinte:

Supondo que o scanner já tenha sido conectado e reconhecido pelo sistema

1. Abro Sistema> Administração> Gerenciador de Pacotes Synaptic (no GNOME)

2. Pesquisa e estrutura para instalar tesseract-ocr-spa (para digitalizar em espanhol) e gscan2pdf

3. Para digitalizar, abro Aplicativos> Gráficos> gscan2pdf

E pronto.

Responda a Vamos usar o Linux
Trovador dito
atrás Anos 10

Ei amigo, muito obrigado, a verdade é que o tesseract é uma boa ferramenta, mas muito limitada se comparada a livros com digitalização "problemática". Por outro lado, este software se adapta mais facilmente ... 😀

Responder a trovadordebarro
Juan Añez dito
atrás Anos 10

Em um processo de digitalização de imagens, os arquivos PDF-A estão sendo convertidos e devem passar por OCR. Qual é a sensibilidade ao resultado da digitalização em preto e branco ou em tons de cinza? O que é recomendado?

Responder a Juan Añez