Como fazer OCR de um PDF e ativar a seleção e pesquisa de texto

Suponha que você tenha um PDF que foi criado usando um scanner ou que foi passado para você, mas contém as informações na forma de uma imagem. O procedimento ao qual devemos enviar nosso amado PDF é chamado OCR: um processo que identifica automaticamente símbolos ou caracteres pertencentes a um determinado alfabeto, a partir de uma imagem para armazená-la na forma de dados com os quais podemos interagir através de um programa de edição de texto ou similar.


pdfocr é uma ferramenta simples que cria um novo PDF com uma camada de texto embutida, permitindo ao usuário selecionar o texto e pesquisar palavras nele, sem alterar a aparência final do PDF.

O que o pdfocr NÃO se destina:

Isso funciona apenas se o PDF contiver as informações em forma de imagem; se você exportou o PDF do OpenOffice, ele já possui uma camada de texto incorporada, portanto, este procedimento é desnecessário.

Como instalar o pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get instalar pdfocr

Como usar o pdfocr:

Abra um terminal, vá para o diretório onde o PDF que você deseja converter está localizado e digite o seguinte (substituindo input.pdf pelo PDF que você deseja converter e output.pdf pelo nome do novo arquivo com a camada de texto incorporada )

pdfocr -i entrada.pdf -o saída.pdf

Aguarde que cada página do seu PDF seja praticada com o OCR e o arquivo modificado final seja criado. Isso deve levar alguns segundos por página, dependendo da resolução do seu PDF.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.

  1.   Rudolph Lara dito

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Lendo lista de pacotes ... Concluído
    Criando árvore de dependências
    Lendo as informações de status ... Concluído
    E: O pacote pdfocr não pôde ser localizado
    rodolfo @ rodolfo-desktop: ~ $

  2.   Vamos usar Linux dito

    Você se certificou de adicionar o PPA correspondente?
    Este PPA provavelmente tem versões do pdfocr para versões mais antigas do Ubuntu. Pense que este post já tem vários meses. Enfim, a ideia é a mesma. Vá para o Launchpad e procure um PPA que contém versões do pdfocr para Maverick.
    Felicidades! Paulo.

  3.   jvare dito

    Bem, será uma questão de testá-lo para ver como funciona

  4.   Vamos usar Linux dito

    Continue! Avise-nos se você teve sucesso !! Se não funcionar, também podemos tentar ajudá-lo! Felicidades! Paulo.

  5.   a01653 dito

    Olá,
    Testei o programa em pdf e o resultado não é muito bom. Estou acostumado com o acrobata profissional 8 e procurava algo semelhante. O Acrobat passa utilitários para os arquivos para limpar e corrigir os PDFs digitalizados e, assim, obter uma fonte melhor para o ocr. Você sabe se existe uma solução para isso.

    Uma saudação

  6.   Vamos usar Linux dito

    Olá! Ouvi dizer que o Tesseract é o melhor OCR de código aberto. Não sei se vai ficar bom. Além disso, você tem que sujar um pouco as mãos para que funcione. Aqui estão algumas instruções. Se você for bem-sucedido, por favor me avise porque, se funcionar, provavelmente acabará virando uma postagem.

    Primeiro instale os pacotes "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" de "http://download.tuxfamily.org/guadausers/guadaV4/".

    Em seguida, crie a pasta tmp em: / home / seunomedeusuario / tmp

    Em seguida, abra o Xsane para configurá-lo, Preferências–> Configuração–> guia OCR e preencha o seguinte:

    Comando OCR -> xsane2tess -l spa
    Opção de arquivo de entrada -> -i
    Opção de arquivo de saída -> -o
    Opção de saída -fd interface -> -x

    Nas configurações do Xsane na guia "salvar" na parte onde diz diretório temporário, certifique-se de que haja a pasta "tmp" que você criou em "/ home / seunomedeusuario"

    Também deixo uma página com detalhes sobre como fazer OCR no Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Vamos usar Linux dito

    Outro método que descobri x é o seguinte:

    Supondo que o scanner já tenha sido conectado e reconhecido pelo sistema

    1. Abro Sistema> Administração> Gerenciador de Pacotes Synaptic (no GNOME)

    2. Pesquisa e estrutura para instalar tesseract-ocr-spa (para digitalizar em espanhol) e gscan2pdf

    3. Para digitalizar, abro Aplicativos> Gráficos> gscan2pdf

    E pronto.

  8.   Trovador dito

    Ei amigo, muito obrigado, a verdade é que o tesseract é uma boa ferramenta, mas muito limitada se comparada a livros com digitalização "problemática". Por outro lado, este software se adapta mais facilmente ... 😀

  9.   Juan Añez dito

    Em um processo de digitalização de imagens, os arquivos PDF-A estão sendo convertidos e devem passar por OCR. Qual é a sensibilidade ao resultado da digitalização em preto e branco ou em tons de cinza? O que é recomendado?