Suponha que você tenha um PDF que foi criado usando um scanner ou que foi passado para você, mas contém as informações na forma de uma imagem. O procedimento ao qual devemos enviar nosso amado PDF é chamado OCR: um processo que identifica automaticamente símbolos ou caracteres pertencentes a um determinado alfabeto, a partir de uma imagem para armazená-la na forma de dados com os quais podemos interagir através de um programa de edição de texto ou similar. |
pdfocr é uma ferramenta simples que cria um novo PDF com uma camada de texto embutida, permitindo ao usuário selecionar o texto e pesquisar palavras nele, sem alterar a aparência final do PDF.
O que o pdfocr NÃO se destina:
Isso funciona apenas se o PDF contiver as informações em forma de imagem; se você exportou o PDF do OpenOffice, ele já possui uma camada de texto incorporada, portanto, este procedimento é desnecessário.
Como instalar o pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
sudo apt-get update
sudo apt-get instalar pdfocr
Como usar o pdfocr:
Abra um terminal, vá para o diretório onde o PDF que você deseja converter está localizado e digite o seguinte (substituindo input.pdf pelo PDF que você deseja converter e output.pdf pelo nome do novo arquivo com a camada de texto incorporada )
pdfocr -i entrada.pdf -o saída.pdf
Aguarde que cada página do seu PDF seja praticada com o OCR e o arquivo modificado final seja criado. Isso deve levar alguns segundos por página, dependendo da resolução do seu PDF.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Lendo lista de pacotes ... Concluído
Criando árvore de dependências
Lendo as informações de status ... Concluído
E: O pacote pdfocr não pôde ser localizado
rodolfo @ rodolfo-desktop: ~ $
Você se certificou de adicionar o PPA correspondente?
Este PPA provavelmente tem versões do pdfocr para versões mais antigas do Ubuntu. Pense que este post já tem vários meses. Enfim, a ideia é a mesma. Vá para o Launchpad e procure um PPA que contém versões do pdfocr para Maverick.
Felicidades! Paulo.
Bem, será uma questão de testá-lo para ver como funciona
Continue! Avise-nos se você teve sucesso !! Se não funcionar, também podemos tentar ajudá-lo! Felicidades! Paulo.
Olá,
Testei o programa em pdf e o resultado não é muito bom. Estou acostumado com o acrobata profissional 8 e procurava algo semelhante. O Acrobat passa utilitários para os arquivos para limpar e corrigir os PDFs digitalizados e, assim, obter uma fonte melhor para o ocr. Você sabe se existe uma solução para isso.
Uma saudação
Olá! Ouvi dizer que o Tesseract é o melhor OCR de código aberto. Não sei se vai ficar bom. Além disso, você tem que sujar um pouco as mãos para que funcione. Aqui estão algumas instruções. Se você for bem-sucedido, por favor me avise porque, se funcionar, provavelmente acabará virando uma postagem.
Primeiro instale os pacotes "tesseract 2.03-4" e "imagemagick" usando Synaptic, "xsane2tess" de "http://download.tuxfamily.org/guadausers/guadaV4/".
Em seguida, crie a pasta tmp em: / home / seunomedeusuario / tmp
Em seguida, abra o Xsane para configurá-lo, Preferências–> Configuração–> guia OCR e preencha o seguinte:
Comando OCR -> xsane2tess -l spa
Opção de arquivo de entrada -> -i
Opção de arquivo de saída -> -o
Opção de saída -fd interface -> -x
Nas configurações do Xsane na guia "salvar" na parte onde diz diretório temporário, certifique-se de que haja a pasta "tmp" que você criou em "/ home / seunomedeusuario"
Também deixo uma página com detalhes sobre como fazer OCR no Ubuntu: https://help.ubuntu.com/community/OCR
Outro método que descobri x é o seguinte:
Supondo que o scanner já tenha sido conectado e reconhecido pelo sistema
1. Abro Sistema> Administração> Gerenciador de Pacotes Synaptic (no GNOME)
2. Pesquisa e estrutura para instalar tesseract-ocr-spa (para digitalizar em espanhol) e gscan2pdf
3. Para digitalizar, abro Aplicativos> Gráficos> gscan2pdf
E pronto.
Ei amigo, muito obrigado, a verdade é que o tesseract é uma boa ferramenta, mas muito limitada se comparada a livros com digitalização "problemática". Por outro lado, este software se adapta mais facilmente ... 😀
Em um processo de digitalização de imagens, os arquivos PDF-A estão sendo convertidos e devem passar por OCR. Qual é a sensibilidade ao resultado da digitalização em preto e branco ou em tons de cinza? O que é recomendado?