Como digitalizar documentos e aplicar OCR no Linux

Você tentou o Simple Scan, o programa padrão do Ubuntu, mas ficou desapontado ao ver que ele não oferece suporte a OCR, etc.? Ao mesmo tempo, o XSANE é muito complicado para a tarefa simples que você se propôs a fazer? Você sente falta de como era fácil digitalizar documentos com Omnipage?

Bem, não admira ... vamos ver como digitalizar e realizar OCR nos documentos digitalizados de uma forma muito, muito simples. Você ficará surpreso com os resultados.

Como digitalizar em 2 etapas simples

1.- instalar gscan2pdf & tesseract-ocr (junto com seu respectivo pacote de idioma). Ou seja, caso você vá digitalizar documentos em inglês, instale tesseract-ocr-eng; Se eles estiverem em espanhol, instale tesseract-ocr-eng e assim.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- O resto é bastante simples para quem já digitalizou e fez OCR de um documento no Windows. eu abri gscan2pdf, digitalize o documento, vá para Opções> OCR e selecione Tesseract como um mecanismo de OCR. Existem outros motores, mas o Tesseract é de longe o motor de melhor desempenho. Finalmente, você pode salvar o documento final como PDF, DJVU, etc. Indo a Arquivo> Salvar.

Nota: ao salvar documentos digitalizados, é melhor salvá-los no formato DJVU (a qualidade é a mesma de um PDF, mas há uma diferença muito importante no tamanho).

O vídeo a seguir está em inglês mas basta ver para entender como tudo funciona.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.

  1.   Anônimo dito

    Alex: Muitos jogadores têm problemas em obter "zonas de amizade" com garotas de que gostam.
    Depois de explicar a uma Melissa confusa que ele não é Wally,
    mas o Hon Ludovick Watson, ela concorda em ir para
    Inglaterra. Sua pergunta também precisa ser SIMPLES o suficiente
    para ela responder sem pensar muito.

    Aqui está meu blog - Crítica Tao of Badass

  2.   bachitux dito

    Observe que os pacotes também estão disponíveis no Fedora. 🙂

  3.   capela dito

    Tenho dois scanners, um é o Canon Scan 5000f para documentos A4 e o outro é o Braun NovoScan, para digitalizar negativos e slides. Depois de instalar o utilitário gscan2 e reiniciar, você não vê nenhum dos scanners. o que aconteceu? Por que você não vê os scanners?

  4.   Vamos usar Linux dito

    Sem ofensa amigos, mas não há sentido em funções matemáticas de OCR.

    Em qualquer caso, eles devem fazer o OCR para o texto ao redor (o que explica essas funções ou qualquer outra coisa) e que as funções permanecem como imagens.
    Felicidades! Paulo.

  5.   Não do Brooklyn dito

    Ei, se você encontrou uma solução para o seu problema, eu gostaria de saber.

  6.   Juan Vallejo dito

    Acho que estou um pouco atrasado, mas tenho uma pergunta. Sou estudante de engenharia e estou procurando uma maneira de digitalizar e limpar minhas anotações, mas o problema é que a maioria dessas anotações está cheia de símbolos matemáticos, gráficos e funções. Existe atualmente algo que pode me ajudar?

  7.   Vamos usar Linux dito

    Ótimo! Bom encontro! No Arch Tesseract está nos repositórios oficiais, mas não no gscan2pdf. Você tem que instalá-lo através do yaourt.

  8.   elcaliman13142 dito

    Muito obrigado isso me ajudou muito, eles tornam o linux mais amigável graça novamente

  9.   Vamos usar Linux dito

    De nada! É um prazer poder ajudar.
    Um abraço! Paulo.

  10.   Martin dito

    Muito bom tava procurando, vou tentar e contarei como vai.

  11.   Mauro Nicolas Ybanez Girard dito

    Obrigado, vou tentar!

  12.   Leonardo Hernández dito

    Quando vou executar o OCR com o mecanismo Tesseract, ele só me dá a opção do processo em inglês, embora eu tenha instalado o pacote tesseract-ocr-spa. que posso fazer?

  13.   Jaime e Isabel dito

    Baixe o gnscaner2pdf, mas ele não faz a varredura, apenas busca os dispositivos e não os, continua a busca após 15 min. E aí?