Como digitalizar documentos e aplicar OCR no Linux

Você tentou o Simple Scan, o programa padrão do Ubuntu, mas ficou desapontado ao ver que ele não oferece suporte a OCR, etc.? Ao mesmo tempo, o XSANE é muito complicado para a tarefa simples que você se propôs a fazer? Você sente falta de como era fácil digitalizar documentos com Omnipage?

Bem, não admira ... vamos ver como digitalizar e realizar OCR nos documentos digitalizados de uma forma muito, muito simples. Você ficará surpreso com os resultados.

Como digitalizar em 2 etapas simples

1.- instalar gscan2pdf & tesseract-ocr (junto com seu respectivo pacote de idioma). Ou seja, caso você vá digitalizar documentos em inglês, instale tesseract-ocr-eng; Se eles estiverem em espanhol, instale tesseract-ocr-eng e assim.

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-eng

2.- O resto é bastante simples para quem já digitalizou e fez OCR de um documento no Windows. eu abri gscan2pdf, digitalize o documento, vá para Opções> OCR e selecione Tesseract como um mecanismo de OCR. Existem outros motores, mas o Tesseract é de longe o motor de melhor desempenho. Finalmente, você pode salvar o documento final como PDF, DJVU, etc. Indo a Arquivo> Salvar.

Nota: ao salvar documentos digitalizados, é melhor salvá-los no formato DJVU (a qualidade é a mesma de um PDF, mas há uma diferença muito importante no tamanho).

O vídeo a seguir está em inglês mas basta ver para entender como tudo funciona.

Deixe um comentário Cancelar resposta

Anônimo dito
atrás Anos 11

Alex: Muitos jogadores têm problemas em obter "zonas de amizade" com garotas de que gostam.
Depois de explicar a uma Melissa confusa que ele não é Wally,
mas o Hon Ludovick Watson, ela concorda em ir para
Inglaterra. Sua pergunta também precisa ser SIMPLES o suficiente
para ela responder sem pensar muito.

Aqui está meu blog - Crítica Tao of Badass

Responder para anônimo
bachitux dito
atrás Anos 11

Observe que os pacotes também estão disponíveis no Fedora. 🙂

Responder ao BachiTux
capela dito
atrás Anos 11

Tenho dois scanners, um é o Canon Scan 5000f para documentos A4 e o outro é o Braun NovoScan, para digitalizar negativos e slides. Depois de instalar o utilitário gscan2 e reiniciar, você não vê nenhum dos scanners. o que aconteceu? Por que você não vê os scanners?

Responder a capela
Vamos usar Linux dito
atrás Anos 11

Sem ofensa amigos, mas não há sentido em funções matemáticas de OCR.

Em qualquer caso, eles devem fazer o OCR para o texto ao redor (o que explica essas funções ou qualquer outra coisa) e que as funções permanecem como imagens.
Felicidades! Paulo.

Responda a Vamos usar o Linux
Não do Brooklyn dito
atrás Anos 11

Ei, se você encontrou uma solução para o seu problema, eu gostaria de saber.

Responder a NotFromBrooklyn
Juan Vallejo dito
atrás Anos 11

Acho que estou um pouco atrasado, mas tenho uma pergunta. Sou estudante de engenharia e estou procurando uma maneira de digitalizar e limpar minhas anotações, mas o problema é que a maioria dessas anotações está cheia de símbolos matemáticos, gráficos e funções. Existe atualmente algo que pode me ajudar?

Resposta a Juan Vallejo
Vamos usar Linux dito
atrás Anos 11

Ótimo! Bom encontro! No Arch Tesseract está nos repositórios oficiais, mas não no gscan2pdf. Você tem que instalá-lo através do yaourt.

Responda a Vamos usar o Linux
elcaliman13142 dito
atrás Anos 11

Muito obrigado isso me ajudou muito, eles tornam o linux mais amigável graça novamente

Responder a Elcaliman13142
Vamos usar Linux dito
atrás Anos 11

De nada! É um prazer poder ajudar.
Um abraço! Paulo.

Responda a Vamos usar o Linux
Martin dito
atrás Anos 11

Muito bom tava procurando, vou tentar e contarei como vai.

Responder a Martinho
Mauro Nicolas Ybanez Girard dito
atrás Anos 11

Obrigado, vou tentar!

Resposta a Mauro Nicolás Ybáñez Girard
Leonardo Hernández dito
atrás Anos 10

Quando vou executar o OCR com o mecanismo Tesseract, ele só me dá a opção do processo em inglês, embora eu tenha instalado o pacote tesseract-ocr-spa. que posso fazer?

Resposta de Leonardo Hernández
Jaime e Isabel dito
atrás Anos 5

Baixe o gnscaner2pdf, mas ele não faz a varredura, apenas busca os dispositivos e não os, continua a busca após 15 min. E aí?

Responder a Jaime e Isabel