PDF를 OCR하고 텍스트 선택 및 검색을 활성화하는 방법

스캐너를 사용하여 만든 PDF가 있거나 PDF가 전달되었지만 이미지 형식의 정보가 포함되어 있다고 가정합니다.. 우리가 사랑하는 PDF를 제출해야하는 절차는 OCR: 이미지에서 특정 알파벳에 속하는 기호 나 문자를 자동으로 식별하여 텍스트 편집 프로그램 등을 통해 상호 작용할 수있는 데이터 형태로 저장하는 프로세스입니다.

pdfocr는 텍스트 레이어가 포함 된 새 PDF를 만드는 간단한 도구로, 사용자는 PDF의 최종 모양을 변경하지 않고도 텍스트를 선택하고 그 안에있는 단어를 검색 할 수 있습니다.

pdfocr이 아닌 것 :

PDF에 이미지 형식의 정보가 포함 된 경우에만 유용합니다. OpenOffice에서 PDF를 내 보낸 경우 이미 포함 된 텍스트 레이어가 있으므로이 절차가 필요하지 않습니다.

pdfocr 설치 방법 :

sudo add-apt-repository ppa : gezakovacs / pdfocr
sudo는있는 apt-get 업데이트
sudo apt-get 설치 pdfocr

pdfocr 사용 방법 :

터미널을 열고 변환하려는 PDF가있는 디렉토리로 이동하여 다음을 입력합니다 (input.pdf를 변환 할 PDF로 바꾸고 output.pdf를 포함 된 텍스트 레이어가있는 새 파일 이름으로 대체).

pdfocr -i 입력.pdf -o 출력.pdf

PDF의 각 페이지가 OCR을 연습하고 최종 수정 파일이 생성 될 때까지 기다립니다. PDF의 해상도에 따라 페이지 당 몇 초 정도 걸립니다.

코멘트를 남겨주세요 답장 취소

로돌포 라라 말
전 11 년

rodolfo @ rodolfo-desktop : ~ $ sudo apt-get install pdfocr
패키지 목록을 읽는 중 ... 완료
종속성 트리 생성
상태 정보 읽기 ... 완료
E : pdfocr 패키지를 찾을 수 없습니다.
rodolfo @ rodolfo-desktop : ~ $

Rodolfo Lara에게 답장
Linux를 사용합시다 말
전 11 년

해당 PPA를 추가했는지 확인 했습니까?
이 PPA에는 이전 Ubuntu 버전 용 pdfocr 버전이있을 수 있습니다. 이 게시물은 이미 몇 달 전에 작성되었습니다. 어쨌든 아이디어는 동일합니다. Launchpad로 이동하여 Maverick 용 pdfocr 버전이 포함 된 PPA를 찾으십시오.
건배! 폴.

Let 's Use Linux에 응답
즈바레 말
전 11 년

글쎄, 어떻게 작동하는지 테스트하는 문제가 될 것입니다.

Jvare에게 답장
Linux를 사용합시다 말
전 11 년

어서! 성공했다면 알려주세요 !! 작동하지 않는 경우에도 도움을 드릴 수 있습니다! 건배! 폴.

Let 's Use Linux에 응답
a01653 말
전 11 년

안녕하세요
프로그램을 pdf로 테스트했는데 결과가 좋지 않습니다. 나는 전문 곡예사 8에 익숙하고 비슷한 것을 찾고있었습니다. Acrobat은 파일에 유틸리티를 전달하여 스캔 한 pdf를 정리하고 똑 바르게하기 때문에 ocr에 대한 더 나은 소스를 얻습니다. 이에 대한 해결책이 있는지 알고 있습니다.

인사

답장 a01653
Linux를 사용합시다 말
전 11 년

여보세요! Tesseract가 최고의 오픈 소스 OCR이라고 들었습니다. 나는 그것이 좋을지 모르겠다. 또한 손을 좀 더럽혀 야 작동합니다. 다음은 몇 가지 지침입니다. 성공하면 저에게 알려주세요. 성공하면 포스트가 될 것입니다.

먼저 "http://download.tuxfamily.org/guadausers/guadaV2.03/"에서 Synaptic, "xsane4tess"를 사용하여 "tesseract 2-4"및 "imagemagick"패키지를 설치합니다.

그런 다음 / home / yourusername / tmp에 tmp 폴더를 만듭니다.

그런 다음 Xsane을 열고 환경 설정-> 구성-> OCR 탭을 열고 다음을 입력하십시오.

OCR 명령-> xsane2tess -l spa
입력 파일 옵션-> -i
출력 파일 옵션-> -o
출력 옵션 -fd 인터페이스-> -x

Xsane 구성에서 임시 디렉토리라고 표시된 부분의 "save"탭에서 "/ home / yourusername"에 생성 한 "tmp"폴더가 있는지 확인합니다.

또한 Ubuntu에서 OCR을 수행하는 방법에 대한 세부 정보가있는 페이지를 남겨 둡니다. https://help.ubuntu.com/community/OCR

Let 's Use Linux에 응답
Linux를 사용합시다 말
전 11 년

내가 발견 한 또 다른 방법은 다음과 같습니다.

스캐너가 이미 연결되어 시스템에서 인식되었다고 가정합니다.

1. 시스템> 관리> 시냅틱 패키지 관리자 (GNOME에서)를 엽니 다.

2. tesseract-ocr-spa (스페인어로 스캔) 및 gscan2pdf를 설치하기위한 검색 및 프레임 워크

3. 스캔하려면 응용 프로그램> 그래픽> gscan2pdf를 엽니 다.

그리고 준비.

Let 's Use Linux에 응답
음유 시인 말
전 10 년

안녕 친구, 정말 고마워요. 진실은 tesseract가 좋은 도구라는 것입니다. 그러나 "문제가있는"스캔이있는 책에 비해 매우 제한적입니다. 반면에이 소프트웨어는 더 쉽게 적응합니다 ... 😀

답장 Trovadordebarro
후안 아네즈 말
전 10 년

이미지를 디지털화하는 과정에서 PDF-A 파일이 변환되고 있으므로 OCR 처리되어야합니다. 흑백 또는 그레이 스케일 스캔은 결과에 얼마나 민감합니까? 무엇을 권장합니까?

Juan Anez 님에게 답장하기