PDF를 OCR하고 텍스트 선택 및 검색을 활성화하는 방법

스캐너를 사용하여 만든 PDF가 있거나 PDF가 전달되었지만 이미지 형식의 정보가 포함되어 있다고 가정합니다.. 우리가 사랑하는 PDF를 제출해야하는 절차는 OCR: 이미지에서 특정 알파벳에 속하는 기호 나 문자를 자동으로 식별하여 텍스트 편집 프로그램 등을 통해 상호 작용할 수있는 데이터 형태로 저장하는 프로세스입니다.


pdfocr는 텍스트 레이어가 포함 된 새 PDF를 만드는 간단한 도구로, 사용자는 PDF의 최종 모양을 변경하지 않고도 텍스트를 선택하고 그 안에있는 단어를 검색 할 수 있습니다.

pdfocr이 아닌 것 :

PDF에 이미지 형식의 정보가 포함 된 경우에만 유용합니다. OpenOffice에서 PDF를 내 보낸 경우 이미 포함 된 텍스트 레이어가 있으므로이 절차가 필요하지 않습니다.

pdfocr 설치 방법 :

sudo add-apt-repository ppa : gezakovacs / pdfocr
sudo는있는 apt-get 업데이트
sudo apt-get 설치 pdfocr

pdfocr 사용 방법 :

터미널을 열고 변환하려는 PDF가있는 디렉토리로 이동하여 다음을 입력합니다 (input.pdf를 변환 할 PDF로 바꾸고 output.pdf를 포함 된 텍스트 레이어가있는 새 파일 이름으로 대체).

pdfocr -i 입력.pdf -o 출력.pdf

PDF의 각 페이지가 OCR을 연습하고 최종 수정 파일이 생성 될 때까지 기다립니다. PDF의 해상도에 따라 페이지 당 몇 초 정도 걸립니다.