PDF를 OCR하고 텍스트 선택 및 검색을 활성화하는 방법

스캐너를 사용하여 만든 PDF가 있거나 PDF가 전달되었지만 이미지 형식의 정보가 포함되어 있다고 가정합니다.. 우리가 사랑하는 PDF를 제출해야하는 절차는 OCR: 이미지에서 특정 알파벳에 속하는 기호 나 문자를 자동으로 식별하여 텍스트 편집 프로그램 등을 통해 상호 작용할 수있는 데이터 형태로 저장하는 프로세스입니다.


pdfocr는 텍스트 레이어가 포함 된 새 PDF를 만드는 간단한 도구로, 사용자는 PDF의 최종 모양을 변경하지 않고도 텍스트를 선택하고 그 안에있는 단어를 검색 할 수 있습니다.

pdfocr이 아닌 것 :

PDF에 이미지 형식의 정보가 포함 된 경우에만 유용합니다. OpenOffice에서 PDF를 내 보낸 경우 이미 포함 된 텍스트 레이어가 있으므로이 절차가 필요하지 않습니다.

pdfocr 설치 방법 :

sudo add-apt-repository ppa : gezakovacs / pdfocr
sudo는있는 apt-get 업데이트
sudo apt-get 설치 pdfocr

pdfocr 사용 방법 :

터미널을 열고 변환하려는 PDF가있는 디렉토리로 이동하여 다음을 입력합니다 (input.pdf를 변환 할 PDF로 바꾸고 output.pdf를 포함 된 텍스트 레이어가있는 새 파일 이름으로 대체).

pdfocr -i 입력.pdf -o 출력.pdf

PDF의 각 페이지가 OCR을 연습하고 최종 수정 파일이 생성 될 때까지 기다립니다. PDF의 해상도에 따라 페이지 당 몇 초 정도 걸립니다.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.

  1.   로돌포 라라

    rodolfo @ rodolfo-desktop : ~ $ sudo apt-get install pdfocr
    패키지 목록을 읽는 중 ... 완료
    종속성 트리 생성
    상태 정보 읽기 ... 완료
    E : pdfocr 패키지를 찾을 수 없습니다.
    rodolfo @ rodolfo-desktop : ~ $

  2.   Linux를 사용합시다

    해당 PPA를 추가했는지 확인 했습니까?
    이 PPA에는 이전 Ubuntu 버전 용 pdfocr 버전이있을 수 있습니다. 이 게시물은 이미 몇 달 전에 작성되었습니다. 어쨌든 아이디어는 동일합니다. Launchpad로 이동하여 Maverick 용 pdfocr 버전이 포함 된 PPA를 찾으십시오.
    건배! 폴.

  3.   즈바레

    글쎄, 어떻게 작동하는지 테스트하는 문제가 될 것입니다.

  4.   Linux를 사용합시다

    어서! 성공했다면 알려주세요 !! 작동하지 않는 경우에도 도움을 드릴 수 있습니다! 건배! 폴.

  5.   a01653

    안녕하세요
    프로그램을 pdf로 테스트했는데 결과가 좋지 않습니다. 나는 전문 곡예사 8에 익숙하고 비슷한 것을 찾고있었습니다. Acrobat은 파일에 유틸리티를 전달하여 스캔 한 pdf를 정리하고 똑 바르게하기 때문에 ocr에 대한 더 나은 소스를 얻습니다. 이에 대한 해결책이 있는지 알고 있습니다.

    인사

  6.   Linux를 사용합시다

    여보세요! Tesseract가 최고의 오픈 소스 OCR이라고 들었습니다. 나는 그것이 좋을지 모르겠다. 또한 손을 좀 더럽혀 야 작동합니다. 다음은 몇 가지 지침입니다. 성공하면 저에게 알려주세요. 성공하면 포스트가 될 것입니다.

    먼저 "http://download.tuxfamily.org/guadausers/guadaV2.03/"에서 Synaptic, "xsane4tess"를 사용하여 "tesseract 2-4"및 "imagemagick"패키지를 설치합니다.

    그런 다음 / home / yourusername / tmp에 tmp 폴더를 만듭니다.

    그런 다음 Xsane을 열고 환경 설정-> 구성-> OCR 탭을 열고 다음을 입력하십시오.

    OCR 명령-> xsane2tess -l spa
    입력 파일 옵션-> -i
    출력 파일 옵션-> -o
    출력 옵션 -fd 인터페이스-> -x

    Xsane 구성에서 임시 디렉토리라고 표시된 부분의 "save"탭에서 "/ home / yourusername"에 생성 한 "tmp"폴더가 있는지 확인합니다.

    또한 Ubuntu에서 OCR을 수행하는 방법에 대한 세부 정보가있는 페이지를 남겨 둡니다. https://help.ubuntu.com/community/OCR

  7.   Linux를 사용합시다

    내가 발견 한 또 다른 방법은 다음과 같습니다.

    스캐너가 이미 연결되어 시스템에서 인식되었다고 가정합니다.

    1. 시스템> 관리> 시냅틱 패키지 관리자 (GNOME에서)를 엽니 다.

    2. tesseract-ocr-spa (스페인어로 스캔) 및 gscan2pdf를 설치하기위한 검색 및 프레임 워크

    3. 스캔하려면 응용 프로그램> 그래픽> gscan2pdf를 엽니 다.

    그리고 준비.

  8.   음유 시인

    안녕 친구, 정말 고마워요. 진실은 tesseract가 좋은 도구라는 것입니다. 그러나 "문제가있는"스캔이있는 책에 비해 매우 제한적입니다. 반면에이 소프트웨어는 더 쉽게 적응합니다 ... 😀

  9.   후안 아네즈

    이미지를 디지털화하는 과정에서 PDF-A 파일이 변환되고 있으므로 OCR 처리되어야합니다. 흑백 또는 그레이 스케일 스캔은 결과에 얼마나 민감합니까? 무엇을 권장합니까?