Как OCR PDF и включить выбор текста и поиск

Предположим, у вас есть PDF-файл, созданный с помощью сканера или переданный вам, но содержащий информацию в виде изображения.. Процедура, в которую мы должны отправить наш любимый PDF-файл, называется OCR: процесс, который автоматически идентифицирует символы или символы, принадлежащие определенному алфавиту, от изображения до сохранения его в форме данных, с которыми мы можем взаимодействовать с помощью программы редактирования текста или подобного.


pdfocr - это простой инструмент, который создает новый PDF-файл со встроенным текстовым слоем, позволяя пользователю выбирать текст и искать в нем слова без изменения окончательного внешнего вида PDF-файла.

Для чего НЕ предназначен pdfocr:

Это полезно, только если PDF-файл содержит информацию в виде изображения; если вы экспортировали PDF-файл из OpenOffice, он уже имеет встроенный текстовый слой, поэтому в этой процедуре нет необходимости.

Как установить pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
Суда apt-get обновления
sudo apt-get установить pdfocr

Как использовать pdfocr:

Откройте терминал, перейдите в каталог, где находится PDF-файл, который вы хотите преобразовать, и введите следующее (заменив input.pdf на PDF-файл, который вы хотите преобразовать, а output.pdf - на имя нового файла со встроенным текстовым слоем. )

pdfocr -i вход.pdf -o выход.pdf

Подождите, пока на каждой странице вашего PDF-файла будет отработано распознавание текста и будет создан окончательный измененный файл. Это должно занять несколько секунд на страницу, в зависимости от разрешения вашего PDF-файла.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

  1.   Родольфо Лара сказал

    rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
    Чтение списка пакетов ... Готово
    Создание дерева зависимостей
    Чтение информации о статусе ... Готово
    E: Не удалось найти пакет pdfocr
    rodolfo @ rodolfo-desktop: ~ $

  2.   Давайте использовать Linux сказал

    Вы обязательно добавили соответствующий PPA?
    Этот PPA, вероятно, имеет версии pdfocr для более старых версий Ubuntu. Думаю, этому посту уже несколько месяцев. Во всяком случае, идея та же. Перейдите на Launchpad и найдите PPA, содержащий версии pdfocr для Maverick.
    Ура! Павел.

  3.   Джваре сказал

    Что ж, это будет вопрос тестирования, чтобы увидеть, как это работает

  4.   Давайте использовать Linux сказал

    Преуспевать! Дайте нам знать, если у вас все получилось !! Если это не сработает, мы также можем попытаться вам помочь! Ура! Павел.

  5.   a01653 сказал

    Привет,
    Я протестировал программу на pdf и результат не очень хороший. Я привык к профессиональному акробату 8 и искал что-то подобное. Acrobat передает в файлы служебные программы для очистки и выравнивания отсканированных PDF-файлов и, таким образом, получения лучшего источника для ocr. Вы знаете, есть ли для этого решение.

    приветствия

  6.   Давайте использовать Linux сказал

    Здравствуйте! Я слышал, что Tesseract - лучший OCR с открытым исходным кодом. Не знаю, будет ли хорошо. Кроме того, вам придется немного испачкать руки, чтобы он заработал. Вот несколько инструкций. Если вы добьетесь успеха, я прошу вас сообщить мне, поскольку, если это сработает, это, вероятно, в конечном итоге станет постом.

    Сначала установите пакеты «tesseract 2.03-4» и «imagemagick» с помощью Synaptic, «xsane2tess» из «http://download.tuxfamily.org/guadausers/guadaV4/».

    Затем создайте папку tmp в: / home / yourusername / tmp

    Затем откройте Xsane, чтобы настроить его, выберите Preferences–> Configuration–> OCR tab и введите следующие данные:

    Команда OCR -> xsane2tess -l spa
    Параметр входного файла -> -i
    Параметр выходного файла -> -o
    Параметр вывода -fd interface -> -x

    В конфигурациях Xsane на вкладке «Сохранить» в той части, где указан временный каталог, убедитесь, что есть папка «tmp», которую вы создали в «/ home / yourusername».

    Я также оставляю вам страницу с подробностями о том, как сделать OCR в Ubuntu: https://help.ubuntu.com/community/OCR

  7.   Давайте использовать Linux сказал

    Другой метод, который я обнаружил x, заключается в следующем:

    Предполагая, что сканер уже подключен и распознан системой

    1. Я открываю Система> Администрирование> Менеджер пакетов Synaptic (в GNOME)

    2. Я ищу и устанавливаю рамки для установки tesseract-ocr-spa (для сканирования на испанском языке) и gscan2pdf

    3. Для сканирования я открываю Приложения> Графика> gscan2pdf.

    И готово.

  8.   Трубадур сказал

    Привет, друг, большое тебе спасибо, правда в том, что тессеракт - хороший инструмент, но очень ограниченный по сравнению с книгами с «проблемным» сканированием. С другой стороны, это программное обеспечение легче адаптируется ... 😀

  9.   Хуан Анез сказал

    В процессе оцифровки изображений файлы PDF-A конвертируются, их необходимо распознать. Насколько чувствительно к результату сканирование в черно-белом режиме или в оттенках серого? Что рекомендуется?