Как распознать PDF-файл и включить выделение и поиск текста

Как OCR PDF и включить выбор текста и поиск

Предположим, у вас есть PDF-файл, созданный с помощью сканера или переданный вам, но содержащий информацию в виде изображения.. Процедура, в которую мы должны отправить наш любимый PDF-файл, называется OCR: процесс, который автоматически идентифицирует символы или символы, принадлежащие определенному алфавиту, от изображения до сохранения его в форме данных, с которыми мы можем взаимодействовать с помощью программы редактирования текста или подобного.

pdfocr - это простой инструмент, который создает новый PDF-файл со встроенным текстовым слоем, позволяя пользователю выбирать текст и искать в нем слова без изменения окончательного внешнего вида PDF-файла.

Для чего НЕ предназначен pdfocr:

Это полезно, только если PDF-файл содержит информацию в виде изображения; если вы экспортировали PDF-файл из OpenOffice, он уже имеет встроенный текстовый слой, поэтому в этой процедуре нет необходимости.

Как установить pdfocr:

sudo add-apt-repository ppa: gezakovacs / pdfocr
Суда apt-get обновления
sudo apt-get установить pdfocr

Как использовать pdfocr:

Откройте терминал, перейдите в каталог, где находится PDF-файл, который вы хотите преобразовать, и введите следующее (заменив input.pdf на PDF-файл, который вы хотите преобразовать, а output.pdf - на имя нового файла со встроенным текстовым слоем. )

pdfocr -i вход.pdf -o выход.pdf

Подождите, пока на каждой странице вашего PDF-файла будет отработано распознавание текста и будет создан окончательный измененный файл. Это должно занять несколько секунд на страницу, в зависимости от разрешения вашего PDF-файла.

Оставьте свой комментарий Отменить ответ

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

комментарий *

Имя*

Электронная почта*

Принять условия конфиденциальности*

Ответственный за данные: Мигель Анхель Гатон
Назначение данных: контроль спама, управление комментариями.
Легитимация: ваше согласие
Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

Я хочу получать рассылку новостей

Родольфо Лара сказал
тому назад 11 лет

rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Чтение списка пакетов ... Готово
Создание дерева зависимостей
Чтение информации о статусе ... Готово
E: Не удалось найти пакет pdfocr
rodolfo @ rodolfo-desktop: ~ $

Ответить Родольфо Ларе
Давайте использовать Linux сказал
тому назад 11 лет

Вы обязательно добавили соответствующий PPA?
Этот PPA, вероятно, имеет версии pdfocr для более старых версий Ubuntu. Думаю, этому посту уже несколько месяцев. Во всяком случае, идея та же. Перейдите на Launchpad и найдите PPA, содержащий версии pdfocr для Maverick.
Ура! Павел.

Ответьте на использование Linux
Джваре сказал
тому назад 11 лет

Что ж, это будет вопрос тестирования, чтобы увидеть, как это работает

Ответить Джваре
Давайте использовать Linux сказал
тому назад 11 лет

Преуспевать! Дайте нам знать, если у вас все получилось !! Если это не сработает, мы также можем попытаться вам помочь! Ура! Павел.

Ответьте на использование Linux
a01653 сказал
тому назад 11 лет

Привет,
Я протестировал программу на pdf и результат не очень хороший. Я привык к профессиональному акробату 8 и искал что-то подобное. Acrobat передает в файлы служебные программы для очистки и выравнивания отсканированных PDF-файлов и, таким образом, получения лучшего источника для ocr. Вы знаете, есть ли для этого решение.

приветствия

Ответ на a01653
Давайте использовать Linux сказал
тому назад 11 лет

Здравствуйте! Я слышал, что Tesseract - лучший OCR с открытым исходным кодом. Не знаю, будет ли хорошо. Кроме того, вам придется немного испачкать руки, чтобы он заработал. Вот несколько инструкций. Если вы добьетесь успеха, я прошу вас сообщить мне, поскольку, если это сработает, это, вероятно, в конечном итоге станет постом.

Сначала установите пакеты «tesseract 2.03-4» и «imagemagick» с помощью Synaptic, «xsane2tess» из «http://download.tuxfamily.org/guadausers/guadaV4/».

Затем создайте папку tmp в: / home / yourusername / tmp

Затем откройте Xsane, чтобы настроить его, выберите Preferences–> Configuration–> OCR tab и введите следующие данные:

Команда OCR -> xsane2tess -l spa
Параметр входного файла -> -i
Параметр выходного файла -> -o
Параметр вывода -fd interface -> -x

В конфигурациях Xsane на вкладке «Сохранить» в той части, где указан временный каталог, убедитесь, что есть папка «tmp», которую вы создали в «/ home / yourusername».

Я также оставляю вам страницу с подробностями о том, как сделать OCR в Ubuntu: https://help.ubuntu.com/community/OCR

Ответьте на использование Linux
Давайте использовать Linux сказал
тому назад 11 лет

Другой метод, который я обнаружил x, заключается в следующем:

Предполагая, что сканер уже подключен и распознан системой

1. Я открываю Система> Администрирование> Менеджер пакетов Synaptic (в GNOME)

2. Я ищу и устанавливаю рамки для установки tesseract-ocr-spa (для сканирования на испанском языке) и gscan2pdf

3. Для сканирования я открываю Приложения> Графика> gscan2pdf.

И готово.

Ответьте на использование Linux
Трубадур сказал
тому назад 10 лет

Привет, друг, большое тебе спасибо, правда в том, что тессеракт - хороший инструмент, но очень ограниченный по сравнению с книгами с «проблемным» сканированием. С другой стороны, это программное обеспечение легче адаптируется ... 😀

Ответить Trovadordebarro
Хуан Анез сказал
тому назад 10 лет

В процессе оцифровки изображений файлы PDF-A конвертируются, их необходимо распознать. Насколько чувствительно к результату сканирование в черно-белом режиме или в оттенках серого? Что рекомендуется?

Ответить juan anez