Предположим, у вас есть PDF-файл, созданный с помощью сканера или переданный вам, но содержащий информацию в виде изображения.. Процедура, в которую мы должны отправить наш любимый PDF-файл, называется OCR: процесс, который автоматически идентифицирует символы или символы, принадлежащие определенному алфавиту, от изображения до сохранения его в форме данных, с которыми мы можем взаимодействовать с помощью программы редактирования текста или подобного. |
pdfocr - это простой инструмент, который создает новый PDF-файл со встроенным текстовым слоем, позволяя пользователю выбирать текст и искать в нем слова без изменения окончательного внешнего вида PDF-файла.
Для чего НЕ предназначен pdfocr:
Это полезно, только если PDF-файл содержит информацию в виде изображения; если вы экспортировали PDF-файл из OpenOffice, он уже имеет встроенный текстовый слой, поэтому в этой процедуре нет необходимости.
Как установить pdfocr:
sudo add-apt-repository ppa: gezakovacs / pdfocr
Суда apt-get обновления
sudo apt-get установить pdfocr
Как использовать pdfocr:
Откройте терминал, перейдите в каталог, где находится PDF-файл, который вы хотите преобразовать, и введите следующее (заменив input.pdf на PDF-файл, который вы хотите преобразовать, а output.pdf - на имя нового файла со встроенным текстовым слоем. )
pdfocr -i вход.pdf -o выход.pdf
Подождите, пока на каждой странице вашего PDF-файла будет отработано распознавание текста и будет создан окончательный измененный файл. Это должно занять несколько секунд на страницу, в зависимости от разрешения вашего PDF-файла.
rodolfo @ rodolfo-desktop: ~ $ sudo apt-get install pdfocr
Чтение списка пакетов ... Готово
Создание дерева зависимостей
Чтение информации о статусе ... Готово
E: Не удалось найти пакет pdfocr
rodolfo @ rodolfo-desktop: ~ $
Вы обязательно добавили соответствующий PPA?
Этот PPA, вероятно, имеет версии pdfocr для более старых версий Ubuntu. Думаю, этому посту уже несколько месяцев. Во всяком случае, идея та же. Перейдите на Launchpad и найдите PPA, содержащий версии pdfocr для Maverick.
Ура! Павел.
Что ж, это будет вопрос тестирования, чтобы увидеть, как это работает
Преуспевать! Дайте нам знать, если у вас все получилось !! Если это не сработает, мы также можем попытаться вам помочь! Ура! Павел.
Привет,
Я протестировал программу на pdf и результат не очень хороший. Я привык к профессиональному акробату 8 и искал что-то подобное. Acrobat передает в файлы служебные программы для очистки и выравнивания отсканированных PDF-файлов и, таким образом, получения лучшего источника для ocr. Вы знаете, есть ли для этого решение.
приветствия
Здравствуйте! Я слышал, что Tesseract - лучший OCR с открытым исходным кодом. Не знаю, будет ли хорошо. Кроме того, вам придется немного испачкать руки, чтобы он заработал. Вот несколько инструкций. Если вы добьетесь успеха, я прошу вас сообщить мне, поскольку, если это сработает, это, вероятно, в конечном итоге станет постом.
Сначала установите пакеты «tesseract 2.03-4» и «imagemagick» с помощью Synaptic, «xsane2tess» из «http://download.tuxfamily.org/guadausers/guadaV4/».
Затем создайте папку tmp в: / home / yourusername / tmp
Затем откройте Xsane, чтобы настроить его, выберите Preferences–> Configuration–> OCR tab и введите следующие данные:
Команда OCR -> xsane2tess -l spa
Параметр входного файла -> -i
Параметр выходного файла -> -o
Параметр вывода -fd interface -> -x
В конфигурациях Xsane на вкладке «Сохранить» в той части, где указан временный каталог, убедитесь, что есть папка «tmp», которую вы создали в «/ home / yourusername».
Я также оставляю вам страницу с подробностями о том, как сделать OCR в Ubuntu: https://help.ubuntu.com/community/OCR
Другой метод, который я обнаружил x, заключается в следующем:
Предполагая, что сканер уже подключен и распознан системой
1. Я открываю Система> Администрирование> Менеджер пакетов Synaptic (в GNOME)
2. Я ищу и устанавливаю рамки для установки tesseract-ocr-spa (для сканирования на испанском языке) и gscan2pdf
3. Для сканирования я открываю Приложения> Графика> gscan2pdf.
И готово.
Привет, друг, большое тебе спасибо, правда в том, что тессеракт - хороший инструмент, но очень ограниченный по сравнению с книгами с «проблемным» сканированием. С другой стороны, это программное обеспечение легче адаптируется ... 😀
В процессе оцифровки изображений файлы PDF-A конвертируются, их необходимо распознать. Насколько чувствительно к результату сканирование в черно-белом режиме или в оттенках серого? Что рекомендуется?