Вот мои Експерименты с дежавю.
В рунете этот формат электр. книг весьма популярен. И, к сожалению, в большинстве случаев книги в djvu представляют собой лишь последовательный набор сканов, чем сильно проигрывают книгам в pdf. Однако, формат поддерживает возможность поиска по тексту и создания оглавлений, что дает возможность полноценного использования электронных книг. Собсно, добавлением этих функций к набору сканов я и озадачился.
Итак, приступаю. В качестве подопытного файла возьму книгу
"Профессиональная разработка в 1С 8.0 под ред. Радченко" объемом в 800 страниц.
0.
не знаю, можно ли тифф в дежавю
Хотя такая задача передо мной не стояла, но ее можно считать отправной точкой при создании djvu после собсно сканирования книги. Хорошим решением здесь является
LizardTech-Document Express Editor.1. Отделяем мух от котлет, т.е. получаем набор tiff-сканов из djvu и пакетный batch-файл для распознавания в FineReader(т.к. у меня п.0 пропущен).
DjvuOCR -> режим Djvu Decoder. Добавляем исходный djvu в проект и далее по пунктам. Скрин -
djOCR_Decode.JPG + Время выполнения операции: ~ 10 мин.
2. Распознавание полученных tiff-сканов в
FineReader. Открываем полученный в п.1 batch-файл. Устанавливаем языки, используемые при распознавании (меню "Сервис" -> Опции -> 2.Распознать -> Язык распознания), стандартно - "Русский и английский". Тамже можно поставить "режим распознавания" в значение "быстрый", если обрабатывается объемная книга с простым оформлением и хорошим качеством сканов. Запускаем фоновое распознавание из меню "Процесс".
+ Время выполнения операции: 1час 52мин
3. Объединение распознанных в FineReader frf-файлов (добавление текстового слоя) и исходного djvu.
DjvuOCR -> режим Batch mode OCR manager. Добавляем полученный в п.1 проект "Load DECODER project". Выбираем папку FineReader Project Directory, где находятся распознанные в п.2 frf-файлы и жимкаем "Test Project". В случае обнаружения ошибок нужно распознать вручную страницы с ошибками в
FineReader'e, а затем протестить еще раз. Жимкаем "Process" и "прожигаем" проект в djvu. Скрин -
djOCR_Batch.JPG + Время выполнения операции: 1.5 мин
4. Создание гиперссылок по оглавлению книги. Использовал для этого редактор
LizardTech-Document Express Editor 5.0 Там все просто: выделяем с пом. инструмента "гиперссылка" место в документе, где она будет расположена, и указываем саму ссылку - на место в документе, исходя из поставленной задачи. Для большей наглядности, я подсвечивал гиперссылки цветом. После того, как этот процесс закончен было-бы неплохо выровнять/упорядочить гиперссылки, т.к. при создании они имели разный размер и были расположены криво друг относительно друга. Это легко сделать с помощью
DjVu Hyperlinks Editor - нужно нажать лишь пару кнопок на закладке "Создать". Скрин -
hyp_sort.JPG + Время выполнения операции: зависит от величины оглавления книги. Ручной труд!
5. Создание дерева-оглавления. Все делается с помощью
Bookmarks Editor. Копируем наш djvu-файл в папку с программой, а затем переименовываем его в file.djvu Берем из папки doc файл content.htm и на его основе создаем структуру оглавления. В качестве ссылок нужно использовать конструкции вида #N (N - номер страницы в djvu, на к-рую пойдет ссылка). Запуск embed_html.bat создает файл file.new.djvu с оглавлением. Примечание: в файле embed_html.bat есть косяк - нужно заменить в нем строку "
bin\EmbedB~1" на "
bin\EmbedBookmarks-1.0"
+ Время выполнения операции: зависит от величины оглавления книги, в моем случае было 366 ссылок, работа заняла ~3.5 часа. Ручной труд! Очень высока вероятность ошибок! Зато результат полностью оправдывает затраты!!!
Используемый софт:
ABBYY FineReader 8.0 - OCR система
DjvuOCR 2.1 - создание DJVU-книг с вложенным текстовым слоем и поиском на основе извлечения информации из рабочих файлов FineReader 7.0/8.0
DjVu Hyperlinks Editor - выравнивание и упорядочивание гиперссылок
Bookmarks Editor v0.1 - создание дерева-оглавления.
WinDjView-0.4.3 - просмотрщик
Результат
ЗДЕСЬ [[pleased]]
ps1 - Отличной указкой по работе с форматом является сайт
http://djvu-soft.narod.ru!
ps2 - весь используемый софт и FAQ по работе с ним можно найти у меня на
ftp или в DC (frANT->DjVU->...).
ps3 - Работа проводилась на машине AMDAthlon 2800+ / 1Gb Ram не в самых идеальных условиях.