Популярное
- Расчет зигзагообразных антенн Харченко для 3G модема 2100
- Перенос папки Temp Windows 7 и для чего нужна папка темп
- Как настроить ускоритель связи сети интернета 3G модема?
- Прошивка USB 3G модема HUAWEI Modem 3.0 (новая версия!)
- Флешки или радуйтесь счастливые обладатели A-DATA и Trancsend
- Почему диспетчер задач отключен администратором, как включить?
Cuneiform распознавание документов на русском языке | Скачать и как пользоваться программой |
Графический редактор и дизайн |
Эта программа сразу стала прямым конкурентом Abby FineReader на рынке OCR. На данный момент платный аналог программы, конечно, оторвался в плане функциональности и качества распознавания текста несколько вперед, однако Cuneiform по прежнему дает пользователю требуемый уровень технологичности. Следует отметить, что из открытых программ лишь Cuneiform может распознавать документы на русском языке. Интерфейс программы ограничивается на данный момент командной строкой, что, естественно, ограничивает ее функционал. Однако, если бы для Cuneiform не было никаких графических решений, добавляющих программе интерактивности и удобства, так называемых «оболочек», скорее всего, не была бы она и такой популярной. Особенно среди пользователей Unix-подобных систем.
Такими оболочками на сегодняшний день являются Cuneiform-Qt и Yagf. Интерфейс Cuneiform-Qt пока еще более чем минималистичен и особым функционалом не богат. Работать в этом интерфейсе можно только с готовыми «сканами», напрямую со сканером — нельзя. Сам Cuneiform с распознаванием таблиц не справляется, но понимает текст, поделенный на несколько колонок (расположение в полученном тексте не сохраняется, разделение происходит по абзацам). Тут тоже, впрочем, не обошлось без трудностей. Бывает так, что программа опознает пробелы, которые расположены друг под другом в нескольких подряд строках, как разделитель между столбцами. Это может привести к непредвиденному изменению компоновки готового текста. Оболочка YAGF является более функциональным решением для Cuneiform и предоставляет графический интерфейс на платформе Linux. Разработкой оболочки занимается Андрей Боровский. Возможности YAGF: сканирование текста прямо из оболочки, распознавание нескольких сканов в пакетном режиме (последовательно), масштабирование скана, выбор отдельных блоков для распознавания (как итог - более высокое качество распознанного текста), редактирование распознанного текста. YAGF дает возможность управлять сканированием (нужен пакет XSane), предварительной обработкой и распознаванием изображений из единого центра. YAGF также делает более простым последовательное распознавание множества отсканированных страниц. Оболочка поддерживает все растровые графические форматы (PNG, JPEG, BMP, GIF, TIFF, PNM, PBM, PPM и другие). Все действия выполняются с помощью интуитивно-понятных элементов интерфейса (кнопки перехода к следующему изображению, сканирование, распознавание), расположенных в главной панели в верхней области окна Yagf. Можно выполнять простые операции по подготовке отсканированного изображения, такие как выделение блока текста при распознавании и поворот изображения на 90-180 градусов. Приступая к собственно распознаванию при помощи Yagf, нужно выбрать правильный язык распознавания (или несколько языков). Cuneiform почти все европейские языки и тексты, которые содержат пару языков русский-английский. Все распознанные фрагменты текста (блоки или страницы) добавляются в редактор распознанного текста по абзацам. Распознанный текст можно сохранить на диске в текстовый файл (в кодировке UTF-8) или скопировать в буфер обмена, опять же с помощью верхней панели. В новых версиях программы появилась возможность распознавания всех изображений с текстом. Для этого их нужно импортировать в программу, выделив все в окне обзора файлов, и кликнуть в верхней панели на кнопке «Распознать все» («OCR» зеленого цвета). При этом появится диалоговое окно с прогрессом распознавания, в котором можно остановить процесс распознавания, кликнув кнопку «Прервать». В заключение следует отметить, что пользователи многих Linux-дистрибутивов (например Mandriva) могут найти Yagf и Cuneiform в родных репозиториях. Пользователям же Debian-подобных дистров нужно будет подключить соответствующие репозитории, которые можно найти в интернете. Таким образом пользователь получит бесплатно на своей Linux-системе готовый продукт, уступающий буквально в мелочах всемирноизвестному, но платному распознавателю текста Abby FineReader. Понравилась полезная статья? Подпишитесь на RSS и получайте больше нужной информации! Рейтинг 5.0 из 5. Голосов: 1 |