<|||>
 

Cuneiform распознавание документов на русском языке | Скачать и как пользоваться программой

Графический редактор и дизайн

Распознавать документы на русском языке, программой CuneiformКак бы все мы ни любили бесплатное и свободное программное обеспечение, следует признать: это на данный момент не лучший вариант для превращения сканированного изображения текста собственно в текст. Компания Congnitive Technologies в 2008-м году предоставила доступ к исходным кодам своего приложения для распознавания текста Cuneiform всем желающим.

Эта программа сразу стала прямым конкурентом Abby FineReader на рынке OCR. На данный момент платный аналог программы, конечно, оторвался в плане функциональности и качества распознавания текста несколько вперед, однако Cuneiform по прежнему дает пользователю требуемый уровень технологичности.

Следует отметить, что из открытых программ лишь Cuneiform может распознавать документы на русском языке.

Интерфейс программы ограничивается на данный момент командной строкой, что, естественно, ограничивает ее функционал. Однако, если бы для Cuneiform не было никаких графических решений, добавляющих программе интерактивности и удобства, так называемых «оболочек», скорее всего, не была бы она и такой популярной. Особенно среди пользователей Unix-подобных систем.

Такими оболочками на сегодняшний день являются Cuneiform-Qt и Yagf. Интерфейс Cuneiform-Qt пока еще более чем минималистичен и особым функционалом не богат. Работать в этом интерфейсе можно только с готовыми «сканами», напрямую со сканером — нельзя. Сам Cuneiform с распознаванием таблиц не справляется, но понимает текст, поделенный на несколько колонок (расположение в полученном тексте не сохраняется, разделение происходит по абзацам). Тут тоже, впрочем, не обошлось без трудностей. Бывает так, что программа опознает пробелы, которые расположены друг под другом в нескольких подряд строках, как разделитель между столбцами. Это может привести к непредвиденному изменению компоновки готового текста.

Оболочка YAGF является более функциональным решением для Cuneiform и предоставляет графический интерфейс на платформе Linux. Разработкой оболочки занимается Андрей Боровский. Возможности YAGF: сканирование текста прямо из оболочки, распознавание нескольких сканов в пакетном режиме (последовательно), масштабирование скана, выбор отдельных блоков для распознавания (как итог - более высокое качество распознанного текста), редактирование распознанного текста. YAGF дает возможность управлять сканированием (нужен пакет XSane), предварительной обработкой и распознаванием изображений из единого центра. YAGF также делает более простым последовательное распознавание множества отсканированных страниц. Оболочка поддерживает все растровые графические форматы (PNG, JPEG, BMP, GIF, TIFF, PNM, PBM, PPM и другие).

Все действия выполняются с помощью интуитивно-понятных элементов интерфейса (кнопки перехода к следующему изображению, сканирование, распознавание), расположенных в главной панели в верхней области окна Yagf. Можно выполнять простые операции по подготовке отсканированного изображения, такие как выделение блока текста при распознавании и поворот изображения на 90-180 градусов.

Приступая к собственно распознаванию при помощи Yagf, нужно выбрать правильный язык распознавания (или несколько языков). Cuneiform почти все европейские языки и тексты, которые содержат пару языков русский-английский.

Все распознанные фрагменты текста (блоки или страницы) добавляются в редактор распознанного текста по абзацам. Распознанный текст можно сохранить на диске в текстовый файл (в кодировке UTF-8) или скопировать в буфер обмена, опять же с помощью верхней панели. В новых версиях программы появилась возможность распознавания всех изображений с текстом. Для этого их нужно импортировать в программу, выделив все в окне обзора файлов, и кликнуть в верхней панели на кнопке «Распознать все» («OCR» зеленого цвета). При этом появится диалоговое окно с прогрессом распознавания, в котором можно остановить процесс распознавания, кликнув кнопку «Прервать».

В заключение следует отметить, что пользователи многих Linux-дистрибутивов (например Mandriva) могут найти Yagf и Cuneiform в родных репозиториях. Пользователям же Debian-подобных дистров нужно будет подключить соответствующие репозитории, которые можно найти в интернете. Таким образом пользователь получит бесплатно на своей Linux-системе готовый продукт, уступающий буквально в мелочах всемирноизвестному, но платному распознавателю текста Abby FineReader.



Понравилась полезная статья? Подпишитесь на RSS и получайте больше нужной информации!


Рейтинг 5.0 из 5. Голосов: 1
Комментарии
Добавить новый RSS
Юрий  - перезалито   |2012-11-14 14:47:45
Спасибо, программу перезалил, пользуйтесь
Анатоль   |2012-11-14 00:54:10
програма не скачивается
Оставить комментарий
Имя:
Email:
 
Тема:
 
Пожалуйста, введите проверочный код, который Вы видите на картинке.

3.26 Copyright (C) 2008 Compojoom.com / Copyright (C) 2007 Alain Georgette / Copyright (C) 2006 Frantisek Hliva. All rights reserved."

 
Яндекс.Метрика Все права защищены. Copyright 2008-2023 © Мой компьютер плюс