Как сканировать текст

IT

Сейчас уже трудно удивить даже рядового пользователя ПК таким устройством как сканер. Компьютерная революция не сбавляет обороты, и уже у многих дома появись компьютеры зачастую вместе с принтером, сканером, другими периферийными устройствами. Однако использовать полностью все возможности того же сканера могут далеко не все. Скажем с такой задачей как сканирование и распознавание текста, может справиться не каждый. Попробуем разобраться в некоторых тонкостях этого процесса.

Для оптического распознавания текста подойдет практически любая модель сканера, которую можно найти в настоящее время на рынке. У большинства современных сканеров не возникает проблем с подключением и настройкой. Поэтому такие вопросы как выбор, подключение и настройка сканера мы оставим за рамками данной статьи.

В комплекте со сканером обычно поставляется соответствующее программное обеспечение, в том числе предназначенное для оптического распознавания текста. Однако, как показывает практика, эти программы справляются со своей задачей, мягко говоря «не важно». Чтобы процесс оптического распознавания текста проходил наиболее эффективно можно порекомендовать программу ABBYY FineReader. Программа неплохо себя зарекомендовала и в настоящее время является, пожалуй, наиболее популярным продуктом для распознавания текста.

Для новичка зачастую заманчивым является использование мастера распознавания текста, но им можно пользоваться, только если вы имеете оригинал текста отличного качества, а структура текста документа очень простая. В противном же случае следует разбить весь процесс получения электронной копии текста на этапы: сканирование, разметка, распознавание, сохранение результатов.

Сканирование можно осуществлять как из самой программы, так и при помощи других программных продуктов, а затем импортировать изображения отсканированного текста в программу. На этапе сканирования нам важно передать изображение текста в компьютер. Чтобы это изображение было пригодным для качественного распознавания текста важно соблюдать некоторые правила:

•  Если имеется несколько копий документа, который нужно сканировать, выбираем самую качественную из них.

•  В случае если документ подшит в папку, или его листы скреплены каким-то иным образом, желательно их расшить (конечно, если есть возможность это сделать, не нанеся непоправимый вред оригиналу документа).

•  При сканировании книги важно обеспечить плотное прилегание оригинала к стеклу сканера, так как текст, расположенный возле сгиба книги может отсканироваться неровно и, следовательно, неправильно распознаться. Здесь можно даже воспользоваться дополнительным грузом, который бы прижимал книгу плотнее, но важно не переусердствовать, так как можно раздавить стекло сканера.

•  Сканируемый оригинал нужно располагать на стекле сканера как можно ровнее. И хотя программа распознавания текста сама корректирует угол поворота изображения, иногда она это делает не совсем правильно.

После сканирования неплохо воспользоваться функцией «Очистить изображение от мусора»: она поможет избавиться от мелких дефектов изображения. Кроме того необходимо повернуть страницы таким образом чтобы документ был расположен нормально, а не боком, или вверх ногами.

Чтобы добиться высокого качества распознавания нужно не полениться и выделить вручную соответствующие блоки текста, то есть указать программе: вот это – текст, это – рисунок, это – таблица. Конечно, программа может это сделать и сама, но опять же ее интеллект еще не дорос до уровня человеческого и с задачей выделения блоков документа гораздо лучше справляется человеческий мозг.

Еще один момент насчет выделения блоков: блок типа «Таблица» требует особого внимания. Его недостаточно просто выделить. После выделения нужно щелкнуть по нему правой кнопкой мыши и в контекстном меню выбрать пункт «Анализ структуры таблицы». После анализа структуры неплохо еще и вручную подкорректировать расположение линий сетки, тогда после распознавания Вы получите качественную таблицу.

Итак, блоки выделили, теперь нажимаем «Распознать все» и ждем. Иногда, если документ объемный, это может занять достаточно продолжительное время.

После распознавания можно проверить орфографию, но тот же Word с этой задачей справляется, на мой взгляд, несколько лучше. Затем сохраняем результаты нашей работы. Для этого можно использовать мастер сохранения результатов. Формат сохраняемых данных выбираем в зависимости от того, что дальше нужно делать с текстом. В случае если текст требует дальнейшего редактирования можно порекомендовать передать его в MS Word , при этом сохраняя только начертание и размер шрифта, а не полное оформление документа, так как зачастую к документу бывает применено такое форматирование, что довольно сложно привести его к нормальному виду.

Сканирование текстов – процесс вовсе не сложный, если не полагаться во всем на искусственный интеллект программы распознавания, а некоторые действия выполнять вручную. Ну и, как и в любом деле, здесь нужен определенный опыт, который обязательно придет со временем.

Оцените статью
ЗнайКак.ру
Добавить комментарий