Издательская система Publisher

         

Идет распознавание текста



Рисунок 35. Идет распознавание текста


Что такое вообще распознавание? Для чего оно нужно?

Программы сканирования, даже самые лучшие (к каковым отношу теперь обязательно и Средства Microsoft Office), пользуются лишь своими командами для запуска сканера, несмотря на то что мы вроде бы ясно говорим им: сканируем текст, а не картинку. На самом деле это все больше условность, чем истинные настройки. Просто эти настройки помогают не брать во внимание многие нюансы. Если б мы заставили программу сканировать наш текст как цветную картинку, то в результате вы получили бы в вашем отсканированном и распознанном тексте много лишнего. Об этом уже сказано. Всевозможные неровности или черточки могут показаться прежнему распознавателю текста какими-нибудь значками, а здесь программа, к счастью, умнее. Кроме того освещенная лампой сканера страница очень хорошо просвечивается, и на изображение вылез бы зеркальный текст с обратной стороны страницы. Это ведь тоже значки! Слава Богу, ХР его игнорирует. Иначе была бы полная неразбериха. И драйвер сканера отключил все лишнее, выдал вам почти чистый текст (впрочем, даже самое чистое сканирование потом надо сверять). Программа наконец «вглядывается» в те картинки, которые отсканированы по ее командам и с ее помощью. Теперь фотографии (съемка идет в «тифах» — расширении TIFF) она должна превратить в текст, и это важно.

В момент распознавания происходит вычленение из TIFF самого текста, который становится доступным для экспорта его в текстовый редактор. Технология, как именно это происходит, мне неизвестна, да ведь и фирма, выпускающая программное обеспечение FineReader, также тщательно скрывает, каким образом происходит превращение одного в другое. Но нам это не так важно: они зарабатывают деньги, а нам просто надо, чтоб отсканировался наш текст, потолгу что завтра сдавать его в редакцию (или что-нибудь в таком же практическом роде).

Итак, процесс распознавания завершается, и на экране... автоматически появляется знакомое нам окно программы Microsoft Office Document Imaging!

Любопытно! Оказывается, программа сканирования текста для сохранения текста в файл пользуется помощью другой, но своей же утилиты — весьма родственной и разработанной той же самой Корпорацией Майкрософт. Замечательно. Посмотрим, как же нам превратить теперь текст в такой вид и формат, чтоб его можно было править. В навигаторе программы на рисунке 36 вы видите в левой части значки обеих страниц — и первой, и второй. А в правом большом окне — вид первой страницы, которую при желании даже можно прочесть, хотя и мелковато.



Содержание раздела