Опубликован: 01.11.2006 | Уровень: для всех | Доступ: платный
Лекция 5:

Набор текста

Преобразование носителя. Чтобы иметь возможность принять файлы или диски, не соответствующие стандартным форматам, вам может потребоваться машина, осуществляющая преобразование носителя.

Преобразование носителей осуществляется с помощью особых компьютеров, которые оборудованы широкой гаммой дисководов различного формата и накопителей на магнитной ленте, и могут быть запрограммированы для расшифровки структуры дискеты практически любого типа, для дисков 3,0", 3,5", 5,25" или 8,0" с какой угодно плотностью записи с любой системой организации дорожек и секторов.

Другие типы носителей, которые могут потребовать возможностей системы InterMedia, могут включать картриджи сменных жестких дисков Syquest (44,88 или 105 Mb); ленточных кассетных накопителей; или даже накопителей типа DAT на 4 мм магнитной ленте (лента для цифровой аудиозаписи, на которую можно записывать огромные массивы данных). В последнее время все большей популярностью пользуются CD-ROM-диски и магнитооптические накопители.

Однажды расшифровав данные, можно запрограммировать машину таким образом, чтобы передавать файлы непосредственно на выбранный вами компьютер наборного устройства в том формате, который для него требуется, или же записать данные на соответствующим образом отформатированные диски, которые могут использоваться на вашем принимающем компьютере или на заданном удаленном наборном устройстве.

Машина для преобразования носителя, такая как InterMedia, обеспечивает чтение и запись буквально сотни различных форматов. Производители постоянно пополняют списки доступных форматов, добавляют новые форматы по мере появления на рынке новых машин.

Передача по линиям связи. Если данные передаются по обычной телефонной линии, требуется модем (модулятор-демодулятор) на каждом конце линии связи. Бытовые телефонные линии могут передавать только аналоговые данные, подобные модуляциям человеческого голоса. Модем преобразует цифровые данные в аналоговые сигналы, которые могут быть переданы по сети, а принимающий модем затем декодирует аналоговые сигналы и возвращает их в цифровую форму для приема их компьютером.

Для проверки безошибочности передачи данных используются специальные схемы: принимающий модем проверяет входящие данные автоматически и требует, чтобы передающий модем повторно передал ошибочные данные.

Оба модема подключаются к последовательным портам соответствующих компьютеров. Обычным стандартом для этого уровня связи является последовательная передача, при которой данные посылаются по однопроводной линии последовательно один бит за другим, в отличие от метода параллельной передачи, при котором биты данных, составляющие отдельные байты, передаются все вместе одновременно.

Передача сама по себе может принимать различные формы, каждая из которых имеет собственный набор требуемых характеристик, или протокол; выбранный протокол должен быть корректно идентифицирован и идентично настроен на обеих сторонах линии связи.

Наиболее распространенной формой передачи данных между компьютерами является асинхронная передача, при которой символы передаются по одному, а для контроля ошибок используются стартовые и стоповые блоки данных, задаваемые "стартовыми" и "стоповыми" битами. (Другой метод, синхронная передача, ассоциируется с большими объемами данных, и в этом случае блоки данных задаются синхронизированными временными импульсами на каждом конце линии.)

Может быть использована полудуплексная или дуплексная передача. Полудуплексная передача предполагает посылку данных в обоих направлениях, но не одновременно ("вежливый разговор"); дуплексная передача позволяет одновременную посылку данных в двух направлениях (каждый абонент может говорить в одно и тоже время). Протоколы типа "рукопожатие" предусматривают стартовые и стоповые данные, которые дают принимающему устройству время на запись информации, а эти вспомогательные данные носят названия "запрос на посылку" и "очистка для посылки".

Скорость передачи определяется в бодах, что означает "бит в секунду". Принятый диапазон скоростей передачи данных между PC по телефонным линиям составляет от 4800 бод (480 символов в секунду, или около 5 секунд на один лист формата А4) до 9600 бод, 14 400 бод или 28 000 бод для высокоскоростных модемов.

Посылаемые в принимающий компьютер сигналы будут, конечно, представлены в родной для передающего компьютера форме, поэтому перед использованием полученных данных необходимо преобразование их формата. Для этого можно использовать либо отдельно выполняемую операцию, либо программу, позволяющую осуществлять некоторые, или все, преобразования форматов, выполняемые "на лету" по мере получения данных.

Оптическое распознавание символов. Технология OРС (Оптическое распознавание символов) обеспечивает средства для считывания напечатанного на машинке или на принтере материала путем его сканирования, что избавляет от необходимости повторного набора текста.

Твердая копия материала сканируется постранично, строка за строкой, с помощью сканера со специальной программой распознавания символов.

Считываемый текст может быть либо в формате ASCII-кодов, либо может содержать ограниченное количество типографских эффектов (курсив, полужирный и т.д.), в зависимости от настройки вашей машины. Считываемый текст передается в систему набора для дальнейшей обработки точно так же, как если бы вы передавали данные по проводам линии связи.

По сравнению с описанными ранее методами прямой передачи данных, метод сканирования отличается тем, что требует высокого качества исходного материала для получения надежного результата; при использовании мелкого шрифта или текста на иностранном языке точное преобразование осуществить не удастся.

Метод дает возможность работать с материалом, не затрачивая усилий на его набор с клавиатуры, что особенно важно в тех случаях, когда вы получаете авторский текст только в виде распечатки.

Программное обеспечение OРС широко различается по степени "интеллекта", поэтому важно поэкспериментировать с образцами текстового материала, прежде чем приступать к основной работе.

Простейшие программы могут распознавать лишь ограниченное число заданных шрифтов с фиксированными промежутками между словами. Такие программы пытаются подогнать текст под один из соответствующих шаблонов, хранящихся в памяти программы, и не способны распознать текст, который не вписывается ни в один из шаблонов.

Следующая группа программ значительно более полезна, поскольку эти программы могут распознавать тексты, набранные с использованием одного из шрифтов, входящих в стандартный набор, как с фиксированными промежутками, так и пропорциональных, оператор может "научить" программу распознавать и новые, определяемые пользователем шрифты, если это необходимо.

Наконец, существуют программы серии "ICR" (разумное распознавание символов), которые в настоящее время являются стандартом для систем распознавания. Это весьма изощренные программы графического распознавания, которые в ходе работы сравнивают любые поступающие печатные тексты самого разного вида с соответствующим широким набором символов и "графических примитивов" (элементов символа), хранящихся в памяти. Эти системы работают не с фиксированными шаблонами, а с отдельными составляющими элементов шрифта. Достаточно развитые пакеты также предлагают контекстно-чувствительную поддержку для обработки текстов на иностранных языках за счет применения дополнительных правил обнаружения и проверки специфичных для каждого языка сочетаний букв.

Камила Джепарова
Камила Джепарова
Анна Терентьева
Анна Терентьева
Екатерина Бобылева
Екатерина Бобылева
Россия
Наталья Кириллова
Наталья Кириллова
Россия