Учебно-методические материалы по медицинской информатике и статистике с сайта 1mgmu.com

Это - учебно-методические материалы по медицинской информатике и статистике с сайта 1mgmu.com

5.4.1 ТЕОРИЯ - ОБЩИЕ ПОНЯТИЯ ИНФОРМАТИКИ - Тексты

Хотя в «недрах» компьютера вся информация хранится в виде текста, для ее представления может использоваться разная форма.
Если данные – просто текст, то одна буква соответствует одному символу и, следовательно, мегабайт – около миллиона символов, то есть книга толщиной в несколько сотен листов . Поэтому работать на современных компьютерах с текстами очень комфортно: на жесткий диск влезает десятки тысяч книг, больше, чем можно прочесть; для записи книги достаточно одной дискеты, и даже при самом медленном современном способе получения данных – медленном dial-up доступе в Internet – текст загружается со скоростью порядка секунда на лист. Неформатированные тексты хранятся обычно в файлах с расширением «.txt».
Для того чтобы было можно прочесть неформатированный текст, нужно, чтобы писатель и читатель одинаковым образом считали, какой символ кодируется каким байтом. И вот в этом, казалось бы, простом деле с текстами на кириллице имеются сложности.
В байтовой кодировке латинские буквы, цифры, знаки препинания, управляющие символы (такие, как конец строки при печати) и т.п. находятся в верхней половине списка, а символы национальных языков – во второй половине. Некоторые редакторы или средства просмотра ориентированы только на первую половину списка длиной в 128 символов, а если, например, нужно показать символ с номером 228, то они показывают символ с номером 100.
В СССР в связи с этим на компьютерах использовались системы кодировок КОИ-8 и ДКОИ, в которых, если от номера русской буквы отнять 128, то оказывалась латинская буква схожего очертания. Это давало возможность удовлетворительного чтения русских текстов в нерусифицированных редакторах, в которых только такие знаки, как «э», «щ» и т.д. отображались неправильно.
Однако американцы, разрабатывавшие систему национальных кодировок, в эти тонкости вникать не стали, и приняли систему кодировки ASCII. Поэтому в 80-е годы приходилось мучаться, выясняя, в какой кодировке введены данные, и используя программы перекодирования .
К 90-м годам все окончательно перешли на ASCII, но тут появились WINDOWD, в которых система кодировки была поменяна на ANSI с совершенно другим расположением русских букв. Для того, чтобы можно было без особых проблем сохранить хотя бы тексты, в русифицированные редакторы были добавлены дополнительные команды «Прочесть текст DOS» (с перекодировкой из ASCII в ANSI) и «Сохранить как текст DOS» (с обратной перекодировкой).
Возможность использования в одном документе текстов с разными национальными языками поддерживается за счет использования разных шрифтов (например, указано, что эта часть – на русском, а эта – на украинском).
Однако и на этот раз расслабиться не удалось – в свежих вариантах WINDOWS появилась кодировка UNICODE, в которой символ кодируется уже не одним, а двумя байтами – первый задает номер национально языка, а второй – символ. При этом перекодировка ANSI в UNICODE и обратно осуществляется автоматически. Есть и другие варианты кодирования.
Особенно много путаницы было в первые годы активного использования Internet, так как в сети работают серверами и компьютеры под операционной системой UNIX с ASCII или отечественными кодировками. Однако и сейчас встречаются сайты с экзотическими типами кодировки, когда нужно в настройках браузера перебирать из более чем 10 вариантов, чтобы найти нужную.

Оглавление раздела нижнего уровня
Оглавление раздела верхнего уровня
ОГЛАВЛЕНИЕ ОГЛАВЛЕНИЙ

НА ГЛАВНУЮ СТРАНИЦУ САЙТА

Материалы используются на Едином Образовательном Пространстве Первого московского государственного медуниверситета им. И.М. Сеченова