Это - учебно-методические материалы по медицинской информатике и статистике с сайта 1mgmu.com
Увеличить шрифт ::
Уменьшить шрифт
5.3.1 ТЕОРИЯ - ОБЩИЕ ПОНЯТИЯ ИНФОРМАТИКИ - Архивация, помехоустойчивость и информационная избыточность
Так как в русском языке 33 буквы, то в нем может быть 33 однобуквенных слова, 1089 двухбуквенных и 35937 трехбуквенных. Всего слов длиной не более трех букв – 37059, чего более чем достаточно. Даже с учетом падежных окончаний и т.п. количества слов длиной не более четырех букв более чем достаточно. Так почему же мы используем и более длинные слова?
Если использовать язык с максимально короткими словами, то они не только будут труднопроизносимыми, но и неправильное прочтение одной буквы будет приводить к тому, что вместо одного слова будет прочитано другое. Представьте, что было бы, если любая неправильно прочитанная в рецепте буква приводила бы к тому, что провизор вместо одного лекарства давал другое.
Чаще всего можно догадаться, какую букву нужно заменить, чтобы получить правильное слово. Иногда при таком искажении вместо одного слова получается другое, но и в этом случае часто можно по смыслу догадаться, какое слово и как неправильно понято. Поэтому при чтении рукописей слово читается лучше, чем отдельная буква, фраза – лучше, чем буква, а текст – лучше, чем буква.
Такое свойство записи сообщений, когда при небольшом количестве сбоев можно определить, что сообщение искажено, а в некоторых случаях и восстановить исходное сообщение, называется информационной избыточностью. Например, в некоторых видах оперативной памяти или других запоминающих устройств байт кодируется не восемью битами, а девятью, причем девятый выбирается так, чтобы общее количество единичных битов было нечетно. Это позволяет определить наличие единичного сбоя в записи. При передаче данных к сообщению часто добавляется так называемая контрольная сумма (вычисляемая также из примерно таких же соображений, детали могут быть различны), и если в сообщении имеются искажения, то несоответствие в контрольных суммах позволяет это определить. Если удлинить сообщение не на один бит, а на достаточно большое их количество, то можно не только определить наличие сбоя, но и восстановить исходное сообщение. Такие подходы более эффективны, чем просто повторение сообщения несколько раз.
Так как восприятие речи на слух не слишком точно, то большая информационная избыточность естественных языков просто неизбежна. Если используются более надежные способы записи, то информационную избыточность можно понизить. Например, в эпоху рукописных на дорогом пергаменте) книг обычно для сокращения объема писали только согласные, а гласные опускали. При этом текст вполне понимаем, но вот неоднозначность восстановления имен и географических названий приводит к жуткой путанице.
В естественных языках активно используются сокращения и аббревиатуры, а также жаргонизмы и профессионализмы.
В современных информационных технологиях большинство носителей информации обеспечивает очень высокую надежность хранения данных, поэтому можно использовать кодировки без информационной избыточности. При использовании компьютеров можно использовать сложные алгоритмы перекодировки с выявлением и устранением информационной избыточности. Благодаря ним тексты на естественном языке сокращаются обычно раза в четыре, форматированные тексты, картинки, звуки и т.д. сокращаются обычно в три - десять раз. Этот процесс называется архивацией, для подготовки данных к работе нужно предварительно выполнить обратную процедуру разархивации. Иногда архив создается как самораспаковывающаяся программа, состоящая из архива и программы разархивации. Большинство выполнимых файлов с программным кодом также оформлены как самораспаковывающиеся архивы. Процедуры архивации и разархивации с предельной степенью сжатия обычно занимают достаточно много времени, поэтому иногда используются более быстрые, но менее эффективные варианты сжатия.
Помимо архивации, которая позволяет выполнить обратное преобразование данных без потерь, есть более общее понятие - сжатие данных, при которой часть данных может теряться. Такие варианты сжатия часто используются при работе со звуком, изображениями и видео. Обычно при этом (особенно при работе со звуком и видео) используются быстрые алгоритмы, которые позволяют разархивировать данные со скоростью, достаточной для прямого воспроизведения разархивированных данных, и ориентированы на специфику данных. Например, при сжатии изображений картинка разбивается на отдельные квадратики, а для описания распределения цвета квадратика вначале задается средний цвет, а потом – его уточнение. Поэтому при воспроизведении картинок на медленных устройствах вначале можно увидеть огрубленную, разбитую на квадратики картинку, а потом она начинает уточняться.
При сжатии движущегося изображения вначале задается первая картинка, а потом для последующих кадров они разбиваются на квадратики размером 8 на 8 точек, и для каждого квадратика задается, на какой квадратик предыдущего изображения он больше всего похож и чем отличается. Поэтому в случае быстрого изменения изображения картинка заметно теряет качество.
Так как каналы связи с цифровым кодированием используются и в современном аналогов телевидении, то это видно и в обычных телевизионных репортажах, например, когда показывают мероприятие, сопровождающееся фотосъемкой со вспышками. При этом соседние кадры сильно отличаются из-за резких скачков яркости освещения, и изображение просто рассыпается на отдельные квадратики.
Оглавление раздела нижнего уровня
Оглавление раздела верхнего уровня
ОГЛАВЛЕНИЕ ОГЛАВЛЕНИЙ
НА ГЛАВНУЮ СТРАНИЦУ САЙТА
Материалы используются на Едином Образовательном Пространстве Первого московского государственного медуниверситета им. И.М. Сеченова