Учебно-методические материалы по медицинской информатике и статистике с сайта 1mgmu.com

Это - учебно-методические материалы по медицинской информатике и статистике с сайта 1mgmu.com

12.1.5 Статистический анализ медицинских данных с помощью пакета статистических программ SPSS: описательная статистика
Создание новых переменных с вычислением их начальных значений

Для выполнения этой команды нужно (по крайней мере, для некоторых версий SPSS) переключиться из окна с протоколом в окно редактора данных, воспользовавшись одним из стандартных возможностей Windows (например, щелкнув левой клавишей мыши по соответствующей кнопке на панели задач):

Создание новой переменной с вычислением ее начальных значений дает возможность создать новые переменные, значение которых можно вычислить по уже имеющимся, например, перевести описание клеточного состава крови из абсолютных в относительные показатели.
Например, если у нас есть систолическое и диастолическое давление, то по их разности можно вычислить величину пульсовой разности:

Если задается имя новой переменной, то в процессе этой операции создается новая переменная, которая добавляется в список переменных последней. Если задается имя уже существующей переменной, то ее старые значения заменяются на вычисленное выражение.
Эта операция задает только начальные значения переменной. Если добавить новые случаи или поменять введенные ранее значения в тех переменных, которые использовались для вычисления, то новое вычисление автоматически не произойдет. Для этого нужно еще раз выполнить команду в явном виде.
Кроме того, формула, по которой производится вычисление, в SPSS не сохраняется и при окончании сеанса работы пропадает.
С другой стороны, не все так страшно – введенные формулы хранятся как обычный текст, который можно править, копировать и вставлять в буфер обмена. Поэтому можно просто вести текстовый файл сопровождения, в котором хранить необходимые формулы.
Одной из частой операций, которые нужны в процессе статистической обработки фактических данных, является округление переменных. Выше уже разбирался пример с расчетами частот и построением графика для возраста пациентов и что кроме исходного значения желательно было бы иметь переменную с округленным возрастом.
Для вычисления новой переменной с округлением можно воспользоваться встроенной функцией TRUNC, которая осуществляет округление в меньшую сторону. Сама функция позволяет округлить с точностью до единицы, поэтому, чтобы округлить с шагом D, нужно исходную переменную умножить на D, применить функцию округления, а результат разделить на D.
В качестве примера вычислим новую функцию с возрастом, округленным до 10, рассчитаем для него таблицу частот и построим столбиковые диаграммы с делением по подгруппам, чего для диаграммы сделать нельзя.

При вычислении новых переменных часто удобно пользоваться также тем, что в SPSS, как и в большинстве современных программ, логические выражения хранятся как числа, причем неправильному выражению соответствует ноль, а правильному – единица. Это дает возможность использовать совершенно «дикие» арифметико-логические выражения.
Пусть, например, по возрасту нужно выделить следующие группы:
1. – моложе 18 лет;
2. – от 18 до 27 лет включительно;
3. – от 28 до 34 лет включительно;
4. - от 35 до 59 лет включительно;
5. 60 и старше.

Пользоваться функцией TRUNC здесь неудобно, так как шаг по возрасту при выделении групп непостоянен. Однако вычислить групповую принадлежность можно выражением
1+(age>17)+(age>27)+(age>34)+(age>59)
Как можно заметить, в данном случае за переход через границу каждой группы добавляется по единице.

В данном случае при расчете частоты «успешными наблюдениями» считаются те, в которых встретилось данное значение исследуемой переменной. Под «общим количеством наблюдений можно» понимать две разные вещи:
А) Общее число наблюдений, в рассматриваемом случае – число больных;
Б) Число наблюдений, для которых данная переменная была определена.
Для примера рассчитаем частоты значений креатинина крови, который был определен не у всех пациентов.
При проведении повторных расчетов по тому же методу в течение одного сеанса работы переменные и настройки работы, выбранные ранее, сохраняются. Обычно это удобно, но при проведении расчетов с другой переменной нужно вначале переместить ненужную обратно в общий список, а уже потом выбирать новую.
Кроме того, для проведения расчетов можно не перемещаться из окна с протоколами расчетов в окно с редактором данных.

Можно также выбрать не одну, а несколько переменных. Тогда расчет будет проведен для всех них.
В том случае, если переменная принимает достаточно много разных значений, сориентироваться в ее распределении помогает последняя колонка «Cumulative Percent» (частота нарастающим итогом), показывающая частоту не только данного, но и данного или меньшего значений.
Для анализа частот встречаемости переменной, имеющей много разных значений, лучше пользоваться другим приемом – создание новой округленной переменной – который мы изучим ниже.

Оглавление раздела нижнего уровня
Оглавление раздела верхнего уровня
ОГЛАВЛЕНИЕ ОГЛАВЛЕНИЙ

НА ГЛАВНУЮ СТРАНИЦУ САЙТА

Материалы используются на Едином Образовательном Пространстве Первого московского государственного медуниверситета им. И.М. Сеченова