Краткие пояснения к моим статьям и расширенные иллюстративные материалы, выложенные на сайте 1mgmu.com


Увеличить шрифт :: Уменьшить шрифт

Статистический анализ размахов и его использование для выявления вклада инфекционной заболеваемости в смертность в г. Москве

(это – укороченный и изложенный более простым языком вариант статьи, которая должна быть опубликована. Здесь также есть ссылки на большие таблицы с фактическими данными и результатами расчетов, которые слишком велики, чтобы быть помещенными в статью, публикуемую в журнале).

При анализе причин, вызвавших заболевание, смерть, инвалидизацию и т.д. одна из важных задач – выяснить, нет ли в этом вклада некой компоненты, связанной с инфекционными заболеваниями. Выяснение этого на основании анализа заболеваемости (смертности и пр.) достаточно сложно, но не безнадежно.

Отдельные случаи инфекционной заболеваемости не являются независимыми, так как появление заразного инфицированного повышает вероятность инфицирования других членов популяции. С другой стороны, понятие «статистическая зависимость» - очень «мягкое», не подразумевающие наличие прямых причинно-следственных связей. Так, статистически связанными являются случаи перелома конечностей, так как они чаще происходят в гололед. В результате появление случая перелома в данный день повышает вероятность того, что в этот день – гололед, а это повышает вероятность переломов у других. Поэтому для того, чтобы попытаться вычленить степень связанности, характерную для инфекционной заболеваемости, от других случаев статистической связи, мы будем рассматривать и сравнивать друг с другом несколько разных характеристик степени положительной связанности отдельных случаев.

Так как вероятность определенного заболевания (смерти от определенной причины и т.д.) за рассматриваемые временные промежутки мала, то в случае независимости отдельных случаев заболеваний можно считать, что число случаев заболевания за данный период распределена по Пуассону, в частности дисперсия равна математическому ожиданию. Если же случаи сгруппированы в «пачки» по n случаев, то дисперсия в n раз больше математического ожидания. Поэтому отношение дисперсии к среднему арифметическому можно рассматривать как оценку величины «очага».

Кроме этого, положительно связаны будут величины количества случаев, зафиксированных за соседние промежутки времени. Количественно оценить меру этой связи можно при помощи автокорреляционной функции.

Однако положительная связь между числом заболевших за соседние промежутки времени будет и в том случае, когда интенсивность потока меняется со временем, например, имеются многолетние тенденции к повышению или снижению заболеваемости или зависимость заболеваемости от времени года. Кроме того, положительная связь будет и при стационарном процессе, то есть процессе, у которого математическое ожидание и другие параметры распределения в каждый момент времени от времени не зависит, но интенсивность потока меняется со временем. Это могут быть как плавные изменения с течением времени, так и скачки. Поэтому для анализа желательно иметь не только автокорреляционную функцию, но и другие характеристики величины зависимости числа случаев за промежутки времени.

В последнее время для анализа временных рядов стали активно использоваться показатели, опирающиеся на размахи, такие, как фрактальная размерность и показатель Херста. Однако в оригинальном варианте они требуют для анализа длительные временные ряды, порядка тысячи точек и более, что делает их малоприменимым для анализа фактических данных. Поэтому мы предлагаем вариацию этого метода, не требующую длинных рядов – прямой анализ изменения размаха заболеваемости при увеличении временных промежутков.

При анализе фактических данных есть еще одна техническая сложность – работать приходится с данными помесячными, так как данные за год дают слишком мало информации для анализа, а заболеваемость по неделям собирается очень редко. Но разные месяцы имеют разную длительность, а то, что длительность месяцев в основном чередуется, добавляет существенную отрицательную компоненту в связь заболеваемости за соседние месяцы. Поэтому далее мы будем пересчитывать абсолютную заболеваемость (число случаев смерти, инвалидизации и пр.) в среднее за день, а при дальнейшем статистическом анализе проводить расчеты с учетом этой особенности.

В частности, это не позволяет получить обозримых аналитических выражений для анализа изменения размаха при объединении рядов помесячной заболеваемости. В связи с этим мы рассчитали таблицы методом Монте-Карло, а так как они оказались слишком большие для размещения их в статье, то выложили в Интернет по адресу _______.

Дальнейшее изложение использованной техники, а также использование ее для анализа случаев смерти в Москве с делением по причинам смерти было опубликовано в статье _____, полнотекстовый вариант статьи выложен в Интернет _____.

Здесь же выложены таблицы, позволяющие за счет анализа размахов определить независимость случаев заболевания.

Приведем их подробное описание.

Пусть имеются данные о числе случаев за каждый месяц, начиная с января, за N лет (далее по каждой ссылке выложены таблицы для данного числа лет). Пусть z – математическое ожидание числа случаев за один день, так что число случаев за день распределено по Пуассону с показателем лямбда=z и за разные дни независимо.

Методом Монте-Карло разыгрывается реализация (представленные таблицы рассчитаны для 100 тысяч реализаций). Для каждой реализации рассматривается размах R(1), то есть разность между максимальным и минимальным числом случаев заболевания за месяц. Потом временной ряд укрупняется в n раз, например для n=3 первое значение – сумма за январь, февраль и март первого года, второе – сумма с апреля по июнь и т.д. Для полученного укрупненного ряда рассчитывается размах R(n) и отношение размахов исходного и укрупненного ряда q=R(n)/R(1). В таблице представлены величины процентилей для случайной величины q. Сравнивая полученные величины с табличными, можно проверить гипотезу о независимости случаев в наблюдаемом ряде.

Обратите внимание, что q – дискретная случайная величина, принимающая с ненулевыми вероятностями рациональные величины в пределах от 0 до n, поэтому величины процентилей при разных вероятностях для нее могут совпадать.

Также заметим, что величина q может быть и не определена, в том случае, если при розыгрыше реализации числа заболеваемости за все месяцы оказались одинаковыми, так что R(1)=0. В этом случае розыгрыш отбрасывается из анализа.

Приведены величины, рассчитанные методом Монте-Карло. Фильтрации и сглаживания не проводилось, так что по таблицам легко оценить статистическую погрешность полученных величин.

Приведенная техника использована для анализа смертности (по причинам смерти) жителей г. Москвы за 1999-2005 годы. Так как в рассматриваемой работе используется вариант анализа, который можно применять только для стационарных случайных процессов, то там также приведены рассчитанные коэффициенты корреляции абсолютной заболеваемости с порядковым номером ряда (что позволяет выявить многолетнюю линейную тенденцию) и с синусом и косинусом от времени года (что позволяет выявить внутригодовые изменения заболеваемости).

ФАКТИЧЕСКИЕ ДАННЫЕ О СМЕРТНОСТИ В ГОРОДЕ МОСКВЕ

Таблица с фактическими данными


ТАБЛИЦЫ ПРОЦЕНТИЛЕЙ РАСПРЕДЕЛЕНИЯ ОТНОШЕНИЯ РАНГОВ R(n)/R(1)

Для ряда в один год
Для ряда в два года
Для ряда в три года
Для ряда в четыре года
Для ряда в пять лет
Для ряда в шесть лет
Для ряда в семь лет
Для ряда в восемь лет
Для ряда в 9 лет
Для ряда в 10 лет
Для ряда в 11 лет
Для ряда в 12 лет
Для ряда в 13 лет
Для ряда в 14 лет
Для ряда в 15 лет
Для ряда в 16 лет
Для ряда в 17 лет
Для ряда в 18 лет
Для ряда в 19 лет
Для ряда в 20 лет



В оглавление статей
В оглавление статей



НА ГЛАВНУЮ СТРАНИЦУ САЙТА