Типичные регрессионные ошибки

by

Знаете ли Вы, что недостаточно осмысленное использование регрессий может повлечь за собой смерть сотен тысяч людей? Думаете, можно и мартышку научить строить регрессии в Excel или Stata и тп? Научить-то можно, но что из этого выйдет…

Рассмотрим пример неудачного применения регрессионного анализа, а Вы пообещайте, что не будете так легкомысленны=)

С 1990-х годов в американской системе здравоохранения считалось полезным и необходимым принимать эстрогенные добавки женщинам, страдающим сердечно-сосудистыми заболеваниями. Эти добавки к 2001 году были выписаны уже 15 миллионам женщинам. Почему? Исследование Гарвардской медицинской школы показало наличие отрицательной зависимости между приемом добавок и сердечными приступами. После описанной методики лечения и назначения лекарств в течение многих лет провели клинические испытания – строгую форму научного исследования, в которых одна выборка получала лечение, а другая принимала плацебо. Было выявлено, что группа женщин, принимавших эстрогенные добавки, характеризовалась большим количеством сердечно-сосудистых заболеваний, инсультов и тд. Таким образом, изначально причинно-следственная связь была определена неверно.

Чтобы регрессионный анализ не ввел в заблуждение, стоит избегать следующих ошибок:

  • Использование МНК для анализа нелинейных по коэффициентам регрессии (для нелинейных по переменным – можно).
  • Корреляция и причинно-следственная связь – это не одно и то же. Вполне может случиться, что есть корреляция между количеством заболеваний аутизмом среди детей в США и ВВП Китая. Эта корреляция возникнет из факта роста обоих показателей за последние годы.
  • Обратная причинно-следственная зависимость. Например, количество дополнительных часов занятий для подготовки к ЕГЭ может иметь положительную связь с плохой успеваемостью в школе, но значит ли это, что чем больше занятий, тем хуже школьник учится? Скорее всего, чем хуже он успевает, тем больше ему требуется уроков, чтобы хорошо сдать экзамены.
  • Систематическая ошибка, вызванная пропущенной переменной. Например, если вы видите заголовок: «Игроки в гольф чаще болеют сердечно-сосудистыми заболеваниями», значит ли это, что гольф убивает людей? В данном случае не был учтен фактор возраста. Игроки в гольф чаще всего люди в возрасте, значит, это старость убивает людей, а не гольф.
  • Сильно коррелированные объясняющие переменные.
  • Экстраполяция за границы имеющихся данных. Например, некорректно прогнозировать значение зависимой переменной для индивида 10-летнего возраста, когда регрессия была построена для людей среднего возраста (35-50 лет).
  • Слишком много объясняющих переменных. В надежде найти статистически значимые переменные, мы все когда-то пытались включить как можно больше, а затем выкинуть незначимые, что довольно грубо и может привести к неправильным выводам. При иной спецификации модели значимость логически важных переменных может «проснуться». Включаемые в уравнение переменные должны изначально иметь некоторое обоснование для использования, гипотезу.

По мотивам: Чарльз Уилан «Голая статистика»

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google photo

Для комментария используется ваша учётная запись Google. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s


%d такие блоггеры, как: