Читать книгу "Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер"
Шрифт:
Интервал:
Закладка:
В регрессионном анализе зависимой переменной (или переменной отклика) называется величина, которую мы хотим предсказать или объяснить; обычно ее откладывают по вертикальной оси y. Независимая переменная (или объясняющая переменная) – это величина, которую мы используем для прогноза или объяснения; обычно она откладывается по горизонтальной оси x. Наклон (точнее, угловой коэффициент) регрессионной прямой называется коэффициентом регрессии.
Табл. 5.2 показывает корреляцию между ростом родителей и потомков, а также наклон для регрессионных прямых[115]. Существует простая зависимость между угловыми коэффициентами, коэффициентом корреляции Пирсона и стандартными отклонениями и переменными[116]. В реальности если у зависимой и независимой переменной среднеквадратичные отклонения одинаковы, то угловой коэффициент просто совпадает с коэффициентом корреляции Пирсона, что и объясняет их сходство в табл. 5.2.
Таблица 5.2
Коэффициенты корреляции между ростом взрослых детей и родителей того же пола, а также коэффициенты регрессии для роста детей по отношению к росту родителей
Смысл углового коэффициента полностью зависит от наших предположений о взаимосвязи между изучаемыми переменными. Для корреляционных данных угловой коэффициент показывает, какое среднее изменение зависимой переменной можно ожидать, если значение независимой переменной изменится на единицу. Например, если Алиса на 1 дюйм выше Бетти, то мы можем предсказать, что взрослая дочь Алисы будет на 0,33 дюйма выше, чем взрослая дочь Бетти. Конечно, мы не ожидаем, что этот прогноз будет соответствовать их истинной разнице в росте, но это наилучшее предположение, которое мы можем сделать исходя из имеющихся данных.
Однако если мы предполагаем причинно-следственную связь, то у углового коэффициента будет совершенно иная интерпретация: это изменение, которого мы можем ожидать в зависимой переменной, если вмешаемся и изменим значение независимой переменной на единицу. Это точно не относится к примеру с ростом, так как рост нельзя изменить экспериментальным путем (по крайней мере, для взрослых). Даже с учетом описанных выше критериев Брэдфорда Хилла статистики, как правило, неохотно признают причинно-следственную связь без проведения эксперимента. Впрочем, некоторые исследователи, включая Джуда Перла, добились значительного прогресса в построении моделей причинной регрессии для наблюдательных данных[117].
Линии регрессии – это модели
Линия регрессии для роста отцов и сыновей – очень простой пример статистической модели. Федеральная резервная система США определяет модель как «представление некоторого аспекта мира, основанное на упрощающих предположениях»: по сути, какое-нибудь явление представляется в математической форме, встраивается в программное обеспечение, а затем создается упрощенная «воображаемая» версия реальности[118].
У статистических моделей есть два основных компонента. Первый – это математическая формула, которая выражает детерминистский, предсказуемый компонент, например формула прямой линии, позволяющая нам делать прогноз о росте сына, зная рост его отца. Однако такая детерминистская часть модели не будет идеальным отображением реального мира. Как мы видели на рис. 5.1, рост весьма сильно рассеян вокруг регрессионной прямой. Разница между тем, что предсказывает модель, и тем, что происходит на самом деле, – второй компонент модели, известный как остаточная ошибка, хотя важно помнить, что в статистическом моделировании термин «ошибка» означает не какой-то просчет, а неизбежную неспособность модели точно представить наблюдаемый мир. Поэтому в целом мы можем считать, что
наблюдение = детерминистская модель + остаточная ошибка.
Эта формула может быть истолкована как утверждение, что в статистическом мире то, что мы видим и измеряем, можно рассматривать как сумму систематической математической идеализированной формы и некоего случайного компонента, который пока нельзя объяснить. Классическая идея сигнала и шума.
Уменьшают ли камеры контроля скорости количество ДТП?
Этот раздел содержит простой урок: тот факт, что мы что-то делаем и что-то меняется, сам по себе не означает, что мы несем ответственность за результат. Похоже, людям трудно уловить эту простую истину, мы всегда стараемся придумать какое-то объяснение, причем гораздо охотнее, если лично находимся в центре ситуации. Конечно, иногда такая интерпретация верна: если вы щелкнете выключателем и зажжется свет, то обычно ответственны вы. Но иногда ваши действия определенно не отвечают за результат: если вы не взяли зонтик, а пошел дождь, в том нет вашей вины (хотя может показаться, что это так). Однако порой последствия наших действий менее ясны. Предположим, у вас болит голова, вы приняли аспирин, и боль прошла. Но откуда вам знать, что она не прекратилась бы, если бы вы не принимали таблетку?
У нас сильная психологическая склонность приписывать перемены какому-нибудь вмешательству, и это делает сравнения «до и после» ненадежными. Классический пример относится к камерам контроля скорости, которые обычно размещают в местах повышенной аварийности. Последующее снижение аварийности приписывают наличию камер. Но разве не понизился бы этот уровень в любом случае?
Полосы удач и неудач не бесконечны, и в конце концов все возвращается на круги своя – это тоже можно воспринимать как регресс к среднему, как у высоких отцов, имеющих более низких в среднем сыновей. Но когда мы убеждены, что полосы везения-невезения отражают постоянное состояние дел, мы ошибочно будем рассматривать возврат к нормальному состоянию как следствие какого-либо нашего вмешательства. Возможно, все это кажется вам очевидным, но эта простая идея имеет примечательные последствия:
• Преемникам футбольных тренеров, уволенных после череды неудач, лавры достаются всего лишь за возврат к нормальному состоянию.
• Управляющие фондами ухудшают показатели эффективности работы после нескольких успешных лет (и вероятного получения хороших бонусов).
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер», после закрытия браузера.