Читать книгу "Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер"
Шрифт:
Интервал:
Закладка:
• «Проклятие обложки Sport Illustrated»: как только спортсмены за свои достижения попадают на обложку этого известного журнала, их результаты резко ухудшаются.
Удача играет немалую роль в положении спортивных команд в турнирной таблице, а регресс к среднему означает, что можно ожидать того, что команды, преуспевающие в этом году, ухудшат игру в следующем, а плохо играющие сегодня улучшат ситуацию в будущем, особенно если команды примерно равны по силам. Напротив, видя такие изменения, мы можем подозревать, что работает регресс к среднему, и не стоит слишком обращать внимание на заявления о влиянии, скажем, новых методов тренировок.
В турнирных таблицах ранжируются не только спортивные команды. Рассмотрим таблицы Международной программы по оценке образовательных достижений учащихся (PISA), где сравниваются результаты преподавания математики в школах разных стран. Изменение положения страны в сводной таблице за 2003–2012 годы отрицательно коррелирует с начальным ее положением в списке. Иными словами, страны из верхней части списка имеют тенденцию опускаться, а из нижней части – подниматься: коэффициент корреляции равен –0,60. Однако определенные теоретические выкладки показывают, что если бы ранжирование было полностью случайным и действовал исключительно регресс к среднему, то для коэффициента корреляции можно было бы ожидать значения –0,71, которое не очень отличается от реально наблюдаемого[119]. Это говорит о том, что различия между странами меньше, чем заявляется, и что у изменений в таблицах мало общего с изменениями в методиках преподавания.
Регресс к среднему проявляется и в клинических испытаниях. В предыдущей главе мы узнали, что для правильной оценки нового лекарственного препарата нужно провести рандомизированные испытания, поскольку даже люди из контрольной группы демонстрируют улучшение состояния – так называемый эффект плацебо. Это часто истолковывают так: простой прием сахарной пилюли (предпочтительно красной) на самом деле благотворно влияет на здоровье человека. Но значительная часть улучшений у людей, не проходивших активного лечения, может приходиться на регресс к среднему, поскольку пациентов включают в испытания, когда у них есть определенные симптомы, а многие из симптомов пропали бы в любом случае. Так что если мы хотим знать подлинный эффект установки камер контроля скорости в местах повышенной аварийности, нам нужно подойти к этому вопросу так же, как к проверке фармацевтического препарата, и распределить камеры случайным образом. (После проведения таких исследований оказалось, что примерно две трети пользы от камер приходится на регресс к среднему[120].)
Если у нас есть несколько независимых переменных
Со времен первой работы Гальтона появилось множество расширений базовой идеи регрессии, в значительной степени подкрепленных современными вычислительными возможностями. Такие обобщения включают:
• несколько независимых (объясняющих) переменных;
• независимые переменные, которые не являются числами;
• зависимости, которые отображаются не прямыми, а кривыми, и гибко подстраиваются под закономерность в данных;
• зависимые переменные, которые не являются непрерывными.
В качестве примера наличия более одной независимой переменной рассмотрим, как рост сына или дочери зависит от роста их отца и матери. Теперь точки на диаграмме расположены в трех измерениях, и на странице книги изобразить это сложнее. Однако мы по-прежнему можем применить метод наименьших квадратов, чтобы вывести формулу, которая наилучшим образом предскажет рост потомства. В этом случае говорят о множественной линейной регрессии[121]. Когда у нас была всего одна независимая переменная, связь с зависимой переменной показывал наклон (угловой коэффициент) прямой, который одновременно интерпретировался как коэффициент в уравнении регрессии. Эту идею можно распространить на несколько независимых переменных.
В табл. 5.3 приведены результаты для семей Гальтона. Как можно интерпретировать показанные здесь коэффициенты? Прежде всего они являются частью формулы, которую можно использовать для прогнозирования роста взрослого потомства у конкретных отца и матери[122]. Одновременно они также иллюстрируют идею поправки для наблюдаемого отношения, учитывая третий, возмущающий фактор.
Таблица 5.3
Результаты множественной линейной регрессии для роста взрослого потомства в зависимости от роста их отцов и матерей. Отсекаемый на прямой отрезок (сдвиг) – это средний рост потомства (табл. 5.1). Коэффициенты линейной регрессии показывают прогнозируемое изменение в росте потомков при изменении среднего роста родителей на 1 дюйм
Например, мы видели в табл. 5.2, что угловой коэффициент регрессионной прямой, связывающей рост дочерей и матерей, равнялся 0,33 (вспомните, что угловой коэффициент прямой наилучшего приближения для точечной диаграммы – это всего лишь другое название коэффициента регрессии). Табл. 5.3 показывает, что если мы учтем еще и влияние роста отца, то этот коэффициент уменьшится до 0,30. Аналогично, если мы учтем при прогнозировании роста сына еще и рост матери, то коэффициент регрессии для отца снизится с 0,45 в табл. 5.2 до 0,41 в табл. 5.3. Таким образом, влияние роста одного родителя слегка снижается, если учитывать рост второго. Причиной может быть тот факт, что рост родителей не совсем независимая величина, ведь высокие женщины чаще выходят замуж за высоких мужчин. В целом эти данные говорят о том, что изменение роста отца на 1 дюйм сильнее сказывается на росте взрослого ребенка, чем изменение роста матери на 1 дюйм. Множественная регрессия часто используется, когда исследователей интересует одна объясняющая переменная, а остальные служат в качестве поправок для учета дисбаланса.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер», после закрытия браузера.