Читать книгу "Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан"
Шрифт:
Интервал:
Закладка:
В начале этой главы я объявил регрессионный анализ чудодейственным эликсиром для социальных исследований. До сих пор я использовал некий базовый статистический пакет и впечатляющие данные, чтобы продемонстрировать тот факт, что рослые люди, как правило, весят больше коротышек. Краткая прогулка по какому-нибудь супермаркету наверняка убедила бы вас в том же. Теперь пора оценить реальные возможности регрессионного анализа. Иными словами, пора пересаживаться с детского трехколесного велосипеда на велосипед для взрослых!
Как я уже говорил, регрессионный анализ позволяет распутывать сложные взаимосвязи, в которых многие факторы оказывают влияние на интересующий нас исход, например доход, или результаты экзамена, или развитие сердечно-сосудистых заболеваний. Когда мы включаем в уравнение регрессии несколько переменных, анализ дает оценку линейной зависимости между каждой объясняющей и зависимой переменной, оставляя при этом неизменными другие зависимые переменные (то есть «контролируя» их). Давайте на какое-то время сосредоточимся на весе. Мы выявили зависимость между ростом и весом, а также знаем о существовании других факторов (возраст, пол, режим питания, занятия спортом и т. п.), которые могут помочь объяснить вес. Посредством регрессионного анализа (часто называемого множественным регрессионным анализом, если в нем задействовано несколько объясняющих переменных, или многофакторным регрессионным анализом) можно вычислить некий коэффициент регрессии для каждой объясняющей переменной, задействованной в уравнении регрессии. Скажем, какова зависимость между возрастом и весом среди людей одного и того же пола и роста. Когда нам приходится иметь дело с несколькими объясняющими переменными, соответствующие данные уже невозможно отобразить на двумерной диаграмме. (Попытайтесь представить себе диаграмму, которая отображает вес, пол, рост и возраст каждого участника исследования Americans’ Changing Lives.) Тем не менее базовая методология остается той же, что и в примере с ростом и весом. При добавлении объясняющих переменных статистический пакет будет вычислять коэффициенты регрессии, которые минимизируют общую сумму квадратов разностей для соответствующего уравнения регрессии.
Пока ограничимся данными исследования Americans’ Changing Lives, а затем я вернусь и предложу интуитивно понятное объяснение того, как действует этот механизм. Мы можем начать с добавления в уравнение регрессии еще одной переменной, которая объясняет вес участников Americans’ Changing Lives, – «возраст». Когда мы вычислим уравнение регрессии, включающее рост и возраст в качестве объясняющих переменных, то получим вот что:
Вес = −145 + 4,6 × (Рост в дюймах) + 0,1 × (Возраст в годах)
Коэффициент возраста равняется 0,1. Это можно интерпретировать так: каждый дополнительный год к возрасту человека ассоциируется с 0,1 дополнительных фунта к весу человека при неизменном росте. Для любой группы людей одного и того же роста те, кто на десять лет старше, весят в среднем на один фунт больше. Как видим, влияние возраста на вес человека не так уж велико, но это соответствует тому, что мы обычно наблюдаем в реальной жизни. Данный коэффициент является значимым на уровне 0,05.
Возможно, вы заметили, что коэффициент для роста несколько увеличился. После того как мы включили в нашу регрессию возраст, у нас появилось уточненное понимание зависимости между ростом и весом. Среди людей одного возраста в выборке (иными словами, при фиксированном возрасте) каждый дополнительный дюйм роста ассоциируется с дополнительными 4,6 фунта веса.
Теперь давайте добавим еще одну переменную – пол. Тут есть один нюанс: пол может принимать лишь два значения (мужской и женский). Как вставить эти «М» и «Ж» в регрессию? Благодаря использованию так называемой двоичной, или фиктивной переменной. Вводим в нашей совокупности данных 1 для участников-женщин и 0 – для участников-мужчин. (Дорогие мужчины, пожалуйста, не обижайтесь!) При этом коэффициент пола можно интерпретировать как влияние на вес того обстоятельства, что данный участник является женщиной – при прочих равных условиях (ceteris paribus). Этот коэффициент составляет –4,8, что не должно вызывать у вас удивления. Это можно истолковать так: когда речь идет об участниках одного и того же роста и возраста, женщины обычно весят на 4,8 фунта меньше мужчин. Теперь вам уже должны быть в какой-то мере ясны богатые возможности множественного регрессионного анализа. Нам известно, что женщины обычно ниже мужчин, и наш коэффициент учитывает это обстоятельство, поскольку мы уже контролируем рост (мы его «зафиксировали»). В данном случае мы рассматриваем влияние пола – точнее говоря, женского пола. Новая регрессия принимает следующий вид:
Вес = −118 + 4,3 × (Рост в дюймах) + 0,12 × (Возраст в годах) − 4,8 (Если пол женский)
Наша «наилучшая» оценка веса пятидесятитрехлетней женщины, рост которой равен 5 футов и 5 дюймов, такова: −118 + 4,3 × 65 + 0,12 × 53 − 4,8 = 163 фунта.
Наша «наилучшая» оценка веса тридцатипятилетнего мужчины, рост которого составляет 6 футов и 3 дюйма, такова: −118 + 4,3 × 75 + 0,12 × 35 = 209 фунтов. Мы опускаем последний член (−4,8) при вычислении результата регрессии, поскольку рассматриваемый нами человек не является женщиной.
Теперь давайте приступим к проверке более интересных и менее предсказуемых вещей. Что можно сказать по поводу образования? Как оно может влиять на вес? Я бы выдвинул гипотезу, что более образованные люди в большей степени заботятся о своем здоровье и, следовательно, весят меньше. Кроме того, мы еще не проверяли влияние занятий спортом; я полагаю, что при прочих равных условиях члены нашей выборки, регулярно занимающиеся спортом, весят меньше.
А что можно сказать по поводу бедности? Не сказываются ли низкие доходы части американцев на их весе? В исследовании Americans’ Changing Lives есть вопрос о том, получает ли его участник продовольственные талоны. (Продовольственные талоны в Соединенных Штатах выдаются только малоимущим гражданам.) Наконец, меня интересует расовая принадлежность человека. Нам известно, что люди разных рас в США имеют разный жизненный опыт именно вследствие своей расовой принадлежности. С той или иной расой в Соединенных Штатах ассоциируются определенные культурные факторы и места компактного проживания. Все эти факторы могут оказывать влияние на вес человека. Многие города Америки характеризуются высокой степенью расовой сегрегации: афроамериканцы чаще других американских граждан проживают в так называемых продовольственных пустынях, то есть территориях с ограниченным доступом к продовольственным магазинам, где продаются свежие фрукты, овощи и другая свежая продукция.
Регрессионный анализ можно использовать для обособления независимого влияния каждого из потенциальных объясняющих факторов, описанных выше. Например, мы можем вычленить связь между расовой принадлежностью и весом человека, сохраняя постоянными другие социально-экономические факторы, такие как уровень образования и бедность. Существует ли статистически достоверная связь между весом человека и его принадлежностью к негроидной расе, если речь идет о людях, окончивших среднюю школу и имеющих право на получение продовольственных талонов?
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан», после закрытия браузера.