Читать книгу "Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность - Бен Орлин"
Шрифт:
Интервал:
Закладка:
2. Насколько велик набор данных? Выборка из двух человек не внушает особого доверия. Может быть, я случайно дал шоколадку восторженному любителю жизни, а хрустящее печенье — неблагодарному нигилисту. Но в выборке из 2000 человек, случайным образом разделенной пополам, индивидуальные различия должны стираться. Даже небольшой разрыв (3,08 против 3,01) вряд ли может быть случайным.
3. Дисперсия внутри каждой группы. Если разброс оценок широк и дисперсия высока, разница в результатах двух групп легко могла быть продиктована случайностью. Но если оценки стабильные и дисперсия низкая, то даже небольшая разница, скорее всего, неслучайна.
Вся эта информация сводится к p-значению — одному числу между нулем и единицей, своего рода оценке абсурдности совпадения. Чем меньше это число, тем абсурднее полагать, что результаты получены в силу чистой случайности. Близкое к нулю p-значение говорит о том, что совпадение настолько абсурдно, что, возможно, это никакое и не совпадение.
(Чуть больше технических деталей вы найдете в примечании[170].)
Некоторые p-значения легко интерпретировать. 0,000001 означает, что фантомный результат может получиться случайно в одной из миллиона попыток. Такие совпадения настолько редки, что взаимосвязь почти наверняка есть — в нашем случае шоколад делает людей счастливее.
Между тем p-значение, равное 0,5, означает, что вероятность фантомного результата 1 к 2. Такое происходит… ну, через раз. Подобные результаты повсеместны, словно сорняки. Так что в нашем случае, похоже, шоколад не влияет на уровень счастья.
Между этими ярко выраженными случаями лежит спорная территория. Как насчет p-значения 0,1? А как насчет 0,01? Говорят ли эти числа о том, что мы ловим фантомы или наши результаты достаточно экстремальные и, возможно, это вовсе не фантомы? Чем ниже p-значение, тем лучше; но ниже — это насколько низко?
В 1925 году специалист по статистике по имени Р. А. Фишер опубликовал книгу под названием «Статистические методы для исследователей». В ней он провел черту на песке: 0,05. Иными словами, будем отфильтровывать 19 из 20 фантомов.
Зачем допускать оставшийся 20-й фантом? Ну, вы можете установить порог ниже 5 %, если вам угодно. Сам Фишер предпочитал 2 % или 1 %. Но этот отсев ложноположительных результатов влечет за собой новый риск: ложноотрицательные. Чем больше фантомов вы изгоняете, тем больше истинных результатов может заодно пойти под нож.
Предположим, вы хотите выяснить, выше ли мужчины ростом, чем женщины. Подсказка: да. Но что, если ваша выборка порождает фантомы? Что, если вы возьмете высоких женщин и низкорослых мужчин и получите среднюю разницу всего один или два дюйма? Тогда строгий порог p-критерия может забраковать результат как фантом, даже если сам по себе он вполне подлинный.
Число 0,05 представляет собой компромисс между заключением в тюрьму ни в чем не повинных и освобождением виновных.
Сам Фишер никогда не имел в виду, что 0,05 — железобетонный критерий. В своей собственной карьере он проявлял замечательную гибкость. Однажды в одной и той же статье он одобрил p-значение 0,089 («есть некоторые основания подозревать, что распределение… не вполне случайно»), но отверг 0,093 («такая взаимосвязь, если она существует, недостаточно сильна, чтобы проявляться значительно»).
На мой взгляд, это осмысленный подход. Глупое постоянство — мелкий бес начинающих статистиков. Если вы скажете мне, что благодаря мятным леденцам после обеда исчезает неприятный запах изо рта (p = 0,04), я буду склонен вам поверить. Если вы скажете, что мятные леденцы лечат остеопороз (p = 0,04), я буду не столь убежден. Я признаю, что 4 % — низкая вероятность. Но, я полагаю, еще менее вероятно, что на протяжении десятилетий наука упускала из виду стойкую связь между здоровьем скелета и «Тик-таком».
Новые данные необходимо сопоставлять с нашими знаниями. Не все 0,04 созданы равными.
Ученые это понимают. Но в области, которая гордится стандартизацией и объективностью, сложно отстаивать нюансы персонифицированных суждений. И в XX веке в гуманитарных науках наподобие психологии и медицины статус границы «5 %» постепенно эволюционировал от «предложения» к «директиве» и «промышленному стандарту». p = 0,0499? Значимо. А p = 0,0501? Извините, попытайте счастья в следующий раз.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность - Бен Орлин», после закрытия браузера.