Читать книгу "Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер"
Шрифт:
Интервал:
Закладка:
Таблица 11.3
Шкала Касса и Рафтери для интерпретации коэффициентов Байеса в пользу какой-либо гипотезы[235]
В главе о проверке гипотез говорилось, что P-значение 0,05 эквивалентно только «слабому подтверждению». Частично такое утверждение основано на коэффициентах Байеса: можно показать, что P = 0,05 соответствует (при некоторых разумных априорных условиях при альтернативной гипотезе) коэффициентам Байеса, лежащим между 2,4 и 3,4, что, согласно табл. 11.3, будет «слабым подтверждением». Как мы узнали из главы 10, это привело к предложению понизить пороговый уровень P-значения для объявления об «открытии» до 0,005.
В отличие от проверки значимости нулевой гипотезы, коэффициенты Байеса обращаются с обеими гипотезами симметрично и поэтому могут активно поддерживать нулевую гипотезу. И при готовности поставить в гипотезы априорные вероятности мы могли бы даже вычислить апостериорные вероятности для альтернативных теорий об устройстве мира.
Предположим, что мы, основываясь исключительно на теоретических соображениях, оценили бы вероятность существования бозона Хиггса в 50 %, то есть шансы на его существование – 1:1. Данные, рассмотренные в предыдущей главе, дали P-значение, примерно равное 1 / 3 500 000. Можно вычислить, что это приводит к коэффициенту Байеса 80 000 в пользу существования бозона Хиггса, что считается очень сильным подтверждением даже по юридической шкале.
Соединив это значение коэффициента и априорные шансы 1:1, мы получим апостериорные шансы 80 000:1, или вероятность 0,99999 существования бозона Хиггса. Однако ни юридическое, ни научное сообщество не одобряют подобный анализ, даже если его использовать для идентификации останков Ричарда III.
Идеологическая битва
В этой книге мы перешли от неформального изучения данных путем знакомства с характеристиками выборки (статистиками) к использованию вероятностных моделей для получения доверительных интервалов, P-значений и так далее. Эти стандартные математические инструменты, с которыми сражались поколения учащихся, известны как «классические» или «частотные» методы, поскольку они основаны на свойствах больших выборок.
Альтернативный байесовский подход базируется на совершенно иных принципах. Как мы видели, внешние факты о неизвестных величинах, выраженные в виде априорного распределения в сочетании с вероятностной моделью для данных (правдоподобие) дают итоговое апостериорное распределение, которое становится основой для всех заключений.
Если мы всерьез принимаем такую статистическую философию, выборочные свойства становятся неактуальными. И, потратив годы на изучение того, что 95-процентный доверительный интервал не означает, что истинное значение лежит в нем с вероятностью 95 %[236], бедный студент теперь должен все это забыть: байесовский 95-процентный интервал неопределенности означает в точности последнее.
Однако дискуссии о «правильном» способе статистических выводов еще сложнее, чем простые споры между «частотниками» и «байесовцами». Как и политические движения, каждая школа делится на несколько фракций, которые нередко конфликтуют друг с другом.
В 1930-е годы в научных кругах вспыхнула трехсторонняя схватка. Площадкой для спора стало Королевское статистическое общество, которое тогда (как и сейчас) тщательно протоколировало и публиковало дискуссии о работах, представленных на его заседаниях. Когда в 1934 году Ежи Нейман предложил теорию доверительных интервалов, Артур Боули, ярый сторонник байесовского подхода, тогда известного как обратная вероятность, отмечал: «Я совсем не уверен, что “доверие” – это не “злоупотребление доверием”». А затем предложил байесовский подход: «Действительно ли это продвигает нас дальше?.. Действительно ли ведет нас к тому, что нам необходимо, – к шансам, что во Вселенной, где мы берем выборки, эта доля находится в… определенных границах? Я думаю, что нет». Издевательское связывание доверительных интервалов со злоупотреблением доверием в последующие десятилетия продолжилось.
В следующем, 1935 году началась открытая война между двумя небайесовскими лагерями – Рональдом Фишером с одной стороны и Ежи Нейманом и Эгоном Пирсоном – с другой. Подход Фишера базировался на оценивании с использованием функции правдоподобия, выражающей относительное подтверждение для различных значений параметра, которое давали данные, а проверка гипотез основывалась на P-значениях. Напротив, подход Неймана – Пирсона, известный как «индуктивное поведение», в значительной степени фокусировался на принятии решений: если вы решаете, что истинный ответ находится в 95-процентном доверительном интервале, то будете правы 95 % времени и должны контролировать ошибки первого и второго рода при проверке гипотез. Ученые даже предлагали «принимать» нулевую гипотезу, если она включала 95-процентный доверительный интервал, – концепция, которая Фишеру казалась кощунством (и впоследствии была отвергнута статистическим сообществом).
Сначала Фишер обвинил Неймана «в ряде заблуждений, выявленных в его статье». Тогда на защиту Неймана встал Пирсон, сказав, что, «хотя он знает о распространенной вере в непогрешимость профессора Фишера, он должен в первую очередь просить позволения усомниться в мудрости обвинений какого-нибудь коллеги в некомпетентности, если при этом не продемонстрированы успехи в овладении предметом спора». Желчные дискуссии между Фишером и Нейманом длились десятилетиями.
Борьба за идеологическое лидерство в статистике продолжилась и после Второй мировой войны, но со временем более классические небайесовские школы стали применять прагматичное сочетание подходов: эксперименты в целом разрабатывались с использованием теории ошибок первого и второго рода по Нейману – Пирсону, а их анализ проводился с фишеровской точки зрения – с P-значениями в качестве меры подтверждения. Как мы видели в контексте клинических испытаний, этот странный сплав, похоже, неплохо себя проявил, и в итоге выдающийся (байесовский) статистик Джером Корнфилд заметил: «Парадокс состоит в том, что, несмотря ни на что, возникла прочная конструкция непреходящей ценности, которой не хватает всего лишь надежного логического фундамента, на котором она, как изначально предполагалось, должна быть построена»[237].
Предполагаемые преимущества традиционных статистических методов перед байесовским подходом включают явное отделение фактов в данных от субъективных факторов, общую простоту вычислений; распространенность и установившиеся критерии «значимости»; доступность программного обеспечения; существование робастных методов, при которых нет нужды делать сильные предположения о форме распределения. В то же время сторонники байесовской теории утверждают, что сама возможность использовать внешние и даже явно субъективные элементы – это то, что позволяет делать более мощные выводы и прогнозы.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер», после закрытия браузера.