Читать книгу "Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер"
Шрифт:
Интервал:
Закладка:
Таблица 10.6
Возможные результаты проверки гипотезы, по аналогии с судебным разбирательством
Нейман и Пирсон предложили при планировании эксперимента выбирать две величины, которые вместе определяют, насколько масштабным он должен быть. Во-первых, следует заранее зафиксировать значение для вероятности ошибки первого рода (при условии, что нулевая гипотеза верна), скажем 0,05; это называется размером критерия и, как правило, обозначается буквой α (альфа). Во-вторых, нужно заранее определить вероятность ошибки второго рода (при условии, что альтернативная гипотеза верна); она традиционно обозначается β (бета). На самом деле исследователи обычно работают с величиной 1 – β, которая именуется мощностью критерия и представляет собой вероятность отклонить нулевую гипотезу в пользу альтернативной, когда последняя верна. Другими словами, мощность в каком-нибудь эксперименте – это вероятность, что будет правильно обнаружен реальный эффект.
Налицо тесная связь между размером α и P-значением Фишера. Если в качестве пороговой величины, при которой результаты считаются значимыми, взять число α, то результаты, которые заставят нас отказаться от нулевой гипотезы, будут в точности теми же, для которых P < α. Поэтому α можно рассматривать как пороговый уровень значимости: α = 0,05 означает, что мы отвергнем нулевую гипотезу для всех P-значений меньше 0,05.
Существуют формулы для размера и мощности при различных видах экспериментов, и каждая зависит от размера выборки. Но если у выборки фиксированный размер, то компромисс неизбежен: чтобы увеличить мощность, мы можем ослабить порог для «значимости» и тем самым с большей вероятностью идентифицировать истинный эффект, однако это означает увеличение вероятности ошибки первого рода (размера). В юридической аналогии мы можем ослабить критерии для осуждения (например, снизив требования для стандарта доказывания «вне разумных сомнений»), что в результате приведет к большему количеству правильно осужденных преступников, но, увы, и к большему количеству невинно осужденных.
Теория Неймана – Пирсона берет начало в процессах контроля качества на производстве, но в настоящее время широко используется при проверке новых методов лечения. Перед началом рандомизированного клинического исследования в протоколе указывается нулевая (лечение неэффективно) и альтернативная (как правило, эффект одновременно правдоподобен и важен) гипотезы. Затем исследователи устанавливают размер и мощность критерия, нередко выбирая α = 0,05 и 1 – β = 0,80. Это означает, что для объявления результата значимым организаторы эксперимента требуют, чтобы P-значение было меньше 0,05, и с 80-процентной вероятностью достигнут этого, если лечение на самом деле эффективно. Вместе эти два числа позволяют оценить необходимое количество участников эксперимента.
Если исследователи хотят провести какое-то определяющее клиническое испытание, им нужно быть строже. Например, исследование по защите сердца пришло к выводу, что
если холестериноснижающая терапия за 5 лет сокращает смертность от сердечно-сосудистых заболеваний примерно на 25 %, а смертность от всех причин – на 15 %, то исследование именно такого размера имеет прекрасные шансы для демонстрации подобных эффектов на убедительных уровнях статистической значимости (то есть мощность > 90 %, p < 0,01).
Другими словами, если истинный эффект лечения составляет 25-процентное снижение смертности от сердечно-сосудистых заболеваний и 15-процентное – от всех причин (альтернативные гипотезы), то исследование имеет мощность примерно 90 %, а размер α = 1 %. Такие требования диктуют размер выборки свыше 20 000. Фактически, как показывает табл. 10.4, итоговые результаты дают 13-процентное уменьшение смертности от всех причин, что весьма близко к тому, что планировалось.
Идея о необходимости достаточно большой выборки для выявления правдоподобной альтернативной гипотезы прочно укоренилась при планировании медицинских испытаний. Однако исследования в психологии и нейробиологии часто используют размер выборок, определяемый удобством или традицией, и он может ограничиваться всего 20 объектами для каждого исследуемого состояния. В слишком маленьких исследованиях верные и интересные альтернативные гипотезы можно просто пропустить, поэтому сейчас наконец признали, что и в других областях исследований нужно задуматься о мощности проводимых экспериментов.
Как мы увидим в следующей главе, Нейман и Пирсон вели яростные, порой оскорбительные споры с Фишером по поводу правильного метода проверки гипотез, и этот конфликт так и не разрешился принятием какого-то единого «правильного» подхода. Как показывает исследование по защите сердца, клинические испытания, как правило, разрабатываются по теории Неймана – Пирсона, однако, строго говоря, размер и мощность не имеют значения, когда эксперимент уже фактически проведен. В этот момент испытания анализируются с помощью доверительных интервалов, демонстрирующих правдоподобные значения для эффектов лечения, а фишеровские P-значения показывают степень свидетельств против нулевой гипотезы. Таким образом, некая странная смесь идей Фишера и Неймана – Пирсона оказалась на удивление эффективной.
Можно ли было поймать Гарольда Шипмана раньше?
Из введения мы узнали, что доктор Гарольд Шипман за двадцать лет убил более двухсот пациентов, прежде чем был разоблачен. Семьи его жертв, естественно, очень взволновало то, что ему удавалось так долго совершать преступления, не вызывая подозрений, поэтому последовавшее общественное расследование должно было установить, существовал ли шанс заподозрить его раньше. До начала расследования подсчитали количество свидетельств о смерти, подписанных Шипманом для его пациентов с 1977 года, а затем сравнили это число с тем, которого можно было бы ожидать, исходя из возраста всех пациентов Шипмана и уровней смертности у других врачей, практикующих в данном районе. При проведении таких сравнений учитываются местные условия, например изменения температуры воздуха или вспышки гриппа. На рис. 10.3 представлены результаты, полученные путем вычитания ожидаемого количества из наблюдаемого числа свидетельств о смерти, выданных Шипманом с 1977 года до своего ареста в 1998 году. Эту разницу можно называть его «избыточной» смертностью.
Рис. 10.3
Совокупное количество свидетельств о смерти, подписанных Шипманом для пациентов 65 лет и старше, с вычетом числа ожидаемых смертей (с учетом возраста пациентов)
К 1998 году его избыточная смертность для людей в возрасте 65 лет и старше составила 174 женщины и 49 мужчин. Это почти точное количество пожилых людей, которые в ходе расследования были признаны его жертвами, что показывает поразительную точность этого чисто статистического анализа, куда не входили сведения о конкретных случаях[203].
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер», после закрытия браузера.