Читать книгу "Почему. Руководство по поиску причин и принятию решений - Саманта Клейнберг"
Шрифт:
Интервал:
Закладка:
Если в ходе одного визита к врачу астма указывается, а в ходе другого нет, как это истолковать? Маловероятно, чтобы астма обладала свойством истинности только в один конкретный момент: это хроническое состояние. Однако пациент мог получать соответствующее лечение только в одном случае (и, следовательно, счет выставили только за этот визит). Все же, чтобы узнать, какие сведения упущены (врач некорректно не указал астму в списке проблем), а какие ложные (острое состояние вроде гриппа со временем ослабевает), нужно понимать не только саму проблему, но и как именно генерируются данные[412].
Наиболее оптимистичный сценарий – когда ошибки представляют собой просто случайные помехи, влияющие на все переменные в равной степени. В реальности, однако, устройства имеют разные уровни помех, а люди могут отвечать на одни вопросы точнее, чем на другие. К примеру, если мы спросим некую группу, курят ли они, одни солгут, а другие решат, что их спрашивают, курят они сейчас или курили ли в прошлом. Измерения артериального давления печально известны своей ненадежностью, поэтому мы можем обнаружить, что лекарство от гипертензии – лучший индикатор, указывающий, страдает ли человек от повышенного давления на самом деле. Конечно, затем мы увидим корреляции между этим препаратом и другими состояниями, а не между гипертензией и сопутствующими патологиями. Необходимы знания в конкретной области, чтобы понять: лекарство – просто индикатор гипертензии, оно не может быть причиной заболеваний.
Наконец, корреляции, выведенные на основе крупных наборов данных, которые изначально не предназначались для научных целей, могут отличаться низким уровнем обобщаемости, ограничивая нашу способность применить новое знание к будущим ситуациям.
В 2010 году ученые проверили, действительно ли пользователи Facebook с большей вероятностью пойдут на выборы в американский Конгресс, если получат информацию о голосовании при входе в соцсеть. И в частности, действительно ли процент пришедших на избирательные участки вырастет, если люди узнают, что их друзья уже проголосовали[413]. Более 60 миллионов человек получили извещения от Facebook с перечнем их друзей, которые указали, что уже проголосовали, а две группы поменьше (примерно по 600 000 человек в каждой) либо получили такую информацию в виде ссылки на местный избирательный участок, либо не получили никакой. Сравнив эти группы и кросс-ссылки с данными голосования, ученые заявили, что, по их оценкам, информирование в соцсети привело к увеличению числа проголосовавших примерно на 60 000 (а по косвенным данным – еще на 280 000).
И все же дополнительные 60 000 избирателей после рассылки извещений 61 миллиону – это прирост голосов менее чем на 0,1 %. Необработанные данные могут выглядеть внушительно, но только наличие громадной соцсети позволило применить подобный нецелевой метод. Если бы его пришлось реплицировать на соцсети меньшего охвата, то, чтобы получить значимую цифру новых голосов, понадобился бы иной, более прямой подход. В действительности фотографии близких друзей оказались намного эффективнее информации о том, что какие-то дальние знакомые посетили избирательные участки, однако фильтр подобного рода потребовал бы сведений о взаимоотношениях между людьми. С учетом слабого эффекта такого подхода, различий между пользователями Facebook и других соцсетей, а также несбалансированных размеров групп нельзя сказать, что это вмешательство эффективно и его можно с успехом использовать на примере других соцсетей или во время избирательных кампаний вне США. Вместо того чтобы отказываться от преимуществ причинности, лучше отказаться от идеи заиметь «черный ящик», который поглощает некий набор данных прямо из их источника и выдает поток причин, не требуя ни интерпретации, ни человеческого вмешательства. Каузальное осмысление необходимо и возможно, однако оно не идеально и, что более важно, требует специальных знаний.
Легко может создаться впечатление, что множество не связанных между собой отраслей знания работают в изоляции друг от друга над мелкими частями проблемы, потому что ученые, затворившись в своих узкоспециальных башнях из слоновой кости, спорят о наилучших способах выявления и применения причин. Очевидного консенсуса не видно, а каждый подход страдает таким количеством ограничений, что все предприятие кажется просто безнадежным. Нужно понимать, что, даже если мы искренне хотим узнать причины, скорее всего, сделать этого так и не сможем.
Проблема каузальности не решена, и здесь нет никакой великой и единой теории. Мы не можем дать определение причины, работающее в каждом отдельном случае, с которым столкнемся, и не существует метода выявления причин на основе данных любого и каждого типа. Безусловно, азарт исследователей подогревается недосягаемыми горизонтами неизведанного. Но если вы не из их числа, что можете для себя вынести?
Нам, конечно, известно не все, но кое-что все-таки понятно. Еще важнее и обнадеживает, что наше понимание причинности постепенно совершенствуется.
Это стало возможным отчасти за счет лучшей информации и более мощных вычислительных систем, а отчасти за счет сближения узкоспециальных и междисциплинарных познаний.
Причинность и корреляция не синонимы
Итак, один из главных «сухих остатков» этой книги – понимание, как сложен поиск причин.
В подавляющем большинстве случаев, когда мы уверены, что отыскали причину, на самом деле мы обнаружили всего лишь корреляцию. А иногда даже и она мнимая. Это может быть результатом искажений (когда, не замерив правильные переменные, мы обнаруживаем ложную взаимосвязь между следствиями с общей причиной), смещений поиска и оценки информации (предвзятость подтверждения означает, что мы видим только положительные примеры) или многих других проанализированных нами факторов.
Очень важно знать все возможности обнаружения корреляций, которые не считаются причинными зависимостями, так как это поможет критически оценить наши выводы и допущения и предотвратить неэффективные вмешательства.
Скажем, я увидела корреляцию между дистанцией своих пробежек и уровнем энергетики организма. Неожиданный вывод: чем дольше я бегаю, тем энергичнее себя ощущаю. Но, если это происходит лишь потому, что я дольше бегаю в те дни, когда у меня больше свободного времени и я могу позже лечь спать, тогда в действительности я выяснила только следующее: энергией заряжает долгий сон, и любое предположение по поводу громадного вброса энергии после марафона определенно не сбудется. Также это значит, что для меня лучшая стратегия восстановиться – больше спать, а не бегать часами.
И не важно, насколько велик массив данных, – все равно не уйти от необходимости подвергнуть свои выводы сомнению и задать вопрос «почему».
К примеру, компания Google использовала корреляции между поисковыми критериями пользователей интернета и случаями заболевания гриппом, чтобы спрогнозировать тенденции болезни еще до того, как это успевали сделать Центры по контролю заболеваемости[414]. Но подобный подход работает только в том случае, если люди ищут информацию в Сети, потому что уже наблюдают симптомы, а не потому, что их заботит распространение гриппа, симптомы появились у членов их семьи или стало известно об исследованиях Google. На деле эффективность сервиса Google Flu Trends[415] со временем снизилась. В 2011 году предсказанные им уровни заболеваемости оказались намного выше того, что было в действительности, и завышение показателей продолжалось еще некоторое время после эпидемии[416]. Не понимая, почему нечто становится прогностическим индикатором, нельзя избежать непредвиденных неудач.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Почему. Руководство по поиску причин и принятию решений - Саманта Клейнберг», после закрытия браузера.