Читать книгу "Все лгут. Поисковики, Big Data и Интернет знают о вас всё - Cет Cтивенс-Давидовиц"
Шрифт:
Интервал:
Закладка:
Коган считает это естественным развитием медицины, и даже не особо радикальным. «Что такое диагноз? – спрашивает он. – Диагноз, по сути, является утверждением, что вы оказались в той же ситуации, как и множество ранее изученных людей. Если я, не дай бог, диагностирую у вас инфаркт, то скажу, что у вас та же патофизиология, которую я уже видел у других людей с сердечным приступом».
Диагноз, по сути, является примитивным вариантом поиска двойника. Проблема в том, что наборы данных, которые используют врачи для его постановки, слишком маленькие. Сегодня диагноз основывается на опыте доктора, лечившего своих пациентов, и он может быть дополнен данными из научных статей о популяциях, с которыми работали другие исследователи. Как мы видели, поиск двойника может стать действительно полезной штукой – необходимо только, чтобы он включал в себя намного большую статистику.
Вот область, в которой большие данные на самом деле могут помочь. Так почему же на внедрение метода требуется столько времени? Почему он до сих пор широко не используется? Проблема заключается в сборе информации. Большинство медицинских заключений по-прежнему существуют только на бумаге и похоронены в папках. А те, которые оцифрованы, часто не могут быть использованы вследствие несовместимых форматов. «Мы нередко имеем больше информации о бейсболе, чем о здоровье», – говорит Коган{133}. Но простые меры порой идут длинными путями. Ученый неоднократно говорил о «низко висящих плодах». Например, он считает, что даже просто создание базы данных, включающей информацию о росте и весе детей, а также обо всех возможных детских болезнях, стало бы революционным развитием педиатрии. После этого развитие каждого ребенка можно было бы сравнить с развитием любого другого ребенка. Компьютер помог бы найти детей, развитие которых идет по уже пройденному кем-то пути и автоматически предупредил бы обо всех тревожных моментах. Например, он был бы в состоянии обнаружить преждевременный рост ребенка, что в некоторых случаях может указывать на две возможные причины: гипотиреоз или опухоль мозга. Ранняя диагностика в обоих случаях принесет огромную пользу. «Подобные заболевания возникают достаточно редко – примерно одно на десять тысяч, – говорит Коган. – В остальном эти дети здоровы. Думаю, мы могли бы диагностировать болезнь раньше по крайней мере на год. Стопроцентно смогли бы».
Джеймс Хейвуд{134} – предприниматель, использующий другой подход к решению проблемы объединения медицинских данных. Он создал сайт PatientsLikeMe.com, где люди могут сообщать данные о своих заболеваниях, методах лечения и возникающих побочных эффектах. И Джеймс уже добился большого успеха в отношении ряда болезней.
Его цель заключается в сборе достаточного количества информации о людях со сходными состояниями – чтобы впоследствии каждый мог найти своего двойника по здоровью. Хейвуд надеется, что таким образом можно будет найти людей нужных возраста и пола, с похожими историей и симптомами – и посмотреть, что им помогло. Это будет совсем другой тип медицины.
Во многих случаях детализация данных для меня ценнее локального поиска для конкретного исследования, поскольку она предлагает новый способ видения и описания жизненных процессов.
Когда люди узнают, что я – и ученый, занимающийся сбором и анализом данных, и писатель, они иногда делятся каким-либо фактом или результатами опроса. Я часто нахожу эти сведения скучными, обобщенными и лишенными жизни. Они не сообщают мне никаких интересных историй.
Помимо этого, друзья пытались уговорить меня начать читать различные романы и биографии. Но меня это тоже мало интересует. Я всегда спрашиваю себя: «Происходило ли подобное в других ситуациях? Каков более общий принцип?» Их истории кажутся мелкими и непоказательными.
Я попытался изложить в этой книге нечто, на мой взгляд, не имеющее аналогов. Оно основано на данных и цифрах; оно показательно и позволяет заглянуть далеко вперед. И при этом большие данные – настолько обширный материал, что позволяют представить себе описываемых ими конкретных людей. Когда мы составляем поминутный график расхода воды в Эдмонтоне, я вижу, как люди встают с дивана в конце хоккейного периода. Когда мы внимательно изучаем людей, переезжающих из Филадельфии в Майами и начинающих мухлевать с налогами, я вижу, как они разговаривают со своими соседями и узнают о налоговых трюках. Когда мы детально анализируем статистику о бейсбольных болельщиках разного возраста, я вижу свое детство, детство брата, а также миллионы взрослых мужчин, все еще неистово болеющих за команды, завоевавшие их сердца, когда им было по восемь лет.
Рискуя в очередной раз впасть в пафос, я должен сказать: упомянутые в этой книге экономисты и ученые, занимающиеся сбором и анализом информации, создали не просто новый инструмент, но новый жанр. В этой главе и в большей части этой книги я попытался описать данные – настолько подробные и многочисленные, что позволяют нам добиться предельно точной детализации. Не ограничиваясь информацией о каком-либо конкретном обычном человеке, мы с их помощью все еще можем рассказывать разнообразные и запоминающиеся истории.
Весь мир – лаборатория
27 февраля 2000 года{135} в кампусе Google в Маунтин-Вью, начинался как обычный день. Светило солнце, велосипедисты крутили педали, массажистки занимались массажем, сотрудники увлажняли себе кожу огуречной водой. И вдруг в этот самый обычный день нескольким инженерам Google пришла в голову идея, оказавшая невероятное влияние на развитие интернета. Разработчики нашли наилучший способ заставить вас переходить на сайты, оставаться на них и возвращаться туда снова.
Прежде чем описывать то, что они сделали, мы должны поговорить о разнице между корреляцией и причинностью – это огромная проблема в области анализа данных, которой мы еще не уделили должного внимания.
СМИ каждый день бомбардируют нас результатами исследований на базе корреляций. Например, мы уже рассказывали, что физическое состояние у умеренно потребляющих алкоголь, как правило, лучше, чем у не умеющих остановиться. То есть наблюдается корреляция.
Значит ли это, что если пить немного, то здоровье улучшится – является ли это причинно-следственной связью? Пожалуй, нет. Скорее, потреблять алкоголь в небольших дозах людям позволяет как раз хорошее здоровье. Социологи называют это обратной причинно-следственной связью. Или, возможно, существует независимый фактор, приводящий как к нежеланию много пить, так и к хорошему здоровью. Например, если вы проводите много времени с друзьями, это приводит к потреблению алкоголя и крепкому здоровью. Социологи называют это смещением с опущенной переменной.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Все лгут. Поисковики, Big Data и Интернет знают о вас всё - Cет Cтивенс-Давидовиц», после закрытия браузера.