Читать книгу "Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер"
Шрифт:
Интервал:
Закладка:
Рис. 2.10
Инфографика на основании данных Национального исследования сексуальных отношений и образа жизни (Natsal-3); выводы представлены как визуально, так и словесно
Еще более продвинутой является динамическая графика, где движение используется для выявления закономерностей изменений с течением времени. Специалистом по такой методике был Ханс Рослинг, чьи выступления на конференция TED[65] и видеоролики установили новый стандарт для выступлений с применением статистики, например демонстрация взаимосвязи между изменениями благосостояния и здоровья с помощью перемещения пузырьков, отражающих прогресс в каждой стране с 1800 года до наших дней. Рослинг использовал графику, чтобы исправить ошибочное представление о различии между развитыми и слаборазвитыми странами: динамические графики показывали, что со временем почти все страны стабильно двигались по одному и тому же пути в сторону улучшения благосостояния и процветания[66],[67].
В этой главе продемонстрирован весь диапазон представления информации – от простых описаний и изображения необработанных данных до сложных примеров изложения с применением статистики. Современные вычисления делают визуализацию данных проще и гибче. А поскольку характеристики выборки могут как скрывать, так и подчеркивать существенные особенности, важно наглядное графическое представление. Тем не менее выделение сводных характеристик выборки – только первый этап в процессе изучения данных. Чтобы продвинуться дальше по этому пути, нужно обратиться к фундаментальной идее того, чего мы намерены достичь в первую очередь.
Выводы
• При анализе эмпирических распределений данных (в частности, определения среднего и разброса) применяются различные числовые характеристики.
• Часто встречаются асимметричные распределения, а некоторые показатели крайне чувствительны к выбросам.
• Сводные характеристики выборки всегда скрывают какие-то детали, поэтому нужно проявлять осторожность, чтобы не потерять важную информацию.
• Наглядно эмпирические данные можно представить в виде точечной диаграммы, диаграммы типа «ящик с усами» или гистограмм.
• Для лучшего выявления закономерностей используйте преобразования. Для обнаружения закономерностей, выбросов, сходств и кластеров используйте глаза.
• Рассматривайте пары чисел как точки на плоскости, а динамические (изменяющиеся во времени) величины – как линии на графике.
• При исследовании данных основная цель – поиск факторов, объясняющих изменчивость.
• Графика может быть интерактивной и анимированной.
• Инфографика выделяет интересные особенности и помогает читателям погружаться в повествование, но она должна использоваться с осознанием ее цели и воздействия на аудиторию.
Сколько сексуальных партнеров у британцев на самом деле?
В предыдущей главе мы рассмотрели несколько примечательных результатов недавнего британского исследования, в рамках которого люди сообщали о количестве своих сексуальных партнеров за всю жизнь. Графические методы анализа этих ответов выявили определенные особенности, включая очень длинный хвост, склонность указывать круглые числа (например, 10 и 20) и тот факт, что мужчины называют большее число партнеров, чем женщины. Но исследователей, потративших миллионы фунтов на сбор таких данных, на самом деле интересовали не ответы конкретных респондентов (в конце концов, всем им гарантировалась полная анонимность), а общие закономерности сексуального поведения британцев, которые они на основе этих ответов хотели обнаружить.
На самом деле переход от реальных ответов, собранных в исследовании, к выводам обо всей Великобритании нельзя считать тривиальным. Было бы неправильно просто заявить, что ответы респондентов точно отражают ситуацию в стране. Опросы в СМИ о сексе, где добровольцы заполняют анкеты на сайтах, сообщая о том, чем они занимаются за закрытыми дверями, грешат этим постоянно.
Процесс перехода от сырых данных к утверждениям о поведении жителей всей страны можно разбить на несколько этапов.
1. Записанные первичные данные о числе сексуальных партнеров, которое указали участники исследования, говорят нам кое-что об…
2. Истинном количестве партнеров у людей в нашей выборке, что расскажет нам кое-что о…
3. Количестве партнеров у людей в исследуемой совокупности – тех, кто мог бы потенциально стать участником исследования. Это говорит нам кое-что о…
4. Числе сексуальных партнеров у всех британцев, которые и являются нашей целевой совокупностью.
Где самые слабые места в этой цепочке рассуждений? Переход от первоначальных данных (этап 1) к правде о нашей выборке (этап 2) означает наличие определенных предположений о том, насколько точно респонденты указали количество своих партнеров и насколько обоснованы причины для сомнений в их ответах. Мы уже наблюдали явную склонность мужчин преувеличивать, а женщин – преуменьшать количество своих связей, возможно, из-за того, что женщины не включают в них те, о которых предпочли бы забыть, из-за различных склонностей к округлению вверх или вниз, плохой памяти или просто вследствие «искажений из-за социальной приемлемости»[68].
Переход от нашей выборки (этап 2) ко всей исследуемой совокупности, пожалуй, самый сложный шаг. Прежде всего мы должны быть уверены, что участники исследования представляют собой случайную выборку из тех, кто подходит для целей такого хорошо организованного исследования, как Natsal. Но мы также должны предположить, что люди, согласившиеся участвовать, составляют репрезентативную выборку, а это непросто. Доля отвечавших респондентов составила 66 %, что на удивление хорошо, учитывая характер вопросов. Однако существуют определенные доказательства того, что процент участия тех, кто менее сексуально активен, несколько ниже, что, впрочем, в какой-то степени уравновешивается сложностью опроса членов общества с нетрадиционной сексуальной ориентацией.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер», после закрытия браузера.