Читать книгу "Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан"
Шрифт:
Интервал:
Закладка:
Есть, правда, одна проблема. Мой быстрый подсчет технически правилен и совершенно неверен с точки зрения ответа на интересующий нас вопрос. Начнем хотя бы с того, что в приведенных выше цифрах отсутствует поправка на инфляцию. (Величина дохода на душу населения 7787 долларов в 1980 году составляет примерно 19 600 долларов в 2010-м.) Такой корректив внести относительно просто. Более серьезная проблема заключается в том, что средний доход в Америке не равняется доходу среднего американца. Попытаемся расшифровать это утверждение.
Чтобы вычислить величину дохода на душу населения, мы берем весь национальный доход и делим его на численность населения. Однако полученный таким образом показатель абсолютно ничего не говорит нам о том, кто и сколько при этом зарабатывает – хоть в 1980 году, хоть в 2010-м. Как сказали бы участники акции Occupy Wall Street, взрывообразный рост доходов 1 % самых богатых людей Америки способен существенно повысить значение дохода на душу населения, ничего при этом не изменив в карманах остальных 99 % американцев. Иными словами, средний доход может повышаться без помощи среднего класса.
Как и в случае бейсбольной статистики, мне хотелось узнать мнение авторитетного эксперта о том, как нам следовало бы измерять экономическое благосостояние американского среднего класса. Я спросил у двух известных специалистов по трудовым отношениям, в том числе у ведущего экономического советника президента Обамы, какие описательные статистики они использовали бы для оценки экономического благополучия типичного американца. Вы узнаете их ответы после того, как ознакомитесь с кратким обзором описательных статистик и лучше уясните их смысл.
Будь то бейсбол, доход или что-то еще, самая фундаментальная задача при работе с данными – обобщить их огромные массивы. Численность населения Соединенных Штатов составляет примерно 330 миллионов человек. Электронная таблица, в которой указывались бы фамилия и история доходов каждого американца, содержала бы всю информацию, которая могла потребоваться для оценки экономического благосостояния страны, однако эта информация была бы настолько громоздкой, что извлечь из нее хоть какую-то пользу было бы практически невозможно. Ирония судьбы заключается в том, что чем большим количеством данных мы располагаем, тем труднее выделить в них главное. Поэтому мы вынуждены прибегать к упрощениям. Мы выполняем вычисления, которые сводят сложный массив данных к нескольким числам, описывающим эти данные, точно так же как пытаемся оценить разноплановую программу выступления гимнаста на Олимпийских играх одним числом: 9,8 балла.
Плюс состоит в том, что описательные статистики дают нам некое обобщенное и осмысленное представление исходного явления. О чем, собственно, и идет речь в этой главе. Минус же в том, что любое упрощение порождает манипулирование. Описательные статистики можно сравнить с анкетами на сайтах знакомств: технически они точны и тем не менее сильно вводят в заблуждение.
Допустим, сидя на работе, вы от нечего делать бродите по интернету и наталкиваетесь на онлайн-дневник известной светской львицы Ким Кардашьян, в котором она рассказывает о своей «долгой» (целых семьдесят два дня!) супружеской жизни с профессиональным баскетболистом Крисом Хэмфри. И вот в тот самый момент, когда вы добрались до описания седьмого дня их супружеской жизни, в комнату неожиданно заходит ваш босс с двумя огромными папками данных. В одной из папок собрана информация о гарантийных претензиях по каждому из 57 334 лазерных принтеров, которые ваша фирма продала в прошлом году. (По каждому из проданных лазерных принтеров перечисляются все проблемы с качеством, зафиксированные в течение гарантийного периода.) В другой содержится такая же информация по каждому из 994 773 лазерных принтеров, которые продал за тот же период ваш главный конкурент. Босс хотел бы сравнить качество принтеров вашей компании с качеством принтеров конкурента.
К счастью, на компьютере, на котором вы почитывали дневник Кардашьян, установлен пакет основных статистических методов, но с чего в данном случае начать? Ваша интуиция, по-видимому, подсказывает вам правильное решение: первой описательной задачей зачастую становится поиск некоего показателя «середины» совокупности данных, или того, что статистики называют «центральной тенденцией». Что является типичным показателем качества для ваших принтеров по сравнению с принтерами конкурента? Обычно самым фундаментальным показателем «середины» какого-либо распределения считается среднее значение. В данном случае нам нужно определить среднее количество проблем с качеством на каждый проданный принтер для вашей фирмы и фирмы вашего конкурента. Вы могли бы просто подсчитать общее число выявленных проблем с качеством для всех принтеров в течение гарантийного периода, а затем разделить его на общее количество проданных принтеров. (Учтите, что в течение гарантийного периода в одном и том же принтере может возникнуть несколько проблем с качеством.) Эту операцию можно проделать для каждой компании, создав важную описательную статистику: среднее количество проблем с качеством на каждый проданный принтер.
Предположим, выяснилось, что среднее количество проблем с качеством в течение гарантийного периода у принтеров вашего конкурента равно 2,8 на каждый проданный принтер, тогда как соответствующий показатель для вашей фирмы составляет 9,1. Как видите, вывести среднее значение совсем не сложно. Вы просто использовали информацию для миллиона принтеров, проданных двумя разными компаниями, и извлекли из нее суть интересующей вас проблемы: ваши принтеры ломаются слишком часто. Похоже, самое время отправить боссу по электронной почте краткое уведомление с численным подтверждением столь тревожного факта, а затем вернуться к более увлекательному занятию: чтению дневника Ким Кардашьян.
А может, не стоит торопиться? Я ведь не зря выразился довольно туманно, упомянув о какой-то там «середине» распределения. В этом отношении у среднего значения есть определенные проблемы, а именно: оно подвержено существенным искажениям со стороны «отщепенцев», то есть значений, резко отклоняющихся от центра. Чтобы вам было легче уяснить эту концепцию, вообразите десяток парней, сидящих у стойки бара какого-нибудь питейного заведения в Сиэтле, рассчитанного на представителей среднего класса. Каждый из парней зарабатывает по 35 000 долларов в год; стало быть, средний годовой доход этой группы составляет 35 000 долларов. Внезапно в заведение входит Билл Гейтс с говорящим попугаем на плече (вообще-то в данном примере говорящий попугай не играет никакой особой роли; это не более чем деталь, призванная несколько оживить повествование и придать ему определенный колорит) и усаживается на одиннадцатый стул за стойкой бара; при этом средний годовой доход его завсегдатаев резко повышается до 91 миллиона долларов. Очевидно, что первые десять посетителей бара могут лишь мечтать о таком уровне годового дохода (хотя все они, наверное, надеются, что Билл Гейтс расщедрится и угостит их стаканчиком-другим). Если бы я написал, что средний годовой доход посетителей заведения составляет 91 миллион долларов, то данный вывод был бы статистически правильным, однако не имел бы ничего общего с реальным положением вещей. Этот бар отнюдь не относится к числу заведений, где коротают свободное время мультимиллионеры, – здесь обычно отдыхают молодые люди с относительно невысоким уровнем годовых доходов. Просто сегодня им повезло оказаться в компании с Биллом Гейтсом и его говорящим попугаем. Именно высокая чувствительность среднего значения к значениям, резко отклоняющимся от центра, не позволяет нам измерять экономическое благополучие среднего класса с помощью такого показателя, как величина дохода на душу населения. Поскольку в последнее время наблюдается резкий рост доходов в верхней части распределения – глав компаний, управляющих хедж-фондами и выдающихся спортсменов, таких как Дерек Джетер, – величина среднего дохода в США может быть сильно искажена, как в вышеупомянутом баре, где несколько парней с относительно скромными доходами случайно оказались в компании Билла Гейтса.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан», после закрытия браузера.