Читать книгу "Статистика и котики - Владимир Савельев"
Шрифт:
Интервал:
Закладка:
Следующая группа средств визуализации позволяет отобразить сразу два котиковых свойства. Например, размер и мохнатость. Как и в случае со столбиковыми диаграммами, первым шагом рисуются оси. Только теперь каждая из осей отображает отдельное свойство. А после этого каждый котик занимает на этом графике свое место в зависимости от степени выраженности этих свойств. Так, большие и мохнатые котики занимают место ближе к правому верхнему углу, а маленькие и лысые — в левом нижнем.
Поскольку обычно котики на данной диаграмме обозначаются точками, то она называется точечной (или диаграммой рассеяния). Более продвинутый вариант — пузырьковая диаграмма — позволяет отобразить сразу три котиковых свойства одновременно (размер, мохнатость и вес). Это достигается за счет того, что сами точки на ней имеют разную величину, которая и обозначает третье свойство.
Последняя крупная группа средств визуализации позволяет графически изобразить меры центральной тенденции и меры изменчивости. В простейшем виде это точка на графике, обозначающая, где находится средний котик, и линии, длина которых указывает на величину стандартного отклонения.
Более известным средством является так называемый боксплот (или «ящик с усами»). Он позволяет компактно отобразить медиану, общий и межквартильный размах, а также прикинуть, насколько распределение ваших данных близко к нормальному и есть ли у вас выбросы.
Помимо вышеперечисленных средств существует еще немало специфических, заточенных под определенные цели (например диаграммы, использующие географические карты). Однако, вне зависимости от того, какой тип диаграмм вы хотели бы использовать, существует ряд рекомендаций, которые желательно соблюдать.
На диаграмме не должно быть ничего лишнего. Если на ней есть элемент, не несущий какой-либо смысловой нагрузки, его лучше убрать. Потому что чем больше лишних элементов, тем менее понятной будет диаграмма.
То же самое касается цветов: лучше ограничить их количество до трех. А если вы готовите графики для публикации, то лучше их вообще делать черно-белыми.
НЕМАЛОВАЖНО ЗНАТЬ!
Темная сторона визуализации
Несмотря на то, что средства визуализации помогают облегчить восприятие данных, они так же легко могут ввести в заблуждение, чем, к сожалению, часто пользуются разные хитрые люди. Ниже мы приведем самые распространенные способы обмана с помощью диаграмм и графиков.
Проценты вместо абсолютных величин. Очень часто, чтобы придать своим данным значимости, хитрые люди переводят абсолютное количество котиков в проценты. Согласитесь, что результаты, полученные на 50% котиков, выглядят куда солиднее, чем на пяти.
Сдвиг шкалы. Чтобы продемонстрировать значимые различия там, где их нет, хитрые люди как бы «сдвигают» шкалы, начиная отсчет не с нуля, а с более удобного для них числа.
Сокрытие данных. Если же цель хитрого человека в том, чтобы скрыть значимые различия в данных, то их можно разместить на одной шкале с другими данными, которые на порядок отличаются от первых. На их фоне любые различия или изменения будут выглядеть незначительно.
Изменение масштабов. Более мягкий вариант создания иллюзии значимости — это изменение масштабов шкал. В зависимости от масштаба одни и те же данные будут выглядеть по-разному.
Таким образом, надо быть очень аккуратным, интерпретируя данные, представленные в виде графиков и диаграмм. Гораздо меньше подвержены манипуляции данные, представленные в табличной формуле. Однако и здесь можно использовать некоторые хитрости, которые могут ввести в заблуждение непосвященную публику.
Чем отличаются котики от песиков
или меры различий для несвязанных выборок
Есть котики, а есть песики. Песики чем-то похожи на котиков: у них четыре лапы, хвост и уши. Однако они также во многом различаются — например, котики мяукают, а песики лают.
Но не все различия между ними настолько очевидны. Например, довольно трудно судить о том, различаются ли песики и котики по размеру — ведь есть как очень большие котики, так и очень маленькие песики.
Чтобы понять, насколько они отличаются друг от друга, необходимы так называемые меры различий для несвязанных выборок. Большая часть таких мер показывает, насколько типичный песик отличается от типичного котика. Например, самая популярная из них — t-критерий Стьюдента для несвязанных выборок — оценивает, насколько различаются их средние размеры.
Чтобы рассчитать этот критерий, необходимо из среднего размера песиков вычесть средний размер котиков и поделить их на стандартную ошибку этой разности. Последняя вычисляется на основе стандартных отклонений котиковых и песиковых размеров и нужна для приведения t-критерия к нужной размерности.
Если разность средних достаточно большая, а стандартная ошибка очень маленькая, то значение t-критерия будет весьма внушительным. А чем больше t-критерий, тем с большей уверенностью мы можем утверждать, что в среднем песики отличаются от котиков.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Статистика и котики - Владимир Савельев», после закрытия браузера.