Центральная тенденция против дисперсии
В описательной статистике и статистике логического вывода несколько индексов используются для описания набора данных, соответствующих его центральной тенденции, дисперсии и асимметрии: трем наиболее важным свойствам, определяющим относительную форму распределения набора данных.
Что такое центральная тенденция?
Центральная тенденция относится к центру распределения ценностей и определяет его местонахождение. Среднее значение, мода и медиана являются наиболее часто используемыми индексами для описания центральной тенденции набора данных. Если набор данных симметричен, то и медиана, и среднее значение набора данных совпадают друг с другом.
Для набора данных среднее значение рассчитывается путем взятия суммы всех значений данных и последующего деления ее на количество данных. Например, вес 10 человек (в килограммах) измеряется как 70, 62, 65, 72, 80, 70, 63, 72, 77 и 79. Тогда средний вес десяти человек (в килограммах) может быть рассчитывается следующим образом. Сумма весов равна 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Среднее значение=(сумма) / (количество данных)=710 / 10=71 (в килограммах). Понятно, что выбросы (точки данных, которые отклоняются от нормального тренда), как правило, влияют на среднее значение. Таким образом, при наличии выбросов само по себе среднее значение не даст правильного представления о центре набора данных.
Медиана - это точка данных, находящаяся точно в середине набора данных. Один из способов вычислить медиану - упорядочить точки данных в порядке возрастания, а затем найти точку данных посередине. Например, если после заказа предыдущий набор данных выглядит так: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Следовательно, (70+72)/2=71 находится посередине. Отсюда видно, что медиана не обязательно должна быть в наборе данных. Медиана не зависит от наличия выбросов. Следовательно, медиана будет служить лучшей мерой центральной тенденции при наличии выбросов.
Мода - наиболее часто встречающееся значение в наборе данных. В предыдущем примере значения 70 и 72 встречаются дважды и, таким образом, оба являются режимами. Это показывает, что в некоторых распределениях существует более одного модального значения. Если существует только одна мода, набор данных называется одномодальным, в этом случае набор данных является бимодальным.
Что такое дисперсия?
Дисперсия - это величина разброса данных относительно центра разброса. Диапазон и стандартное отклонение являются наиболее часто используемыми показателями дисперсии.
Диапазон - это просто наибольшее значение минус наименьшее значение. В предыдущем примере наибольшее значение равно 80, а наименьшее - 62, поэтому диапазон равен 80-62=18. Но диапазон не дает достаточной картины дисперсии.
Для расчета стандартного отклонения сначала вычисляются отклонения значений данных от среднего значения. Среднеквадратичное значение отклонений называется стандартным отклонением. В предыдущем примере соответствующие отклонения от среднего равны (70 – 71)=–1, (62 – 71)=–9, (65 – 71)=–6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 и (79 – 71)=8. Сумма квадраты отклонения: (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Стандартное отклонение составляет √(366/10)=6,05 (в килограммах). Если набор данных не сильно искажен, из этого можно сделать вывод, что большинство данных находится в интервале 71±6,05, и это действительно так в этом конкретном примере.
В чем разница между центральной тенденцией и дисперсией?
• Центральная тенденция указывает на центр распределения ценностей
• Дисперсия - это степень разброса данных относительно центра набора данных.