Разное

Что показывает коэффициент вариации в статистике: Основные показатели вариации в анализе взаимосвязей

24.04.2021

Содержание

Глава 5. Показатели вариации

5.1. Методические рекомендации и решения типовых задач

Вариация – это изменение (колеблемость) значений признака в пределах изучаемой совокупности при переходе от одного объекта (группы объектов), или от одного случая к другому. Абсолютные и относительные показатели вариации, характеризующие колеблемость значений варьирующего признака, позволяют, в частности, измерить степень связи и взаимозависимости между признаками, определить степень однородности совокупности, типичности и устойчивости средней, определить величину погрешности выборочного наблюдения, статистически оценить закон распределения совокупности и т. п.

В этой теме необходимо уяснить сущность (смысл), назначение и способы вычисления каждого показателя вариации, рассматриваемого в курсе теории статистики: размах вариации, среднее линейное отклонение, средний квадрат отклонений (дисперсию), среднее квадратическое отклонение, относительные коэффициенты вариации (коэффициент осцилляции, коэффициент среднего линейного отклонения, коэффициент вариации).

Размах вариации (R) представляет собой разность между максимальным (хmax) и минимальным (хmin) значениями признака в совокупности (в ряду распределения):

R = хmax - хmin. (5.1)

Мерой других показателей вариации является разность не между крайними значениями признака, а средняя разность между каждым значением признака и средней величиной этих признаков. Разность между отдельным значением признака и средней называют отклонением.

Среднее линейное отклонение вычисляется по следующим формулам:

по индивидуальным (несгруппированным) данным

; (5.2)

по вариационным рядам (сгруппированным данным)

. (5.3)

Так как алгебраическая сумма отклонений индивидуальных значений признака от средней (согласно нулевому свойству) всегда равна нулю, то при расчете среднего линейного отклонения используется арифметическая сумма отклонений, взятая по модулю, т.

е. .

Среднее линейное отклонение имеет ту же размерность, что и признак, для которого оно исчисляется.

Дисперсия и среднее квадратическое отклонение. Среднее линейное отклонение относительно редко применяется для оценки вариации признака. Поэтому обычно вычисляются дисперсия (2) и среднее квадратическое отклонение (). Эти показатели применяются не только для оценки вариации признака, но и для измерения связи между ними, для оценки величины ошибки выборочного наблюдения и других целей.

Дисперсия признака рассчитывается по формулам:

по первичным данным

; (5.4)

по вариационным рядам

. (5.5)

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии:

по первичным данным

; (5.6)

по вариационным рядам

. (5.7)

Среднее квадратическое отклонение так же, как и среднее линейное отклонение, имеет ту же размерность, что и сам исходный признак.

Дисперсию можно определить и как разность между средним квадратом вариантов и квадратом их средней величины, т. е. . (5.8)

В этом случае по первичным данным дисперсия равна:

(5.9)

Применительно к сгруппированным данным, расчет дисперсии этим способом в развернутом виде представим в таком виде:

. (5.10)

Для рядов распределения с равными интервалами значение дисперсии можно вычислить, применяя способ условных моментов, т. е.

, (5.11)

где - первый условный момент; (5.12)

- второй условный момент. (5.13)

Среднее квадратическое отклонение по способу условных моментов определяется по формуле:

(5.

14)

Преобразуя выражение расчета дисперсии по способу условных моментов, получим формулу вида: (5.15)

На основе одних и тех же исходных данных получим одинаковое значение дисперсии.

Относительные показатели вариации вычисляются как отношение ряда абсолютных показателей вариации к их средней арифметической и выражаются в процентах:

коэффициент осцилляции - ; (5.16)

коэффициент относительного линейного отклонения - ; (5.17)

коэффициент вариации - . (5.18)

Задача 1. Рассмотрим способы расчета показателей вариации на основе данных табл. 5.1.

Таблица 5.1.Исходные данные для расчета показателей вариации

Затраты времени на производство деталей мин

Количество деталей, шт.

(f)

Середина интервала (х)

xf

х2

х2f

1

2

3

4

5

6

7

8

9

10

11

12

13

до 10

10

9

90

-4,2

42

17,64

176,4

81

810

-2

-20

40

10-12

10

11

110

-2,2

22

4,84

48,4

121

1210

-1

-10

10

12-14

50

13

650

-0,2

10

0,04

2,0

169

8450

0

0

0

14-16

20

15

300

1,8

36

3,24

64,8

225

4500

1

20

20

16 и выше

10

17

170

3,8

38

14,44

144,4

289

2890

2

20

40

Итого

100

-

1320

-

148

-

436

-

17860

10

110

; к = 2

Приведенный ряд распределения ранжированный, поэтому здесь легко найти минимальное значение признака, оно равно 8 мин. (10 - 2), и максимальное, равное 18 мин. (16 + 2). Значит, размах вариации признака в этом ряду составит 10 мин., т. е.

R = xmax – xmin = 18 – 8 = 10 мин.

Вычислим среднее линейное отклонение. Прежде всего необходимо вычислить среднюю величину . Все вычисления будем вести в табличной форме (табл. 5.1.), отводя для каждой вычислительной операции графу в таблице.

Поскольку исходные данные представлены рядом распределения, то

мин.

мин.

Покажем способы расчета дисперсии:

а) обычным способом (по определению):

;

б) как разность между средним квадратом и квадратом средней величины:

Для определения величины дисперсии по этой формуле необходимо вычислить средний квадрат вариантов признака по формуле:

;

2=178,6 – (13,2)2=4,36;

в) по способу условных моментов:

;

;

.

г) на основе преобразования формулы расчета дисперсии по способу условных моментов имеем:

Дисперсия – число отвлеченное, не имеющее единиц измерения.

Среднее квадратическое отклонение вычислим путем извлечения корня квадратного из дисперсии:

мин.

По способу условных моментов величину среднего квадратического отклонения определим так:

мин.

Вычислим относительные показатели вариации:

%;

%;

%.

Основным относительным показателем вариации является коэффициент вариации (V). Он используется для сравнительной оценки меры колеблемости признаков, выраженных в различных единицах измерения.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков (в частности альтернативной изменчивости качественных признаков). В этом случае каждая единица изучаемой совокупности либо обладает каким-то свойством, либо нет (например, каждый взрослый человек либо работает, либо нет). Наличие признака у единиц совокупности обозначают 1, а отсутствие –0; долю же единиц совокупности, обладающих изучаемым признаком, обозначают p, а не обладающих им – q. Дисперсия альтернативного признака определяется по формуле:

; (5.19)

p + q = 1 (5.20)

Если, например, доля поступивших в университет равна 30%, а не поступивших – 70%, то дисперсия равна 0,21(0,3 · 0,7). максимальное значение произведения pq равно 0,25 (при условии, когда одна половина единиц обладает данным признаком, а другая половина нет: (0,5 · 0,5 = 0,25).

Способ разложения общей дисперсии. Для оценки влияния различных факторов, определяющих колеблемость индивидуальных значений признака, воспользуемся разложением общей дисперсии на составляющие: на так называемую групповую дисперсию и среднюю из внутригрупповых дисперсий:

, (5. 21)

где – общая дисперсия, характеризующая вариацию признака как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.

Вариацию признака, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия 2, которая является мерой колеблемости частных средних по группам вокруг общей средней и исчисляется по формуле:

, (5.22)

где nj – число единиц совокупности в каждой группе;

j – порядковый номер группы.

Вариацию признака, обусловленную влиянием всех прочих факторов, кроме группировочного (факторного), характеризует в каждой группе внутригрупповая дисперсия:

, (5.23)

где i – порядковый номер x и f в пределах каждой группы.

По совокупности в целом средняя из внутригрупповых дисперсий определяется по формуле:

(5. 24)

Отношение межгрупповой дисперсии 2 к общей даст коэффициент детерминации:

(5.25)

который характеризует долю вариации результативного признака, обусловленную вариацией факторного признака, положенного в основание группировки.

Показатель, полученный как корень квадратный из коэффициента детерминации, называется коэффициентом эмпирического корреляционного отношения, т.е.:

(5.26)

Он характеризует тесноту связи между результативным и факторным (положенным в основу группировки) признаками. Численное значение коэффициента эмпирического корреляционного отношения имеет два знака: . При решении вопроса о том, с каким знаком его следует брать, необходимо иметь ввиду: если вариация факторного и результативного признаков идет синхронно в одном и том же направлении (возрастает или убывает), то корреляционные отношение берется со знаком плюс; если же изменение этих признаков идет в противоположных направлениях, то оно берется со знаком минус.

Для вычисления групповых и межгрупповых дисперсий можно применять любой из описанных выше способов исчисления среднего квадрата отклонений.

Задача 2. Вычислим все названные дисперсии по исходным данным табл. 5.2.

Таблица 5.2. Распределение посевной площади озимой пшеницы по урожайности

Номер участка

Урожайность, ц/га

(х)

Посевная площадь, га

(f)

xf

x2

x2f

1

2

3

4

5

6

1

20

80

1600

400

32000

2

22

50

1100

484

24200

3

25

20

500

625

12500

4

28

50

1400

784

39200

5

30

100

3000

900

90000

6

35

80

2800

1225

98000

7

38

50

1900

1444

72200

8

Вариация (статистика) — Википедия

Материал из Википедии — свободной энциклопедии

У этого термина существуют и другие значения, см. {2};}
q=(Q3−Me)+(Me−Q1)2=(Q3−Q1)2,{\displaystyle q={\frac {(Q_{3}-\mathrm {Me} )+(\mathrm {Me} -Q_{1})}{2}}={\frac {(Q_{3}-Q_{1})}{2}},}

где Q1{\displaystyle Q_{1}}, Q3{\displaystyle Q_{3}} — первый (нижний) и третий (верхний) квартили соответственно, Me=Q2{\displaystyle \mathrm {Me} =Q_{2}} — медиана (второй или серединный квартиль).

Относительные показатели

  • относительный размах вариации (коэффициент осцилляции):
ρ=Rx¯;{\displaystyle \rho ={\frac {R}{\bar {x}}};}
  • относительное отклонение по модулю (линейный коэффициент вариации):
m=ax¯;{\displaystyle m={\frac {a}{\bar {x}}};}
  • коэффициент вариации:
V=σx¯;{\displaystyle V={\frac {\sigma }{\bar {x}}};}

Коэффициент вариации случайной величины — мера относительного разброса случайной величины; показывает, какую долю среднего значения этой величины составляет её средний разброс. Исчисляется в процентах. {n}x_{i}}}}.

ν=σμ,{\displaystyle \nu ={\frac {\sigma }{\mu }},}

где μ{\displaystyle \mu } — математическое ожидание. Эта формула применяется для вероятностных моделей.

  • относительное квартильное расстояние:
d=qx¯.{\displaystyle d={\frac {q}{\bar {x}}}.}

Примечания

  1. Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник. — М.: Финансы и статистика, 2002. — ISBN 5-279-01956-9.
  2. Шмойлова Р. А. Общая теория статистики: Учебник. — М.: Финансы и статистика, 2002. — ISBN 5-279-01951-8.
  3. Pearson K. Mathematical contributions to the theory of evolution. III. Regression, heredity, and panmixia // Philos. Trans. of the Royal Soc. of London. Ser. A, Containing Papers of a Mathematical or Physical Character. — 1896. — V. 187. — рр. 253—318.
  4. Крамер Г. Математические методы статистики. — М.: Мир, 1975.  — 848 с.


Что характеризует коэффициент вариации

Во время проведения научных исследований многие сталкиваются с изменчивостью изучаемого признака у отдельных единиц совокупности, его колебанием относительно некоторого значения, то есть с его вариацией. Вот ее-то и следует обязательно учитывать, чтобы получить наиболее достоверные сведения о ходе выполнения того или иного научного исследования.

Большинство исследователей, производя определение интервала изменения значения того или иного параметра, чаще всего прибегают к абсолютным и относительным показателям. Среди последних наибольшее распространение получил коэффициент вариации, который в случае, если исследуемая величина характеризуется нормальным распределением, является критерием однородности совокупности. Данный показатель позволяет определить, какую степень разбросанности будут иметь значения исследуемого параметра, не обращая внимания на масштаб и единицу измерения.

Коэффициент вариации можно вычислить, разделив стандартное отклонение на среднее арифметическое значение переменной, выраженное в процентах. Результат данного вычисления может попадать в интервал от нуля до бесконечности, возрастая по мере увеличения вариации признака. Если полученное значение менее 33,3% – вариация признака слабая. Если больше – сильная. В последнем случае исследуемая совокупность данных является неоднородной, ее средняя величина признается нетипичной, а потому не может быть обобщающим показателем. Поэтому для данной совокупности стоит применить другие показатели.

Стоит отметить, что коэффициент вариации не только характеризует однородность некоторой совокупности, но также применяется в качестве сравнительной ее оценки. Например, его применяют, если необходимо сравнить размеры колебания того или иного признака в совокупностях, для которых рассчитанная величина среднего значения различна. В этом случае разброс полученных данных не позволяет произвести объективную оценку обретенного значения. Коэффициент вариации характеризует относительную изменчивость переменной, а потому может являться относительной мерой колебания значения изучаемого параметра.

Однако здесь существуют некоторые ограничения. В частности, оценить степень колебания значений параметра можно лишь для конкретного признака и если совокупность имеет определенный состав. При этом равенство данных показателей может свидетельствовать как о сильной, так и о слабой вариации. Это в случае, если признаки различны или исследования проводятся на разных совокупностях. Такой результат формируется под действием весьма объективных причин, и это следует обязательно учитывать во время обработки полученных экспериментальных данных.

Коэффициент вариации находит широкое применение при проведении статистической обработки данных в различных отраслях науки и техники. В том числе, его активно задействуют при выполнении оценки колебания параметров в экономике и социологии. При этом применение коэффициента делается невозможным в случае, если необходимо дать оценку изменчивости переменных, которые способны менять свой знак на противоположный. Ведь тогда в результате расчетов будут получены некорректные значения данного показателя: либо оно будет очень маленьким, либо будет иметь отрицательный знак. В последнем случае стоит проверить правильности выполненных расчетов.

Таким образом, можно сказать, что коэффициент вариации - это параметр, который позволит вам оценить степень разброса и относительную изменчивость средней величины. Применение данного показателя позволяет выявить наиболее значимые факторы, акцентирование внимания на которых позволит достичь поставленных целей и решить необходимые задачи.

ПОКАЗАТЕЛИ ВАРИАЦИИ КОЛИЧЕСТВЕННОГО ПРИЗНАКА: ПОРЯДОК РАСЧЕТА, ЭКОНОМИЧЕСКИЙ СМЫСЛ


В А Р И Ц И Я ПРИЗНАКА - характеризует рассеянность индивидуальных значений признака относительно средней величины. Большая вариация характеризует неоднородность объекта.

При количественной оценке вариации всегда применяется метод средних величин. По степени разбросанности индивидуальных значений относительно средней можно судить о степени вариации. Покажем это на рис.5.1.

 

Р и с у н о к 5.1 - Варианты колеблемости индивидуальных значений относительно среднего значения признака

Заключаем, что вариант схемы А отражает меньшую колеблемость признака по сравнению с вариантом Б, так как в первом случае меньше расстояние от индивидуальных значений до среднего показателя. На измерении разности индивидуальных значений признака и среднего параметра строится аппарат количественной оценки вариации, т.е. на конструкции вида:

Показатели вариации количественного признака:

1 - размах вариации;

2 - среднее линейное отклонение;

3 - дисперсия;

4 - среднее квадратическое отклонение;

5 - коэффициент вариации;

6 - показатель стабильности (однородности).

Порядок расчета и все комментарии относительно указанных показателей отразим в табл. 5.2.

Т а б л и ц а 5.2 - Показатели вариации количественного признака: порядок расчета, экономический смысл

 

НАЗВАНИЕ И ФОРМУЛА ПОКАЗАТЕЛЯ ВАРИАЦИИ ЭКОНОМИЧЕСКИЙ СМЫСЛ, ПРИМЕЧАНИЕ
1. Размах вариации Разница между максимальным и минимальным значением признака у единиц объекта. Отражает предельную вариацию по полярным значениям признака. Начало познания вариации.
2. Среднее линейное отклонение 2.1 Простой вариант: . 2.2 Взвешенный вариант: . Расчет показывает: среднее отклонение индивидуальных значений признака от среднего значения по всему объекту без учета знака колеблемости. Фиксирует размер вариации, но в некоторых случаях не учитывается отрицательный знак отклонения. В этом его условность. Примечание. Фиксирует размер вариации, но в некоторых случаях не учитывается отрицательный знак отклонения. Это возможно, если индивидуальное значение меньше среднего: . В этом состоит некоторая условность данного показателя.  
3. Дисперсия 3.1 Исходный вид А). Простой вариант: Б). Взвешенный вариант: 3.2 Разница средних Специфический показатель вариации, который: · не имеет единиц измерения, · не имеет экономического смысла; · и не может быть отрицательным; · необходимый промежуточный расчет, на котором формируют другие показатели вариации, которые уже будут иметь смысл. Первые три замечания связаны с конструкцией формулы – наличие квадратов отклонений. Примечание.Относительно 3.2. Читать формулу нужно так «средний квадрат признака минус квадрат среднего значения». Расчет «среднего квадрата признака» ( ) представляет собой фрагмент «средней квадратической». Способы вычислений его связаны с наличием информации: по исходным значениям применяют простой вариант, по сгруппированным – взвешенный.
4. Среднее квадратическое отклонение Расчет показывает: среднее отклонение индивидуальных значений признака от среднего значения по всему объекту с учетом знаков колеблемости. На этой основе строятся границы колеблемости индивидуальных значений показателя в изучаемом объекте:
5. Коэффициент вариации Расчет показывает: какая часть среднего значения показателя в относительной форме подвержена вариации (колеблемости, изменчивости, испытывает влияние различных факторов). Примечание.Данный показатель оценки вариации следует считать универсальным по причине процентной формы измерения колеблемости. Отсюда благодаря такой форме можно проводить сравнительный анализ вариации разных количественных признаков в разных единицах измерения.
6. Коэффициент стабильности (однородности) Связан с коэффициентом вариации в обратной зависимости: выше вариация - меньше однородность и наоборот.

Последние два показателя оценки вариации имеют важное значение для формулировки окончательного вывода относительно степени однородности внутреннего состава изучаемого объекта по конкретному признаку. Рекомендации приводятся в табл.5.3.



Т а б л и ц а 5.3 - Анализ значений коэффициентов вариации и стабильности в экономических исследованиях

 

 

Показатели вариации используют также для характеристики тесноты связи между признаками. Для этого нужно знать виды дисперсии (рис.5.2):

В И Д Ы Д И С П Е Р С И И
1. ОБЩАЯ 2. МЕЖГРУППОВАЯ 3. ВНУТРИГРУППОВАЯ
оценивает вариацию признака по всей совокупности под влиянием всех факторов   характеризует вариацию результативного признака, обусловленную влиянием фактора, положенного в основание группировки. Измеряет вариацию изучаемого признака под влиянием группировочного (признака-фактора). Другое название – факторная дисперсия отражает случайную вариацию, обусловленную влиянием неучтенных факторов.  
ПОКАЗАТЕЛИ Т Е С Н О Т Ы СВЯЗИ
4. Эмпирический коэффициент детерминации 5. Эмпирическое корреляционное отношение
отношение межгрупповой дисперсии к общей(2:1). Характеризует влияние группировочного признака на образование общей вариации. При отсутствии связи он равен нулю, при функциональной – единице.   корень квадратный из эмпирического коэффициента детерминации ( ). Отражает тесноту связи между группировочными и результативными признаками. Варианты значений: «0» - связь отсутствует; «1» - связь функциональная; теснее связь при значении ближе к «1».
       

 

Р и с у н о к 5. 2 - Виды дисперсии и показатели тесноты связи

 


Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:

Коэффициент вариации, дисперсии и стандартного отклонения

Существует много способов количественной оценки изменчивости, однако здесь мы сосредоточимся на наиболее распространенных: дисперсия , стандартное отклонение и коэффициент вариации .

В области статистики мы обычно используем разные формулы при работе с данными о населении и выборочными данными.

Примеры формул и формулы совокупности

Когда у нас есть вся генеральная совокупность, каждая точка данных известна, поэтому вы на 100% уверены в тех показателях, которые мы рассчитываем.

Когда мы берем выборку из этой совокупности и вычисляем статистику выборки, она интерпретируется как приближение параметра совокупности.

Более того, если мы извлечем 10 разных выборок из одной и той же совокупности, мы получим 10 разных показателей.

Статистики решили эту проблему, скорректировав алгебраические формулы для многих статистических данных, чтобы отразить эту проблему. Поэтому мы рассмотрим как формулы генеральной совокупности, так и формулы выборки, поскольку они обе используются.

Среднее значение, медиана и мода

Вы, должно быть, спрашиваете себя, почему существуют уникальные формулы для среднего , среднего и режима . Ну, на самом деле, выборка означает - это среднее значение точек данных выборки, в то время как выборка означает - среднее значение точек данных выборки. Как вы можете видеть на картинке ниже, есть две разные формулы, но технически они вычисляются одинаково.

После этого краткого пояснения пора перейти к дисперсии .

Формула дисперсии: дисперсия выборки и дисперсия совокупности

Разница измеряет разброс набора точек данных вокруг их среднего значения .

Дисперсия совокупности , обозначенная как сигма в квадрате, равна сумме квадратов разностей между наблюдаемыми значениями и средним значением совокупности , деленным на общее количество наблюдений.

Дисперсия выборки , с другой стороны, обозначается s в квадрате и равна сумме квадратов разностей между наблюдаемыми значениями выборки и выборкой , среднее значение , деленное на количество наблюдений выборки минус 1.

Более пристальный взгляд на формулу дисперсии совокупности

Когда знакомишься со статистикой, сложно сразу все уловить. Поэтому остановимся на секунду, чтобы изучить формулу для численности населения и попытаться уточнить ее значение. Основная часть формулы - это числитель , так что это то, что мы хотим понять.

Сумма различий между наблюдениями и средним значением в квадрате. Таким образом, это означает, что чем ближе число к среднему значению , тем ниже будет результат. И чем дальше от означает , тем больше эта разница.

Почему мы поднимаемся до второй ступени

Возведение в квадрат различий преследует две основные цели.

  1. Во-первых, возводя числа в квадрат, мы всегда получаем неотрицательные вычисления. Не углубляясь в математику этого вопроса, интуитивно понятно, что дисперсия не может быть отрицательной. Дисперсия зависит от расстояния, и расстояние не может быть отрицательным .

Если, с другой стороны, мы вычислим разницу и не повысим ее до второй степени, мы получим как положительные, так и отрицательные значения, которые при суммировании уравняются, не оставив нам информации о дисперсии.

  1. Во-вторых, возведение в квадрат усиливает эффект больших различий. Например, если среднее значение равно 0, а у вас есть наблюдение 100, квадрат разброса равен 10 000!

Использование формулы численности

Хорошо, хватит сухой теории. Пришло время практического примера. У нас есть совокупность из пяти наблюдений - 1, 2, 3, 4 и 5. Давайте найдем ее дисперсию .

Начнем с вычисления среднего : (1 + 2 + 3 + 4 + 5) / 5 = 3.

Затем мы применяем формулу, которую мы только что обсудили:

((1 - 3) 2 + (2 - 3) 2 + (3 - 3) 2 + (4 - 3) 2 + (5 - 3) 2 ) / 5.

Когда мы посчитаем, мы получим 2. Итак, дисперсия совокупности набора данных составляет 2.

Расчет дисперсии выборки

Но как насчет выборочной дисперсии ? Это было бы подходящим только в том случае, если бы нам сказали, что эти пять наблюдений были выборкой, взятой из совокупности. Итак, давайте представим, что это так. Образец означает, что снова равно 3. Числитель тот же, но знаменатель будет 4 вместо 5.

Это дает нам выборочную дисперсию , равную 2,5.

Почему результаты не совпадают

Чтобы завершить тему дисперсии , мы должны интерпретировать результат. Почему дисперсия выборки больше, чем дисперсия генеральной совокупности ? В первом случае мы знали население.То есть у нас были все данные, и мы вычислили дисперсию . Во втором случае нам сказали, что 1, 2, 3, 4 и 5 были выборкой, взятой из большей совокупности.

Популяция выборки

Представьте, что совокупность выборки состояла из следующих 9 чисел: 1, 1, 1, 2, 3, 4, 5, 5 и 5.

Очевидно, что числа те же самые, но существует концентрация вокруг двух крайних значений набора данных - 1 и 5. Дисперсия этой совокупности равна 2. 96.

Итак, наша выборочная дисперсия правильно скорректирована в сторону увеличения, чтобы отразить более высокую потенциальную изменчивость . Это причина того, что существуют разные формулы для выборочных данных и данных о населении.

Формула стандартного отклонения: стандартное отклонение выборки и стандартное отклонение совокупности

Хотя дисперсия - это общепринятая мера дисперсии данных, в большинстве случаев полученная цифра довольно велика. Более того, сравнивать сложно, потому что единица измерения возведена в квадрат.Простое решение - вычислить квадратный корень и получить статистику, известную как стандартное отклонение .

В большинстве анализов стандартное отклонение гораздо более значимо, чем дисперсия .

Формулы

Подобно дисперсии существует также совокупности и стандартное отклонение выборки . Формулы: квадратный корень из выборки дисперсия и квадратный корень из выборки дисперсия соответственно.Я считаю, что пример расчета не нужен. Любой, у кого есть калькулятор в руках, сможет выполнить эту работу.

Коэффициент вариации (CV)

Последний показатель, который мы введем, - это коэффициент вариации . Оно равно стандартному отклонению , деленному на среднего .

Другое название этого термина - относительное стандартное отклонение . Это простой способ запомнить его формулу - это просто стандартное отклонение относительно среднего .

Как вы, наверное, догадались, снова существует формула генеральной совокупности и выборки.

Зачем нужен коэффициент вариации

Итак, стандартное отклонение - это наиболее распространенная мера изменчивости для одного набора данных. Но зачем нам еще один показатель, такой как коэффициент вариации ? Что ж, сравнение стандартных отклонений двух разных наборов данных бессмысленно, но сравнивать коэффициентов вариации - нет.

Аристотель однажды сказал:

«Скажи, я забуду. Покажи, я запомню. Вовлеките меня, я пойму.

Примеры сравнения стандартных отклонений

Чтобы убедиться, что вы помните, вот пример сравнения стандартных отклонений . Давайте возьмем цены на пиццу в 10 разных местах Нью-Йорка. Как видно на картинке ниже, они варьируются от 1 до 11 долларов.

А теперь представьте, что у вас есть только мексиканские песо.Для вас цены будут больше похожи на 18,81 песо к 206,91 песо при обменном курсе 18,81 песо за доллар.

Давайте объединим наши знания и найдем стандартных отклонений, и коэффициентов вариации этих двух наборов данных.

Данные выборки или совокупности

  1. Во-первых, мы должны увидеть, является ли это выборкой или генеральной совокупностью. В Нью-Йорке всего 11 ресторанов? Конечно, нет. Очевидно, это образец, взятый из всех ресторанов города.Затем мы должны использовать формулы для выборки меры изменчивости .

Нахождение среднего

  1. Во-вторых, мы должны найти среднее значение . означает, что в долларах равно 5,5, а означает, что в песо равняется 103,46.

Расчет дисперсии выборки и стандартного отклонения

  1. Третий шаг процесса - нахождение выборочной дисперсии .Следуя формуле, которую мы рассмотрели ранее, мы можем получить 10,72 доллара в квадрате и 3793,69 песо в квадрате.
  2. Соответствующий образец , стандартные отклонения составляют 3,27 доллара и 61,59 песо, как показано на рисунке ниже.

Несколько наблюдений

Сделаем пару наблюдений.

Во-первых, отклонение дает результаты в квадратах, а стандартное отклонение в исходных единицах, как показано ниже.

Это основная причина, по которой профессионалы предпочитают использовать стандартное отклонение в качестве основного показателя изменчивости. Это прямо интерпретируется. Квадратные доллары ничего не значат даже в области статистики.

Во-вторых, мы получили стандартных отклонений 3,27 и 61,59 для той же пиццы в одних и тех же 11 ресторанах Нью-Йорка. Однако это кажется неправильным. Давайте исправим это, используя наш последний инструмент - , коэффициент вариации .

Преимущество коэффициента вариации

Мы можем разделить стандартных отклонений на соответствующие , значит . Как вы можете видеть на рисунке ниже, мы получаем два коэффициента вариации .

Результат тот же - 0,60.

Важно: Обратите внимание, что это не доллары, песо, доллары в квадрате или песо в квадрате. Это всего лишь 0,60.

Это показывает нам большое преимущество, которое дает нам коэффициент вариации .Теперь мы можем с уверенностью сказать, что два набора данных имеют одинаковую изменчивость, чего мы и ожидали заранее.

На картинке выше вы можете увидеть основные преимущества коэффициента вариации .

Плюсы и минусы каждого из показателей изменчивости

Напомним, что существует три основных показателя изменчивости : , дисперсия , стандартное отклонение , и коэффициент вариации , .У каждого из них разные сильные стороны и разные области применения. Обычно мы предпочитаем стандартного отклонения , а не , отклонение , потому что оно поддается прямой интерпретации. Однако коэффициент вариации имеет преимущество перед стандартным отклонением , когда дело доходит до сравнения данных. После прочтения этого руководства вы почувствуете себя уверенно, используя их все.

Теперь использование мер при работе с одной переменной кажется простым занятием. Однако что, если бы было 2 переменных? Сможете ли вы изобразить их отношения? Если ваш ответ - нет , смело переходите к следующему руководству, чтобы превратить нет в да .

Или, если вы подумываете о карьере в области науки о данных, ознакомьтесь с нашими статьями: Профиль специалиста по данным, 5 навыков, необходимых для соответствия любому описанию работы в области науки о данных, Как написать резюме по науке о данных - Полное руководство и 15 компаний-консультантов по науке о данных нанимают сейчас

***

Хотите узнать больше? Вы можете улучшить свои навыки с помощью нашего курса статистики!

Попробовать курс статистики бесплатно

Next Tutorial: Как использовать ковариацию и коэффициент линейной корреляции

Формула

и расчет в Excel.Интерпретация результатов

Коэффициент вариации в статистике используется для сравнения разброса двух случайных величин с разными единицами измерения относительно ожидаемого значения. В результате вы можете получить сопоставимые результаты. Индикатор наглядно демонстрирует однородность временного диапазона.

Коэффициент вариации также используется инвесторами при анализе портфеля в качестве количественной меры риска, связанного с инвестированием в определенные активы. Особенно это эффективно в ситуациях, когда активы имеют разную доходность и разный уровень риска.Например, один актив имеет высокую ожидаемую доходность, а другой - низкий уровень риска.

Взаимодействие с другими людьми

Как рассчитать коэффициент вариации в Excel?

Коэффициент вариации - это отношение среднеквадратичного отклонения к среднему арифметическому. В статистике для расчета используется следующая формула:

CV = σ / ǩ,

  • CV - коэффициент вариации;
  • σ - среднеквадратичное отклонение;
  • ǩ - среднее арифметическое значение дисперсии значений.

Коэффициент вариации позволяет сравнивать риск инвестирования и доходность двух или более портфелей активов. И портфели активов могут существенно отличаться. То есть индикатор связывает риск и доходность. Он позволяет оценить соотношение между среднеквадратичным отклонением и ожидаемой доходностью в относительной оценке. Соответственно вы можете сравнить результаты.

При принятии инвестиционного решения необходимо учитывать следующий момент: когда ожидаемая доходность актива близка к 0, значит, коэффициент вариации может оказаться большим.Причем показатель существенно меняется при небольшом изменении доходности.

Встроенной функции для расчета коэффициента вариации в Excel нет. Но вы можете найти частное от среднеквадратического отклонения и среднего арифметического. Рассмотрим пример.

Доходность двух ценных бумаг за предыдущие пять лет. Это можно продемонстрировать графически:

Формула для расчета коэффициента вариации в Excel

Обычно показатель выражается в процентах.Поэтому для ячеек с результатами устанавливается процентный формат.

Значение коэффициента для компании А составляет 33%, что указывает на относительную однородность ассортимента.

Теперь вам необходимо сравнить: коэффициент вариации для компании B составил 50%: диапазон неоднороден, и данные значительно разбросаны относительно среднего арифметического.

Взаимодействие с другими людьми

Интерпретация результатов

Финансовый аналитик должен обосновать свое решение перед добавлением дополнительного актива в инвестиционный портфель.Один из способов - рассчитать коэффициент вариации.

Ожидаемая доходность по ценным бумагам:

Среднеквадратичное отклонение рентабельности активов компаний А и Б составляет:

Ценные бумаги компании B имеют более высокую ожидаемую доходность. Они превышают ожидаемую доходность компании А в 1,14 раза. Но инвестировать в активы предприятия рискованнее. Риск в 1,7 раза выше. Как сравнить акции с разной ожидаемой доходностью и разным уровнем риска?

Коэффициент вариации доходности рассчитывается для сравнения активов двух компаний.Показатель для предприятия B составляет 50%, а для предприятия A - 33%. Риск инвестирования в ценные бумаги фирмы B в 1,54 раза выше (50% / 33%). Это означает, что акции компании А имеют лучшее соотношение риск / доходность. Поэтому предпочтительнее инвестировать в акции компании A.

.

Таким образом, коэффициент вариации показывает уровень риска, который может быть полезен при включении нового актива в портфель. Индикатор позволяет сравнивать ожидаемую доходность и риск. То есть можно сравнивать размеры с разными единицами измерения.

Что такое коэффициент вариации (CV)? - Определение | Значение

Определение: Коэффициент вариации или CV - это статистическое измерение, которое показывает, как набор точек данных распределяется вокруг среднего значения набора. Другими словами, набор данных отображается в виде графика, а уравнение CV используется для измерения отклонения точек друг от друга и среднего значения. По сути, он показывает, насколько регулярным или нерегулярным является шаблон данных.

Что означает коэффициент вариации?

Формула коэффициента вариации рассчитывается путем деления стандартного отклонения или волатильности инвестиции на ожидаемую доходность.

Применяя эту концепцию к бизнесу, инвесторы могут составить график цен на акции или показатели эффективности компании, чтобы увидеть, есть ли регулярный тренд и насколько далеко каждая точка от средней точки.

В основном инвесторы используют это для измерения дисперсии событий, чтобы оценить и оценить риск и волатильность компании или инвестиций. В частности, он используется для измерения относительного риска между различными акциями или инвестициями по всему портфелю, помогая управлять общим уровнем риска.Управляющие портфелем просто делят волатильность акции, такую ​​как бета-значение публичной акции, на ожидаемую доходность инвестиций. Это поможет им оценить будущую волатильность акции и решить, включать ли ее в портфель или нет.

Давайте посмотрим на пример.

Пример

Давайте воспользуемся сценарием инвестора, который хочет максимально снизить риск. Этот инвестор выбирает одну из трех инвестиций. Он хочет увидеть, что предлагает лучшее вознаграждение по сравнению с риском, поскольку он знает, что чем больше риска берет на себя инвестор, тем больше потенциальное вознаграждение.

Он рассматривает одну инвестицию в Amazon, одну, которая отслеживает индекс S&P 500, и казначейские облигации США. Предположим следующее:

Amazon
Волатильность: 20%
Ожидаемая доходность: 10%

Индекс S&P 500
Волатильность: 10%
Ожидаемая доходность: 10%

Казначейские облигации США
Волатильность: 1%
Ожидаемая доходность: 3%

Таким образом, CV Amazon, S&P 500 и казначейских облигаций США равны 2, 1 и 0,33 соответственно. Таким образом, инвестор выберет казначейскую облигацию, поскольку она обеспечивает наименьшую волатильность доходности и минимизирует риск в лучшем случае из трех вложений.


Корреляция «произведение-момент» Пирсона - когда следует запустить этот тест, укажите диапазон значений, которые может принимать коэффициент, и способы измерения силы связи.

Что делает этот тест?

Коэффициент корреляции произведения-момента Пирсона (или для краткости коэффициент корреляции Пирсона) является мерой силы линейной связи между двумя переменными и обозначается как r . По сути, корреляция продукта-момента Пирсона пытается провести линию наилучшего соответствия по данным двух переменных, а коэффициент корреляции Пирсона, r , указывает, как далеко все эти точки данных находятся к этой линии наилучшего соответствия (i .е. насколько хорошо точки данных соответствуют этой новой модели / линии наилучшего соответствия).

Какие значения может принимать коэффициент корреляции Пирсона?

Коэффициент корреляции Пирсона, r , может принимать значения от +1 до -1. Значение 0 указывает на отсутствие связи между двумя переменными. Значение больше 0 указывает на положительную связь; то есть, по мере увеличения значения одной переменной, увеличивается и значение другой переменной. Значение меньше 0 указывает на отрицательную связь; то есть, когда значение одной переменной увеличивается, значение другой переменной уменьшается.Это показано на схеме ниже:

Как мы можем определить силу ассоциации на основе коэффициента корреляции Пирсона?

Чем сильнее связь двух переменных, тем ближе коэффициент корреляции Пирсона, r , будет либо к +1, либо к -1 в зависимости от того, положительная или отрицательная связь, соответственно. Достижение значения +1 или -1 означает, что все ваши точки данных включены в линию наилучшего соответствия - нет точек данных, которые показывают какие-либо отклонения от этой линии.Значения для r от +1 до -1 (например, r = 0,8 или -0,4) указывают на то, что есть отклонения вокруг линии наилучшего соответствия. Чем ближе значение r к 0, тем больше отклонение от линии наилучшего соответствия. Различные отношения и их коэффициенты корреляции показаны на диаграмме ниже:

Существуют ли инструкции по интерпретации коэффициента корреляции Пирсона?

Да, были предложены следующие руководящие принципы:

Коэффициент, r
Сила ассоциации Положительно отрицательный
Маленький .1 к .3 от -0,1 до -0,3
Средний от 0,3 до 0,5 от -0,3 до -0,5
Большой .5 до 1.0 от -0,5 до -1,0

Помните, что эти значения являются ориентировочными, и сильная связь также будет зависеть от того, что вы измеряете.

Можете ли вы использовать любой тип переменной для коэффициента корреляции Пирсона?

Нет, две переменные должны быть измерены либо по шкале интервалов, либо по шкале отношений.Однако нет необходимости измерять обе переменные в одном масштабе (например, одна переменная может быть соотношением, а другая - интервалом). Дополнительную информацию о типах переменных можно найти в нашем руководстве по типам переменных. Если у вас есть порядковые данные, вы захотите использовать корреляцию рангового порядка Спирмена или корреляцию Тау Кендалла вместо корреляции продукта Пирсона и момента.

Должны ли две переменные измеряться в одних и тех же единицах?

Нет, две переменные могут быть измерены в совершенно разных единицах.Например, вы можете соотнести возраст человека с уровнем сахара в его крови. Здесь единицы совершенно разные; возраст измеряется в годах, а уровень сахара в крови - в ммоль / л (мера концентрации). Действительно, расчеты коэффициента корреляции Пирсона были разработаны таким образом, что единицы измерения не влияют на расчет. Это позволяет сопоставить коэффициент корреляции и не зависеть от единиц используемых переменных.

А как насчет зависимых и независимых переменных?

Корреляция "произведение-момент" Пирсона не принимает во внимание, была ли переменная классифицирована как зависимая или независимая.Он одинаково обрабатывает все переменные. Например, вы можете узнать, коррелируют ли результаты в баскетболе с ростом человека. Поэтому вы можете построить график зависимости производительности от роста и рассчитать коэффициент корреляции Пирсона. Допустим, например, что r = 0,67. То есть с увеличением роста увеличивается и результативность баскетбола. Это имеет смысл. Однако, если бы мы изобразили переменные наоборот и захотели определить, определяется ли рост человека их баскетбольными результатами (что не имеет смысла), мы все равно получим r =.67. Это потому, что коэффициент корреляции Пирсона не учитывает какую-либо теорию, по которой вы выбрали две переменные для сравнения. Это показано ниже:

Указывает ли коэффициент корреляции Пирсона наклон линии?

Важно понимать, что коэффициент корреляции Пирсона r не отражает наклон линии наилучшего соответствия. Следовательно, если вы получаете коэффициент корреляции Пирсона +1, это не означает, что на каждую единицу увеличения одной переменной происходит увеличение другой единицы.Это просто означает, что нет различий между точками данных и линией наилучшего соответствия. Это показано ниже:

Какие предположения делает корреляция Пирсона?

Первый и самый важный шаг перед анализом ваших данных с использованием корреляции Пирсона - проверить, уместно ли использовать этот статистический тест. В конце концов, корреляция Пирсона даст вам достоверных / точных результатов , только если ваш план исследования и данные « соответствуют / соответствуют » семи предположениям , которые лежат в основе корреляции Пирсона.

Во многих случаях корреляция Пирсона будет неверным статистическим тестом , который следует использовать, потому что ваши данные « нарушают / не соответствуют » одному или нескольким из этих предположений. Это не редкость при работе с реальными данными, которые часто бывают «беспорядочными», в отличие от примеров из учебников. Однако часто есть решение, будь то использование различных статистических тестов или внесение корректировок в ваши данные, чтобы вы могли продолжать использовать корреляцию Пирсона.

Мы кратко изложим семь предположений ниже, три из которых относятся к дизайну вашего исследования и способам измерения ваших переменных (например, Допущения №1, №2 и №3 ниже), а четыре относятся к характеристикам ваших данных ( т.е. предположения № 4, № 5, № 6 и № 7 ниже):

Примечание: мы перечисляем семь предположений ниже, но в статистической литературе существуют разногласия относительно того, следует ли использовать термин «допущения» для описания всех этих предположений (например, см. Nunnally, 1978). Мы выделяем этот момент для прозрачности.Однако мы используем слово «предположения», чтобы подчеркнуть их важность и указать, что их следует внимательно изучить при использовании корреляции Пирсона, если вы хотите получить точные / достоверные результаты. Мы также используем слово «предположения», чтобы указать, что там, где некоторые из них не выполняются, корреляция Пирсона больше не будет правильным статистическим тестом для анализа ваших данных.

  • Допущение № 1: Ваши две переменные должны измеряться по непрерывной шкале (т.е., они измеряются на интервале или на уровне ). Примеры непрерывных переменных включают время проверки (измеряется в часах), интеллект (измеряется с помощью оценки IQ), успеваемость на экзамене (измеряется от 0 до 100), вес (измеряется в кг), скорость движения (измеряется в км / ч) и т. Д. .
  • Допущение № 2: Ваши две непрерывные переменные должны быть парными , что означает, что каждый случай (например, каждый участник) имеет два значения: по одному для каждой переменной.Эти «значения» также называются «точками данных».

    Например, представьте, что вы собрали время проверки (измеряется в часах) и результаты экзамена (измеряются от 0 до 100) от 100 случайно выбранных студентов в университете (т. Е. У вас есть две непрерывные переменные: "время проверки" и " сдача экзамена »). У каждого из 100 студентов будет время проверки (например, «студент №1» учился «23 часа») и результат экзамена (например, «студент №1» набрал «81 из 100»). Следовательно, у вас будет 100 парных значений.

  • Допущение № 3: Должно быть случаев независимости , что означает, что два наблюдения для одного случая (например, баллы за время пересмотра и успеваемость на экзамене для «ученика №1») должны быть независимыми от два наблюдения для любого другого случая (например, баллы за время проверки и успеваемость на экзамене для «студента №2», «студента №3» или «студента №50», например). Если наблюдения не являются независимыми , они связаны с , и корреляция Пирсона не является подходящим статистическим тестом (хотя есть и другие меры связи, которые можно использовать, когда у вас есть наблюдения, которые не являются независимыми).

    Например, если некоторые из 100 студентов входили в группу проверки, мы могли бы ожидать, что связь между временем проверки и успеваемостью этих студентов будет более схожей по сравнению с другими студентами, что нарушит допущение о независимости случаев. В качестве альтернативы, если в некоторых из 100 студентов были братья и сестры (например, две сестры), можно ожидать, что связь между временем проверки и успеваемостью этих двух сестер будет более похожей по сравнению с другими студентами, что опять же нарушит предположение о независимости случаев.

    Примечание. Допущение независимости наблюдений также известно как предположение независимости наблюдений .

Поскольку предположения № 1, № 2 и № 3 относятся к вашему плану исследования и тому, как вы измерили ваших переменных , если любые из этих трех предположений не выполнены (т. Е. Если какое-либо из этих предположения не соответствуют вашему исследованию), корреляция Пирсона - это статистический тест неверный для анализа ваших данных.Вероятно, вместо этого вы сможете использовать другие статистические тесты, но корреляция Пирсона не является правильным тестом.

После проверки того, соответствуют ли ваш план исследования и переменные предположениям №1, №2 и №3 , вы должны теперь проверить, соответствуют ли ваши данные также предположениям №4, №5, №6 и №7 ниже. Проверяя, соответствуют ли ваши данные этим четырем предположениям, не удивляйтесь, если этот процесс займет большую часть времени, которое вы посвящаете проведению анализа.Как мы упоминали выше, при работе с реальными данными, а не с примерами из учебников, нередко для одно или несколько из этих предположений нарушаются (т. Е. Не выполняются). Однако при правильном руководстве это не должно быть сложным процессом, и часто есть другие методы статистического анализа, которые вы можете применить, которые позволят вам продолжить анализ.

Примечание: если две ваши непрерывные парные переменные (т. Е. Предположения # 1 и 2) подчиняются двумерному нормальному распределению , будет линейность, одномерная нормальность и гомоскедастичность (т.е., Предположения № 4, № 5 и № 6 ниже; например, Lindeman et al., 1980). К сожалению, предположение о двумерной нормальности очень сложно проверить, поэтому вместо этого мы сосредотачиваемся на линейности и одномерной нормальности. Гомоскедастичность также сложно проверить, но мы включили это, чтобы вы знали, почему это важно. Мы включаем выбросы в конце (т. Е. Допущение № 7), потому что они не только приводят к нарушениям предположений о линейности и одномерной нормальности, но также имеют большое влияние на значение коэффициента корреляции Пирсона, r (т.е.г., Wilcox, 2012).

  • Допущение № 4: Между двумя непрерывными переменными должна быть линейная связь . Чтобы проверить, образуют ли ваши две переменные линейные отношения, вам просто нужно нанести их на график (например, диаграмму рассеяния) и визуально проверить форму графика. На диаграмме ниже вы найдете несколько различных примеров линейной связи и некоторые нелинейные отношения. Нецелесообразно анализировать нелинейную зависимость с помощью корреляции произведения-момента Пирсона.

    Примечание. Коэффициент корреляции Пирсона является мерой силы линейной связи между двумя переменными. Другими словами, он определяет, существует ли линейный компонент связи между двумя непрерывными переменными. Таким образом, линейность не является строго «предположением» корреляции Пирсона. Однако обычно вы не хотите использовать корреляцию Пирсона для определения силы и направления линейной связи, если вы уже знаете, что связь между двумя вашими переменными не является линейной.Вместо этого взаимосвязь между двумя вашими переменными можно было бы лучше описать с помощью другой статистической меры (Cohen, 2013). По этой причине нередко просматривать взаимосвязь между двумя вашими переменными на диаграмме рассеяния, чтобы увидеть, является ли использование корреляции Пирсона лучшим выбором в качестве меры связи или лучше другое измерение.

  • Допущение # 5: Теоретически обе непрерывные переменные должны следовать двумерному нормальному распределению , хотя на практике часто считается, что достаточно иметь одномерной нормальности в обеих переменных (т.е., каждая переменная имеет нормальное распределение). Когда одна или обе переменных являются , а не нормально распределенными, существуют разногласия по поводу того, будет ли корреляция Пирсона по-прежнему давать достоверный результат (т.е. есть разногласия по поводу того, является ли корреляция Пирсона « устойчивым » к нарушениям одномерной нормальности). Если вы делаете , а не , принимаете аргументы, что корреляция Пирсона устойчива к отсутствию одномерной нормальности в одной или обеих переменных, вместо этого можно рассмотреть более надежных методов (например,г., см. Шевляков, Оя, 2016).

    Примечание. Разногласия по поводу устойчивости корреляции Пирсона основаны на дополнительных предположениях , которые сделаны для обоснования устойчивости при ненормальности и того, будут ли эти дополнительные предположения верными на практике. Дополнительную информацию по этому вопросу см., Например, в Edgell and Noon (1984) и Hogg and Craig (2014).

  • Допущение № 6: Должно быть гомоскедастичности , что означает, что дисперсии по линии наилучшего соответствия остаются похожими на по мере продвижения по линии.Если дисперсия не похожа на , имеется гетероскедастичности . Гомоскедастичность проще всего продемонстрировать схематически, как показано ниже:
    К сожалению, сложно проверить гомоскедастичность в корреляции Пирсона, но если вы считаете, что это может быть проблемой, существуют методы, которые могут помочь (например, некоторые продвинутые методы см. В Wilcox, 2012).
  • Допущение № 7: Не должно быть одномерных или многомерных выбросов .Выброс - это наблюдение в вашей выборке, которое не соответствует шаблону, аналогичному остальным вашим данным. Помните, что в корреляции Пирсона каждый случай (например, каждый участник) будет иметь два значения / наблюдения (например, значение времени проверки и оценка экзамена). Вам необходимо учитывать выбросы, которые необычны только для одной переменной, известные как «одномерные выбросы», а также те, которые представляют собой необычную «комбинацию» обеих переменных, известную как «многомерные выбросы».

    Рассмотрим пример времени проверки и оценки за экзамен.Если бы все студенты университета набрали на экзамене от 45% до 95%, за исключением одного, получившего очень низкие 5% на своем экзамене, этот человек был бы «одномерным» выбросом. То есть у них необычная оценка для этой конкретной переменной независимо от значений другой переменной - времени пересмотра. Многовариантный выброс - это выброс, который "противодействует тенденции" данных. Многомерный выброс не обязательно должен быть однофакторным выбросом. Предположим, что время, потраченное на проверку, положительно коррелирует с оценкой экзамена (т.е., чем больше учился студент, тем выше его оценка на экзамене). Если бы студент университета почти не учился, но «сдал» экзамен, он был бы многомерным выбросом. И наоборот, если кто-то пересмотрел больше, чем большинство, но получил низкую оценку, это может быть многомерным выбросом.

    Например, представьте, что один из 100 студентов университета набрал 5 баллов из 100 на экзамене. Оценка на экзамене 5 из наших 100 была бы необычной по сравнению с остальными 99 студентами, тогда как остальные 99 студентов набрали где-то от 45 до 95 из 100 на своем экзамене.Следовательно, это будет «одномерный выброс». Другими словами, учащийся имеет необычный балл по этой конкретной переменной, «балл за экзамен», независимо от того, какие значения у него были по другой переменной, «время проверки». В качестве альтернативы, «многомерный выброс» - это выброс, который «противодействует тенденции» данных. Кроме того, многомерный выброс не обязательно должен быть одномерным выбросом. Поэтому предположим, что количество времени, которое студент тратит на проверку, положительно коррелирует с его оценкой на экзамене (т. Е. Чем больше студент учится, тем выше его оценка на экзамене).Если студент почти не пересматривал, но набрал наивысший балл на экзамене, он мог бы оказаться многомерным выбросом. И наоборот, если другой ученик исправил больше, чем большинство, но получил низкую оценку, он также может иметь многомерный выброс.

    Примечание: выбросы не обязательно «плохие», но из-за влияния, которое они оказывают на коэффициент корреляции Пирсона, r , обсуждаемый на следующей странице, их необходимо учитывать.

Вы можете проверить, соответствуют ли ваши данные предположениям №4, №5 и №7, используя ряд статистических пакетов (чтобы узнать больше, см. Наши руководства для: SPSS Statistics, Stata и Minitab).Если любые из этих семи допущений нарушены (т. Е. Не выполнены), часто есть другие методы статистического анализа, которые вы можете применить, которые позволят вам продолжить анализ (например, см. Шевляков и Оя, 2016) .

На следующей странице мы обсудим другие характеристики корреляции Пирсона, которые вам следует учитывать.

Главная О нас Связаться с нами Положения и условия Конфиденциальность и файлы cookie © Lund Research Ltd, 2018

Номинальная, порядковая, интервальная шкала отношений с примерами

Уровни измерения в статистике

Для проведения статистического анализа данных важно сначала понять переменные и то, что следует измерять с помощью этих переменных.В статистике существуют разные уровни измерения, и данные, измеренные с их помощью, можно в целом разделить на качественные и количественные данные.

Во-первых, давайте разберемся, что такое переменная. Величина, значение которой изменяется среди населения и может быть измерено, называется переменной. Например, рассмотрим выборку работающих лиц. Переменными для этого набора совокупности могут быть отрасль, местоположение, пол, возраст, навыки, тип работы и т. Д. Значение переменных будет отличаться для каждого сотрудника.

Например, посчитать среднюю почасовую ставку рабочего в США практически невозможно. Таким образом, выборочная аудитория выбирается случайным образом, чтобы надлежащим образом представлять большую популяцию. Затем рассчитывается средняя почасовая ставка этой выборочной аудитории. Используя статистические тесты, вы можете сделать вывод о средней почасовой ставке для большей части населения.

Уровень измерения переменной определяет, какой тип статистического теста будет использоваться. Математическая природа переменной или, другими словами, способ измерения переменной считается уровнем измерения.

Что такое номинальная, порядковая, интервальная шкала и шкала отношения?

Номинальный, Порядковый, Интервальный и Отношение определяются как четыре основных уровня шкалы измерения, которые используются для сбора данных в форме опросов и анкет, каждый из которых представляет собой вопрос с несколькими вариантами ответов.

Каждая шкала представляет собой инкрементный уровень измерения, то есть каждая шкала выполняет функцию предыдущей шкалы, и все шкалы вопросов опроса, такие как Лайкерта, семантическая дифференциация, дихотомия и т. Д., Являются производными этих 4 основных уровней измерения переменных. .Прежде чем мы подробно обсудим все четыре уровня шкал измерения с примерами, давайте кратко рассмотрим, что представляют собой эти шкалы.

Номинальная шкала - это шкала именования, где переменные просто «именуются» или помечаются без определенного порядка. В порядковой шкале все переменные расположены в определенном порядке, помимо их именования. Шкала интервалов предлагает метки, порядок, а также определенный интервал между каждой из ее переменных параметров. Масштаб отношения имеет все характеристики интервальной шкалы, в дополнение к этому, она также может вместить значение «ноль» для любой из своих переменных.

Подробнее о номинальном, порядковом, интервальном, соотношении: четыре уровня измерения в исследованиях и статистике.

Номинальная шкала

, также называемая категориальной шкалой переменных, определяется как шкала, используемая для обозначения переменных в различных классификациях, и не включает количественное значение или порядок. Эта шкала является самой простой из четырех шкал измерения переменных. Расчеты, выполненные с этими переменными, будут бесполезными, поскольку нет числового значения параметров.

Есть случаи, когда эта шкала используется с целью классификации - числа, связанные с переменными этой шкалы, являются только тегами для категоризации или деления.Расчеты, сделанные на основе этих чисел, будут бесполезны, поскольку они не имеют количественного значения.

Для такого вопроса, как:

Где ты живешь?

  • 1- Пригород
  • 2- Город
  • 3- Городок

Номинальная шкала часто используется в исследовательских опросах и анкетах, где значение имеют только метки переменных.

Например, опрос клиентов с вопросом «Какую марку смартфонов вы предпочитаете?» Варианты: «Apple» - 1, «Samsung» - 2, «OnePlus» - 3.

  • В этом вопросе опроса для исследователя, проводящего исследование потребителей, имеют значение только названия брендов. Для этих брендов нет необходимости в каком-либо конкретном заказе. Однако, собирая номинальные данные, исследователи проводят анализ на основе связанных меток.
  • В приведенном выше примере, когда респондент выбирает Apple в качестве предпочитаемого бренда, введенные и связанные данные будут иметь значение «1». Это помогло количественно оценить и ответить на последний вопрос - сколько респондентов выбрали Apple, сколько выбрали Samsung и сколько выбрали OnePlus - и какой из них самый высокий.
  • Это основа количественного исследования, а номинальная шкала - самая фундаментальная шкала исследования.
Данные и анализ номинального масштаба

Существует два основных способа сбора данных номинальной шкалы:

  1. Задавая открытый вопрос, ответы на который могут быть закодированы в соответствующий номер ярлыка, выбранный исследователем.
  2. Другой альтернативой для сбора номинальных данных является включение вопроса с несколькими вариантами ответов, в котором будут помечены ответы.

В обоих случаях анализ собранных данных будет происходить с использованием процентов или режима, то есть наиболее распространенного ответа, полученного на вопрос. Для одного вопроса может быть несколько режимов, поскольку в целевой группе могут существовать два общих избранных вопроса.

Примеры номинальной шкалы
  • Пол
  • Политические предпочтения
  • Место жительства
Ваш пол? Каковы ваши политические предпочтения? Где ты живешь?
  • 1- Независимый
  • 2- Демократ
  • 3- республиканский
  • 1- Пригород
  • 2- Город
  • 3- Городок

Создать бесплатный аккаунт

Номинальная шкала SPSS

В SPSS вы можете указать уровень измерения в виде шкалы (числовые данные в интервале или шкале отношений), порядкового или номинального значения.Номинальные и порядковые данные могут быть строковыми, буквенно-цифровыми или числовыми.

После импорта данных для любой переменной во входной файл SPSS он принимает их по умолчанию в качестве масштабной переменной, поскольку данные по существу содержат числовые значения. Важно изменить его либо на номинальное, либо на порядковое, либо оставить его в виде шкалы в зависимости от переменной, которую представляют данные.

Порядковая шкала: 2 nd Уровень измерения

Порядковая шкала

определяется как шкала измерения переменных, используемая для простого отображения порядка переменных, а не разницы между каждой из переменных.Эти шкалы обычно используются для отображения нематематических идей, таких как частота, удовлетворение, счастье, степень боли и т. Д. Довольно просто запомнить реализацию этой шкалы, поскольку «Порядковый» звучит так же, как «Порядок». как раз цель этой шкалы.

Порядковая шкала

поддерживает описательные качества наряду с внутренним порядком, но лишена происхождения шкалы, и поэтому расстояние между переменными не может быть вычислено. Описательные качества указывают на свойства маркировки, аналогичные номинальной шкале, в дополнение к которой порядковая шкала также имеет относительное положение переменных.Начало этой шкалы отсутствует, из-за чего нет фиксированного начала или «истинного нуля».

Примеры порядковой шкалы

Статус на рабочем месте, рейтинг команд в турнирах, порядок качества продукции, а также порядок согласия или удовлетворения - некоторые из наиболее распространенных примеров порядковой шкалы. Эти шкалы обычно используются в исследованиях рынка для сбора и оценки относительной обратной связи об удовлетворенности продуктом, изменении восприятия при обновлении продукта и т. Д.

Например, вопрос о шкале семантического дифференциала, такой как:

Насколько вы довольны нашими услугами?

  • Очень плохо - 1
  • Неудовлетворительно - 2
  • нейтральный - 3
  • Удовлетворены - 4
  • Очень доволен - 5
  1. Здесь порядок переменных имеет первостепенное значение, как и маркировка.Очень неудовлетворенный всегда будет хуже, чем неудовлетворенный, а удовлетворенный будет хуже, чем полностью удовлетворенный.
  2. Здесь порядковая шкала - это ступенька выше номинальной шкалы - порядок имеет отношение к результатам, как и их наименования.
  3. Анализ результатов на основе порядка и имени становится удобным процессом для исследователя.
  4. Если они намереваются получить больше информации, чем то, что они собрали бы с использованием номинальной шкалы, они могут использовать порядковую шкалу.

Эта шкала не только присваивает значения переменным, но также измеряет ранг или порядок переменных, например:

  • Марки
  • Удовлетворение
  • Счастье

Насколько вы довольны нашими услугами?

  • 1- Очень неудовлетворен
  • 2- Неудовлетворительно
  • 3- Нейронный
  • 4- Доволен
  • 5- Очень доволен
Порядковые данные и анализ

Данные порядковой шкалы могут быть представлены в табличном или графическом формате, чтобы исследователь мог провести удобный анализ собранных данных.Кроме того, для анализа порядковых данных можно использовать такие методы, как U-критерий Манна-Уитни и H-критерий Краскела – Уоллиса. Эти методы обычно используются для сравнения двух или более порядковых групп.

В U-тесте Манна-Уитни исследователи могут сделать вывод, какая переменная одной группы больше или меньше другой переменной случайно выбранной группы. Используя H-тест Краскела-Уоллиса, исследователи могут проанализировать, имеют ли две или более порядковые группы одинаковую медианную или нет.

Узнать о: Номинальный vs.Порядковая шкала

Интервальная шкала: 3 rd Уровень измерения

Интервальная шкала определяется как числовая шкала, в которой известен порядок переменных, а также разница между этими переменными. Переменные, у которых есть знакомые, постоянные и вычислимые различия, классифицируются с использованием шкалы интервалов. Легко запомнить и первостепенную роль этой шкалы: «Интервал» указывает на «расстояние между двумя объектами», в достижении которого помогает интервальная шкала.

Эти весы эффективны, так как открывают двери для статистического анализа предоставленных данных. Среднее значение, медиана или мода могут использоваться для расчета центральной тенденции в этой шкале. Единственный недостаток этой шкалы - отсутствие заранее определенной начальной точки или истинного нулевого значения.

Интервальная шкала содержит все свойства порядковой шкалы, кроме того, она предлагает вычисление разницы между переменными. Основная характеристика этого масштаба - равноудаленное расстояние между объектами.

Например, рассмотрим температурную шкалу Цельсия / Фаренгейта -

.
  • 80 градусов всегда выше 50 градусов, и разница между этими двумя температурами такая же, как разница между 70 и 40 градусами.
  • Кроме того, значение 0 является произвольным, потому что отрицательные значения температуры действительно существуют, что делает температурную шкалу Цельсия / Фаренгейта классическим примером интервальной шкалы.
  • Интервальная шкала часто выбирается в исследовательских случаях, когда разница между переменными является обязательной, чего нельзя достичь с помощью номинальной или порядковой шкалы.Шкала интервалов количественно определяет разницу между двумя переменными, тогда как две другие шкалы способны исключительно связывать качественные значения с переменными.
  • Среднее и медианное значения в порядковой шкале могут быть оценены, в отличие от двух предыдущих шкал.
  • В статистике часто используется интервальная шкала, поскольку числовое значение может не только быть присвоено переменным, но также может выполняться расчет на основе этих значений.

Даже если интервальные шкалы великолепны, они не вычисляют значение «истинного нуля», поэтому на картинке появляется следующая шкала.

Интервальные данные и анализ

Все методы, применимые к номинальному и порядковому анализу данных, также применимы к интервальным данным. Помимо этих методов, существует несколько методов анализа, таких как описательная статистика, корреляционный регрессионный анализ, который широко используется для анализа интервальных данных.

Описательная статистика - это термин, используемый для анализа числовых данных, который помогает описать, изобразить или суммировать данные значимым образом, а также помогает в вычислении среднего, медианы и режима.

Примеры интервальной шкалы
  • Бывают ситуации, когда шкалы отношения считаются интервальными шкалами.
  • Помимо шкалы температур, время также является очень распространенным примером шкалы интервалов, поскольку значения уже установлены, постоянны и измеримы.
  • Календарные годы и время также подпадают под эту категорию измерительных шкал.
  • шкала Лайкерта, оценка Net Promoter Score, семантическая дифференциальная шкала, таблица биполярной матрицы и т. Д.являются наиболее часто используемыми примерами интервальной шкалы.

Следующие вопросы относятся к категории интервальной шкалы:

  • Каков доход вашей семьи?
  • Какая температура в вашем городе?

Создать бесплатный счет

Масштаб передаточного отношения: 4 th Уровень измерения

Ratio Scale определяется как шкала измерения переменных, которая не только определяет порядок переменных, но и делает известными разницу между переменными вместе с информацией о значении истинного нуля.Он рассчитывается исходя из предположения, что переменные имеют нулевое значение, разница между двумя переменными одинакова и существует определенный порядок между вариантами.

С опцией истинного нуля к переменным могут применяться различные методы логического вывода и описательного анализа. В дополнение к тому факту, что шкала отношений делает все, что могут делать номинальные, порядковые и интервальные шкалы, она также может устанавливать значение абсолютного нуля. Лучшими примерами шкал соотношений являются вес и рост.В маркетинговых исследованиях шкала соотношений используется для расчета доли рынка, годовых продаж, цены предстоящего продукта, количества потребителей и т. Д.

  • Шкала отношений предоставляет наиболее подробную информацию, поскольку исследователи и статистики могут вычислить центральную тенденцию с использованием статистических методов, таких как среднее значение, медиана, мода, и такие методы, как среднее геометрическое, коэффициент вариации или среднее гармоническое, также могут быть использованы для этого. шкала.
  • Шкала отношения вмещает характеристики трех других шкал измерения переменных, т.е.е. маркировка переменных, значимость порядка переменных и вычислимая разница между переменными (которые обычно эквидистантны).
  • Из-за наличия истинного нулевого значения шкала отношения не имеет отрицательных значений.
  • Чтобы решить, когда использовать шкалу отношений, исследователь должен наблюдать, обладают ли переменные всеми характеристиками шкалы интервалов наряду с наличием значения абсолютного нуля.
  • Среднее значение, мода и медиана могут быть рассчитаны с использованием шкалы отношений.
Соотношение данных и анализ

На фундаментальном уровне данные шкалы соотношений носят количественный характер, благодаря чему все методы количественного анализа, такие как SWOT, TURF, кросс-табуляция, объединение и т. Д., Могут использоваться для расчета данных о соотношении. В то время как некоторые методы, такие как SWOT и TURF, будут анализировать данные о соотношении таким образом, чтобы исследователи могли создавать дорожные карты по улучшению продуктов или услуг, а кросс-табуляция будет полезна для понимания того, будут ли новые функции полезны для целевого рынка или нет.

Примеры шкалы коэффициентов

Следующие вопросы относятся к категории шкалы соотношения:

  • Какой рост у вашей дочери сейчас?
    • Менее 5 футов.
    • 5 футов 1 дюйм - 5 футов 5 дюймов
    • 5 футов 6 дюймов - 6 футов
    • Более 6 футов
  • Какой у вас вес в килограммах?
    • Менее 50 кг
    • 51-70 килограмм
    • 71-90 килограмм
    • 91-110 килограмм
    • Более 110 килограммов

Узнать больше: Интервал vs.Масштаб отношения

Сводка - уровни измерения

Четыре шкалы измерения данных - номинальная, порядковая, интервальная и относительная - довольно часто обсуждаются в академическом обучении. Приведенная ниже легко запоминающаяся диаграмма может помочь вам в тесте статистики.

Предложения: Номинал Порядковый номер Интервал Коэффициент
Последовательность переменных установлена ​​ Есть Есть Есть
Режим Есть Есть Есть Есть
Медиана Есть Есть Есть
Среднее Есть Есть
Разницу между переменными можно оценить Есть Есть
Сложение и вычитание переменных Есть Есть
Умножение и деление переменных Есть
Абсолютный ноль Есть

Создать бесплатный аккаунт

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *