Анализа массива данных с помощью инструмента визуализации «ящик с усами»

The analysis of data amount using the visualization tool “box-and-whisker”
Сальникова К.В.
Цитировать:
Сальникова К.В. Анализа массива данных с помощью инструмента визуализации «ящик с усами» // Universum: экономика и юриспруденция : электрон. научн. журн. 2021. 6(81). URL: https://7universum.com/ru/economy/archive/item/11778 (дата обращения: 21.12.2024).
Прочитать статью:
DOI - 10.32743/UniLaw.2021.81.6.11778

 

АННОТАЦИЯ

В статье рассматриваются статистические понятия «перцентиль», «дециль», «квартиль», «выброс». На примере с помощью инструмента «Описательная статистика» программного пакета для эконометрического анализа «Gretl» получены такие аналитические показатели, как среднее, медиана, максимум, минимум, вариация и др., а также построен «ящик с усами» для наглядного представления о разбросе данных в анализируемой выборке. Умение обобщать обработанные показатели, а также интерпретировать их позволяет принимать обоснованные взвешенные решения.

ABSTRACT

The article discusses the statistical concepts of «percentile», «decile», «quartile», «outlier». For example, using the «Descriptive Statistics» tool of the software package for econometric analysis «Gretl», analytical indicators such as mean, median, maximum, minimum, variation, etc. were obtained, and a «box-and-whiskers diagram» was built to visualize the spread of data in the analyzed sample. The ability to summarize the processed indicators, as well as to interpret them, allows you to make informed, informed decisions.

 

Ключевые слова: перцентиль, дециль, квартиль, выброс, описательная статистика.

Keywords: percentile, decile, quartile, outlier, descriptive statistics.

 

Для выработки экономических и управленческих решений требуется анализ информации путем разработки и применения статистических методов для измерения взаимосвязей между экономическими переменными, то есть эконометрический подход. При построении эконометрической модели одной из проблем является определение и включение проверенных статистических данных, которые не приведут к искажению результативного показателя.

Целью данной статьи является рассмотрение графического подхода к интерпретации анализа массива данных с помощью «ящика с усами» или коробчатой диаграммы, которая представляет собой график, который используется в описательной статистике для компактного изображения распределения вероятностей. То есть с помощью «ящика с усами» можно получить следующие виды наблюдений: средний показатель, медиану, нижний и верхний квартили, минимальное и максимальное значение выборки, а также существуют ли выбросы и каковы их значения, которые следовало бы исключать из дальнейшего анализа.

Методология исследования базируется на совокупности теоретических и эмпирических методов исследования: описании, наблюдении, анализе и синтезе исходного материала с итоговым обобщением полученных результатов и вынесением единого суждения. 

Для того чтобы понять принцип построения «ящика с усами» (ящичной диаграммы) определимся с основными статистическими понятиями, такими как «перцентиль», «дециль», «квартиль», «выброс».

Перцентиль (или процентиль) показывает соответствующий значению  место, которое занимает данное наблюдение в выборке, по сути, некоторый процент.

Перцентиль, соответствующий значению , рассчитывается по формуле 1:

                                              (1)

То есть это процентное значение, показывающее место  в выборке. Если умножаем полученное значение на 100, то получаем квантиль распределения.

Если 10% перцентили – это децили.

Если 25% перцентили – это квартили.

Центральное значение  – это медиана (рисунок 1).

Нижнее значение  - 1-ый квартиль (первая четверть упорядоченного по величине ряда).

Верхнее значение  - 3-ий квартиль (конец третьей четверти ряда).

 

Рисунок 1. График квартилей

Пример 1.

Учитель дал 10 ученикам тест, оцениваемый из 20 баллов. Оценки представлены ниже. Найдем перцентиль, соответствующий оценке 12.

18

15

12

6

8

2

3

5

20

10

Представим оценки в возрастающем порядке.

2

3

5

6

8

10

12

15

18

20

6 значений меньше 12, поэтому подставляем в формулу 1:

Таким образом, студент, получивший оценку 12, выполнил тест лучше, чем 65% учеников в классе.

Далее рассмотрим расчет перцентилей. Алгоритм расчета перцентиля:

Шаг 1: Отсортируйте данные в возрастающем порядке

Шаг 2: Рассчитайте индекс  по формуле 2:

                                                                               (2)

где  - интересующий перцентиль,  - число наблюдений.

Шаг 3: (а) Если  оказалось нецелым числом, то округлите его вверх. Так получите позицию значения, соответствующего перцентилю. Само значение и будет  перцентилем.

(б) Если  оказалось целым числом, то  перцентиль – это среднее значений на  и  позициях.

Пример 2.

Шаг 1. Отсортируем данные в возрастающем порядке.

2

3

5

6

8

10

12

15

18

20

Шаг 2. Рассчитаем индекс

где  – перцентиль 85%-ый.

Шаг 3. Поскольку  оказалось нецелым числом, то округлим его вверх. Так, позиция, соответствующая 85%-му перцентилю, соответствует 9 место в ряде. 9-ым наблюдением в отсортированных данных, является оценка 18, которая и является 85%-ым перцентилем.

Пример 3 (расчет квартилей).

Рассчитаем эти значения для оценок.

2

3

5

6

8

10

12

15

18

20

Для

Получили нецелое число, значит  первый квартиль в выборке.

Для

         Получили целое число, в таком случае, должны взять для определения квартиля среднее значение между 8 и 10, то есть

 Для

Получили нецелое число, значит .

Как определить, что наблюдение выборки является выбросом. Выбросы влияют на определение среднего для того чтобы заранее понимать, средняя оценка которую мы получили - она смещается за счет выбросов или нет.

Рассмотрим подход определения выбросов для нетипичных наблюдений. Для того чтобы это сделать, совершите следующие шаги:

1. Отсортируйте данные. Найдите  и  (1-ый и 3-ий квартиль)

2. Найдите межквартильный размах:

3. Рассчитайте

4. Рассчитайте  и

5. Проверьте, какие наблюдения вышли за границы:

 . Если есть значения, которые выходят за эти границы, то это есть выбросы.

Для визуализации, представим графически, а точнее нарисуем «ящик с усами» (диаграмма размаха) или box plot. К примеру, допустим, известны некоторые заработные платы, для каждого значения которых заранее рассчитаем 1, 3 и 2 квартиль.

Рисуем ящик с усами. Сам ящик - это значение квартильного размаха. То есть берем  - медиану и ,  отмечаем для наших наблюдений. Сам ящик – тело графика, находится от 1-го до 3-го квартиля. Далее от ящика рисуем усы, которые представляют собой следующее: от 1-го квартиля вычитаем 1,5 межквартильных размаха, а к 3-му квартилю прибавляем 1,5 межквартильных размаха. Это и есть границы усов (рисунок 2).

 

Рисунок 2. График «ящик с усами» или box plot

 

Если какие-то наблюдения выходят за границы этих усов ящика, то они называются выбросом (нетипичные наблюдения), представляющие собой значение, которое очень сильно отличается от других. В нашем примере есть такая точка с заработной платой больше 4000 у.е., которая выпадает за границы ящика с усами. Существуют статистические пакеты, которые потенциально можно использовать MS Excel, Gretl, SPSS, STATA, Eviews, R.

Реализуем с помощью программного пакета для эконометрического анализа «Gretl» практический пример анализа цены на фьючерсный контракт на нефть Brent. Исходные данные представлены в таблице.

Таблица 1.

Исходные данные

Дата

 Цена на фьючерсный контракт на нефть Brent

Учетная цена на золото

(руб./гр.)

Курс валюты Доллар США (1 ед.)

Индекс РТС

(в пунктах)

-

30.04.2021

66,67

4243,98

74,3823

1484,18

29.04.2021

67,97

4250,44

74,9390

1510,03

28.04.2021

67,08

4291,88

74,9578

1510,80

27.04.2021

66,60

4278,00

74,7680

1513,75

26.04.2021

65,73

4310,03

75,0893

1520,03

25.04.2021

66,09

4310,03

75,0893

1510,21

24.04.2021

66,09

4310,03

75,0893

1510,21

23.04.2021

66,09

4387,37

76,4217

1510,21

22.04.2021

65,61

4398,86

76,8198

1500,98

21.04.2021

65,07

4314,80

76,0155

1466,60

20.04.2021

66,33

4384,20

76,2491

1452,01

19.04.2021

67,14

4290,88

75,5535

1472,89

18.04.2021

66,73

4290,88

75,5535

1494,42

17.04.2021

66,73

4290,88

75,5535

1494,42

16.04.2021

66,73

4326,28

76,9808

1494,42

15.04.2021

66,86

4241,89

75,6826

1469,04

14.04.2021

66,37

4292,18

77,2535

1486,76

13.04.2021

63,93

4339,97

77,5104

1458,64

12.04.2021

63,38

4336,55

77,1657

1431,61

11.04.2021

63,09

4336,55

77,1657

1420,10

10.04.2021

63,09

4336,55

77,1657

1420,10

09.04.2021

63,09

4322,38

77,1011

1420,10

08.04.2021

63,42

4340,80

77,7730

1440,32

07.04.2021

63,13

4250,90

76,3802

1430,20

06.04.2021

62,75

4251,11

76,6052

1427,01

05.04.2021

62,29

4221,60

76,0734

1456,95

04.04.2021

64,86

4221,60

76,0734

1466,90

03.04.2021

64,86

4221,60

76,0734

1466,90

02.04.2021

64,86

4181,97

75,8073

1466,90

01.04.2021

64,66

4098,42

75,6373

1456,53

 

Посмотрим описательную статистику (рисунок 3) на примере переменной  «Учетная цена на золото».

 

Рисунок 3. Описательная статистика переменной  «Учетная цена на золото»

 

Представим описательную статистику по всем переменным (рисунок 4).

 

 Рисунок 4. Описательная статистика по всем переменным

 

Гистограмма распределения (рисунок 5) для переменной  «Учетная цена на золото» имеет скошенный вид, длинный левый хвост, то есть левостороннюю асимметрию.

 

Рисунок 5. График распределения переменной  «Учетная цена на золото»

 

Помимо графика для каждого интервала показывается частота попадания в каждый из интервалов. Как видно из рисунка 6, самое большое количество значений 11 попадает в интервал [4273,7-4323,8], то есть можно сказать, что это модальный интервал, наиболее типичный.

 

 

Рисунок 6. Распределение частот для переменной  «Учетная цена на золото»

Построим «ящик с усами» или box plot для переменной  «Учетная цена на золото» (рисунок 7).

 

 

Рисунок 7. График «ящик с усами» или box plot с выбросами

где    средняя линия - показывает медиану;

+ показывает среднее значение;

границы ящика – 1-ый и 3-ий квартиль;

усы – 1,5 межквартильных размаха соответственно сверху и снизу;

точки выбросов – это точки, которые выходят за границы усов.

«Ящик с усами» (предложил американский математик Джон Тьюки в 1975 г.) - это 5-числовая сводка следующих данных: минимальное значение, первый квартиль (25%), медиану (50%), третий квартиль (75%), максимальное значение. Выбросы – это все значения выборки, которые отстают от 1-го или от 3-го квартиля больше чем на 1,5 межквартильных расстояния.

На рисунке 7 видно, что точек выбросов мало, это означает, что есть учетные цены на золото, которые сильно отличаются от других и это низкая учетная цена.

Попробуем исключить выброс и построить новый график «ящик с усами» (рисунок 8).

Рисунок 8. График «ящик с усами» или box plot без выбросов

 

Рисунок 8 показывает изменение формы «ящика с усами», показателей описательной статистики (медианы, среднего значения, квартилей). Соответственно включение набора данных без выбросов при построении эконометрической модели покажет другой результативный показатель, более достоверный, нежели с массивом данных дающих значительную погрешность при исчислении результативного показателя.

Положительным моментом ящичной диаграммы является то, что она используется при небольших массивах данных и позволяет быстро сравнить их между собой.

Таким образом, прошедшие обучение «сырые» статистические массивы данных представляют собой готовые аналитические результаты, умелое использование которых имеет значимую ценность для принятия соответствующих решений.

 

Список литературы:

  1. Елисеева И.И., Юзбашев М.М. Общая теория статистики: учеб. для вузов. – М.: Финансы и статистика, 1995. Глава 4.
  2. Левин Д. М., Стефан Д., Кребиль Т.С, Беренсон М.Л. Статистика для менеджеров с использованием Microsoft Excel, 4-е изд. - М.: Издательский дом «Вильямс», 2004. - 1312 с. Гл. 1 (разделы 1.1, 1.8-1.12), гл. 2 и 3.
  3. Bluman A. (2008). Elementary statistics. McGraw-Hill, 2008. Ch. 1-3.
  4. Newbold P. (1995) Statistics for Business and Economics. 4th ed. London: Prentice-Hall. С. 29-70.
  5. Динамика официального курса заданной валюты / [Электронный ресурс] – Режим доступа. – URL: https://cbr.ru/currency_base/dynamics/ (дата обращения 06.05.2021).
  6. Учетные цены на аффинированные драгоценные металлы / [Электронный ресурс] – Режим доступа. – URL: https://cbr.ru/hd_base/metall/metall_base_new/ (дата обращения 06.05.2021).
Информация об авторах

канд. экон. наук, доцент, ФГБОУ ВО «Ижевский государственный технический университет имени М.Т. Калашникова», РФ, Удмуртская Республика, г. Ижевск

Candidate of Economic Sciences, Associate Professor, FSBEI HE “Kalashnikov Izhevsk State Technical University”, Russia, the Udmurt Republic, Izhevsk

Журнал зарегистрирован Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор), регистрационный номер ЭЛ №ФС77-54432 от 17.06.2013
Учредитель журнала - ООО «МЦНО»
Главный редактор - Гайфуллина Марина Михайловна.
Top