Анализ распределения в Excel - [17]

Шрифт

Интервал

Copy

Копировать

Копирование графика в буфер

На новом листе нажимаем правую кнопку мыши и нажимаем кнопку варианта вставки

Paste Options — Picture

Параметры вставки — Рисунок

Вставка рисунка из буфера

Расположите все рисунки на одном листе.

Укажите использованные инструменты.

Сделайте выводы о трудоёмкости использования инструментов и качестве результатов.

Описательная статистика

Описательная статистика (английское название — Descriptive Statistics) — это описание того набора данных, который был доступен для обработки. Сюда входит, прежде всего, вычисление статистических показателей. Как и в предыдущих разделах, мы будем знакомиться с этим инструментом на практике и попутно объясним смысл результатов.

Собранные для обработки данные обычно называют ВЫБОРКОЙ или «выборочной совокупностью». Такое название подчёркивает, что это только часть всего множества данных. Другими словами, мы взяли небольшую часть того, что существует. Или того, что могло бы существовать.

Показатели, которые мы будем определять по выборке, олписывают её основные свойства.

Первое и самое важное свойство случайной величины — это ЦЕНТРАЛЬНАЯ ТЕНДЕНЦИЯ, то есть главное значение, вокруг которого разбросаны данные. Для определения центральной тенденции используют среднее значение и другие характеристики.

Второе по важности свойство — это разнообразие значений, РАЗБРОС вокруг центрального значения. Здесь используют дисперсию, стандартное отклонение, размах и многие другие характеристики.

Многие показатели сообщают нам о дополнительных особенностях распределения, например, насколько кривая симметрична и похожа ли она на нормальное распределение.

Как и в случае с графиками, мы познакомимся с несколькими способами работы и сравним результаты между собой.

Показатели. Надстройка

Самый простой способ оценить статистические показатели — это вызвать готовую процедуру с помощью надстройки анализа данных.

Создаём новый лист и вызываем надстройку.

Data — Analysis — Data Analysis — Descriptive Statistics

Данные — Анализ — Анализ данных — Описательная статистика

Вызов модуля описательной статистики

В диалоговом окне

Descriptive Statistics

Описательная статистика

укажем расположение исходных данных и некоторе настройки, необходимые для проведения анализа.

В разделе

Input

Входные данные

указываем диапазон ячеек с исходными данными:

Input Range

Входной интервал

Указываем, что данные расположены по столбцам, а не по строкам

Grouped by Columns

Расположение данных в столбцах

Отмечаем пункт

Labels in First Row

Метки в первой строке

Это означает, что в первой ячейаке столбца указано имя переменной. Оно будет выводиться в итоговой таблице статистических показателей.

Теперь настроим раздел

Output options

Параметры вывода

Указываем, куда выводить результаты анализа:

Output Range

Выходной интервал

Щёлкаем ячейку на новом листе.

Отмечаем пункт

Summary Statistics

Итоговая статистика

Нас интересует вычисление статистических показателей. Есть и другие, более продвинутые варианты анализа — мы их пока не рассматриваем.

Нажимаем ОК и получаем итоговую таблицу. Настраиваем ширину столбцов.

Статистические показатели

Теперь нужно разобраться, что находится в таблице. Для начала приведём более-менее грамотные названия показателей на русском языке.

Нам предстоит сравнить показатели, вычисленные разными способами. Для этого скопируем полученную таблицу на новый лист. Добавим столбец русских названий показателей.

Названия показателей

Теперь вставим столбец теоретических значений. У нас есть вариант задания с теоретическими значениями параметров распределения. В нашем примере мы разбираем нулевой вариант задания. Так что мы можем оценить некоторые показатели исходя из теоретических свойств нормального распределения.

Mean (Среднее значение) — среднее арифметическое исходных значений — см. формулу.

Расчётные формулы

Для нашего варианта среднее задано равным 250.

Standard Error (Стандартная ошибка) — погрешность оценки среднего значения по выборке. В данной работе не используем.

Sample Variance (Выборочная дисперсия) — рассчитывается по формуле «деление на n — 1» — см. формулу.

Для нашего варианта дисперсия равна квадрату «сигмы»:

D = 400

Standard Deviation(Стандартное отклонение) — показатель разброса вокруг среднего значения. Определяется как квадратный корень из дисперсии. Другие названия: «сигма», среднее квадратическое отклонение (с.к.о.) — см. формулу.

Для нашего варианта сигма задана равной 20.

Kurtosis (Эксцесс) — характеристика «островершинности» распределения. Показывает, насколько острой или плоской является вершины кривой распределения.

Для нормального распределения эксцесс равен

Е = 1

Skewness (Асимметрия) — показатель несимметричности кривой распределения.

Для нормального распределения асимметрия равна

А = 0

Range(Размах вариации) — диапазон значений от минимального до максимального значений, разность максимального и минимального значений:

R = max (x) — min (x)

Minimum (Минимальное значение)

Maximum (Максимальное значение)

Возможный разброс значений оценим по «правилу трёх сигм»: среднее плюс-минус три сигмы:

min = 250 — 3*20 = 190

max = 250 +3*20 = 310

Продолжить чтение

Еще от автора Валентин Юльевич Арьков

Валентин Арьков

Анализ и визуализация данных в электронных таблицах

Перед вами продолжение серии пособий, позволяющих познакомиться с основными технологиями бизнес-аналитики. Многое можно сделать в рамках электронной таблицы, которая превращается в интуитивно понятный интерфейс к продвинутым инструментам анализа данных. В данной работе мы рассмотрим создание реляционной модели и визуализацию иерархии в агрегированных данных с использованием специализированных надстроек.

Валентин Арьков

Организация параллельных потоков. Часть 1

В данной лабораторной работе рассматриваются основы организации параллельных потоков с помощью стандартных вызовов операционной системы. В работе используется бесплатная интегрированная среда разработки. Приводятся примеры программ на языке Си.

Валентин Арьков

Применение гистограмм в управлении качеством

Гистограмма — это один из самых простых инструментов статистического УПРАВЛЕНИЯ КАЧЕСТВОМ производства. В этой работе будет использоваться пакет Microsoft Excel для создания исходных данных, а также для построения и анализа гистограммы. Можно также использовать любой другой программный инструмент, позволяющий строить гистограммы.

Валентин Арьков

Сетевые коммуникации

Общение в сети ничем особенно не отличается от обычного, прямого общения между людьми. Это такое же общение, то есть обмен словами, мыслями или эмоциями между людьми. Вы сможете практически познакомиться с общими правилами общения в сети на примере такого вроде бы простого действия, как составление отзыва. Если честно выполнить все предложенные задания, можно будет узнать что-то новое — о других и о себе.

Валентин Арьков

Бизнес-аналитика. Сводные таблицы. Часть 1

Сводные таблицы — средство оперативного анализа данных с помощью статистических методов сводки и группировки. Обобщенные итоговые показатели подсчитываются в виде сумм и средних значений. Настройка сводных таблиц делается визуально, без программирования. Каждый метод анализа данных вначале рассматривается на примере смоделированных данных, а затем с использованием реальных данных из интернета.

Валентин Арьков

Бизнес-аналитика. Сводные таблицы. Часть 2

Данная работа посвящена дальнейшему изучению методов бизнес-аналитики на примере «продвинутых» возможностей функций сводных таблиц. Мы продолжаем использовать общий подход к практическому освоению программного пакета: моделирование и исследование. Мы поработаем с генератором случайных чисел и сформируем реалистичные наборы данных для анализа.