Анализ распределения в Excel - [18]

Шрифт
Интервал

Range (Размах)

R = max — min = 310 — 190 = 120

Sum(Сумма значений)

В нашем варианте сумма значений теоретически должна быть равна произведению среднего на объём выборки — см. формулу.

Чтобы понять, почему именно так, — вспомните формулу для вычисления среднего арифметического.

Count (Количество значений)

объём выборки n.

Правило трёх сигм

«Правило трёх сигм» на самом деле очень приблизительное. Оно даёт хорошее приближение только для определённого объёма выборки. Конечно, есть теория, которая предлагает красивую многоэтажную формулу для распределения показателя размаха вариации. Мы поступим попроще и пойдём путём практического знакомства.

Нас интересует, как размах значений зависит от объёма выборки. Чем больше выборка, тем больше шанс, что может появиться очень редкое значение, которое сильно отклонится от среднего. Гораздо дальше, чем на три сигмы.

Попробуем оценить зависимость размаха от объёма выборки. Используем нормальное распределение с нашими параметрами среднего и сигмы. Сгенерируем выборку размером в миллион значений. Первое, что мы обнаруживаем, — ограничение встроенного генератора случайных чисел надстройки Excel: Integer is not valid. Миллион чисел сгенерировать в надстройке не удаётся.

Попробуем сгенерировать хотя бы десять тысяч чисел. На этот раз попытка удалась. Вычислим размах и выразим его в сигмах.


Размах в сигмах


Построим график: объём выборки — размах в сигмах.


Размах и объём выборки


Рассмотрим начало графика поподробнее. Для этого используем логарифмический масштаб. Вместо объёма выборки используем его логарифм. Вставим новый столбец и вычислим lg (n). Здесь нам пригодится функция LOG10.


Логарифмический масштаб


На графике видно несколько ступенек. Скорее всего, это вызвано недостаточным качеством псевдослучайных чисел. Тем не менее, общая картина просматривается.

При выборке 10 размах равен трём сигмам. При выборке 100 размах 6 сигм. При выборке 10 000 размах равен 13 сигм.

Пользуясь случаем, проверим качество другого генератора случайных чисел Excel. Создадим новый лист и повторим наш эксперимент. Используем метод преобразования — возьмём равномерное распределение и пропустим его через обратное нормальное распределение.

Функция

RAND ()

СЛЧИС ()

позволяет сгенерировать случайное число с равномерным распределением в интервале от 0 до 1. Аргументов у функции нет.

Чтобы из равномерного распределения получить нормальное, вызываем функцию NORM.INV. Формат вызова:

=NORM.INV (probability, mean, standard_dev)

=НОРМ. ОБР (вероятность; среднее; стандартное_откл)

Функция работает по принципу x (p). Это обратное преобразование для функции распределения p (x).

probability — вероятность. В нашем случае это равномерно распределённая величина.

mean — среднее. В нашем примере это 250.

standard_dev — с.к. о. В нашем варианте это 20.

Таким образом, вызываем функция со следующими параметрами

=NORM.INV (B2,250,20)

Используем логарифмический масштаб, как в предыдущем варианте.


Размах в сигмах


Особенность функции генератора случайных чисел в том, что он генерирует новые числа (пересчитывает значение функции) при каждом сохранении файла. Попробуем сохранить файл несколько раз. Сделаем копию графиков и вставим их как рисунки на новый лист.


Запуски генератора


Графики немного отличаются друг от друга. Но при этом общая картина зависимости сохраняется. Чем больше выборка, тем больше размах.

Подведём итоги эксперимента. Правило трёх сигм хорошо работает для выборки объёмом в несколько сотен единиц. Для инженерной работы этого достаточно. А вот если взять хорошую, большую выборку, то размах может вырасти.

Показатели. Функции

Многие статистические показатели можно получить с помощью функций Excel.

Добавим столбец Формулы к нашей таблице показателей. Для каждой функции указываем диапазон ячеек исходной выборки. Добавим строки для новых функций.


Среднее значение:

AVERAGE

СРЗНАЧ


Генеральная дисперсия:

VAR. P

ДИСПP


Выборочная дисперсия:

VAR. S

ДИСП


Генеральное стандартное отклонение:

STDEV. P

СТАНДОТКЛОНP


Выборочное стандартное отклонение:

STDEV. S

СТАНДОТКЛОН


Максимальное значение

MAX

МАКС


Минимальное значение

MIN

МАКС


Размах вариации — разность максимального и минимального значений: =F14-F13.


Коэффициент асимметрии:

SKEW

СКОС


Коэффицииент эксцесса:

KURT

ЭКСЦЕСС


Среднее линейное отклонение:

AVEDEV

СРОТКЛ


Объем выборки:

COUNT

СЧЕТ


Медиана:

MEDIAN

МЕДИАНА


Мода:

MODE

МОДА


Сумма:

SUM

СУММ

Здесь нужно дать небольшой комментарий про генеральные и выборочные характеристики. Генеральные показатели относятся к генеральной совокупности. Это всё множество значений. Можно даже скачать: бесконечное множество. Здесь расчёты делают по формуле «деление на n». Генеральная совокупность по-английски называется POPULATION — буквально «население страны». Поэтому в названии функций ставится английская буква P. Она же случайно перекочевала в русское название соответствующих функций.

Выборочные показатели относятся к выборочной совокупности. Это выборка значений из генеральной совокупности. Здесь расчёты делают по формуле «деление на n — 1». Выборка по-английски называется SAMPLE — «образец, проба, замер, выборка». Поэтому в названии функций есть буква S. В русском переводе эта буква потерялась, что немного сбивает с толку. Так что следите за названиями и за смыслом.


Еще от автора Валентин Юльевич Арьков
Анализ и визуализация данных в электронных таблицах

Перед вами продолжение серии пособий, позволяющих познакомиться с основными технологиями бизнес-аналитики. Многое можно сделать в рамках электронной таблицы, которая превращается в интуитивно понятный интерфейс к продвинутым инструментам анализа данных. В данной работе мы рассмотрим создание реляционной модели и визуализацию иерархии в агрегированных данных с использованием специализированных надстроек.


Организация параллельных потоков. Часть 1

В данной лабораторной работе рассматриваются основы организации параллельных потоков с помощью стандартных вызовов операционной системы. В работе используется бесплатная интегрированная среда разработки. Приводятся примеры программ на языке Си.


Применение гистограмм в управлении качеством

Гистограмма — это один из самых простых инструментов статистического УПРАВЛЕНИЯ КАЧЕСТВОМ производства. В этой работе будет использоваться пакет Microsoft Excel для создания исходных данных, а также для построения и анализа гистограммы. Можно также использовать любой другой программный инструмент, позволяющий строить гистограммы.


Сетевые коммуникации

Общение в сети ничем особенно не отличается от обычного, прямого общения между людьми. Это такое же общение, то есть обмен словами, мыслями или эмоциями между людьми. Вы сможете практически познакомиться с общими правилами общения в сети на примере такого вроде бы простого действия, как составление отзыва. Если честно выполнить все предложенные задания, можно будет узнать что-то новое — о других и о себе.


Бизнес-аналитика. Сводные таблицы. Часть 1

Сводные таблицы — средство оперативного анализа данных с помощью статистических методов сводки и группировки. Обобщенные итоговые показатели подсчитываются в виде сумм и средних значений. Настройка сводных таблиц делается визуально, без программирования. Каждый метод анализа данных вначале рассматривается на примере смоделированных данных, а затем с использованием реальных данных из интернета.


Бизнес-аналитика. Сводные таблицы. Часть 2

Данная работа посвящена дальнейшему изучению методов бизнес-аналитики на примере «продвинутых» возможностей функций сводных таблиц. Мы продолжаем использовать общий подход к практическому освоению программного пакета: моделирование и исследование. Мы поработаем с генератором случайных чисел и сформируем реалистичные наборы данных для анализа.


Рекомендуем почитать
История географических названий Руси

Книга представляет собой уникальный справочник, в котором собраны сведения по истории географических названий Руси. Данное издание рассчитано на широкий круг читателей и будет интересно как людям, увлекающимся историей России, так и эрудитам, желающим расширить свой кругозор.


«Боевая стрельба из пистолета. Израильский стиль»

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Метод солнечных обращений

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Затаенное имя - Тайнопись в 'Слове о полку Игореве'

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Крестоносцы, Они же татары

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Электрошокеры - осторожно, злая собака!

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.