Контроль исходной информации на наличие грубых ошибок и выбросов

Так как уравнения регрессии обычно используют для прогноза, то исходная информация должна быть достоверна. Поэтому прежде чем проводить сложный корреляционно-регрессионный анализ, необходимо выполнить анализ исходных данных на наличие грубых ошибок и выбросов и исключить из многомерной выборки строчки, содержащие сомнительную информацию, или провести дополнительное уточнение информации. Возможно, что специалисты разных предприятий используют различные формулы для расчета показателей производственно-хозяйственной деятельности. Кроме того, могут быть просто описки, которые тоже являются грубыми ошибками. Поэтому после ввода информации в память компьютера необходимо построчно просмотреть многомерную выборку и удалить строки с грубыми ошибками и выбросами (выброс - слишком большое и слишком малое значение признака в ряде его умеренно различающихся значений).

Для проверки исходной информации на наличие выбросов используют в зависимости от объема выборки критерий:

- критерий для выборки, содержащей более 25 элементов;

- критерий для выборки малого объема.

По заданию объем выборки , следовательно, экстремальные значения должны быть проверены по критерию . Расчетное значение критерия определяется по формуле:

(1.1)

где - выборочное среднее и - стандартное отклонение, для признака, в котором обнаружено экстремальное значение; - экстремальное значение (предполагаемый выброс). Критическое значение критерия берется по таблице 1.1.

Таблица 1.1 - Критические значения критерия

Объем выборки

Уровень значимости

=0,05=0,01

30

2,929

3,402

50

3,082

3,539

100

3,283

3,718

1000

3,884

4,264

Если то экстремальное значение с вероятностью не является выбросом, т.е. его нельзя исключать из выборки. В этом случае экстремальное значение объясняется проявлением изменчивости, характерной для данной генеральной совокупности.

При из многомерной выборки исключается строка с экстремальным значением.

Элементы массива Х4 будут размещены на втором листе рядом с исходными данными, также сортируем данный массив. Результаты проверки представлены в таблице 1.2

Таблица 1.2 - Контроль информации на наличие выбросов в массиве

Водим расчетные данные о данном массиве элементов в таблицу 1.3

Таблица 1.3 - Расчетные данные

Искомое

Обозначение

Ячейка

Формула

Максимальное значение в массиве элементов

x=

K2

=МАКС(G2:G54)

Средне арифметическое

Среднее=

K3

=СРЗНАЧ(G2:G54)

Стандартное отклонение

Стандартное отклонение=

K4

=СТАНДОТКЛОН(G2:G54)

Расчетное значение критерия

Sрасч=

K5

=(K2-K3)/K4

Вывод

-

L2

=ЕСЛИ(K5>K6;”Является выбросом”; “Не является выбросом”)

Перейти на страницу: 1 2

Меню сайта