Множественный регрессионный анализ

Множественный регрессионный анализ позволяет производить оценку случайной связи между зависимой переменной Y и любым количеством независимых переменных Xi=X1,X2,X3,...,Xk. Данную функцию можно представить в виде уравнения:

Y=F(X1, X2, X3, ..., Xk)

Основа множественного регрессионного анализа - это оценка параметров регрессии, или коэффициентов, для каждой независимой переменной.

Каждый параметр, в свою очередь, его функциональная зависимость, коэффициенты, является мерой того, как каждая независимая Xi переменная влияет на зависимую переменную Y

при условии, что все остальные независимые переменные поддерживаются неизменными.

В основе множественного регрессионного анализа, статистических критериев его оценки лежит одномерная, многомерная статистика. Для лучшего понимания предложенного далее процесса построения регрессионных моделей рассмотрим некоторые существенные моменты их базовых основ.

БАЗОВЫЕ ПОНЯТИЯ ЭКОНОМЕТРИКИ

В основу эконометрики положены базовые понятия, принципы, концепции:

Закона больших чисел; Генеральной, выборочной совокупности; Концепция максимального правдоподобия; Принцип рандомизации, предложенные Р.Фишером в 1912 г.

ЗАКОН БОЛЬШИХ ЧИСЕЛ

Многочисленные опыты и наблюдения показали, что частости m/n ожидаемых случайных событий A приближаются к их вероятности P(A) по мере увеличения числа испытаний n. Так, если одну и ту же монету подбрасывать большое число раз, то можно ожидать, что чем больше число испытаний, тем ближе к единице оказывается отношение выпавших гербов и решек, а частость каждого события становится ближе к его вероятности.

Этот закон утверждает, что частость m/n события А будет сколь угодно близкой к его вероятности P(A), если число n испытаний неограниченно возрастает.

Таким образом, частость m/n события А и его вероятность P(A) не совпадают. Разница между ними уменьшается при увеличении числа испытаний.

Можно взять сколь угодно малое число и сравнивать его с разницей между частостью и вероятностью события. Вероятность того, что эта разница превысит число e -> error, будет стремиться к нулю при стремлении числа испытаний n к бесконечности, т. е.

P(abs(m/n-P(A))>e=>0

Данный закон свидетельствует о наличии внутренней связи между случайностью и закономерностью, существующей в сфере массовых явлений.

ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ. ВЫБОРКА. РАНДОМИЗАЦИЯ

В процессе эконометрического наблюдения обследованию могут подвергаться все элементы однородной совокупности или некоторая часть. Все элементы однородной совокупности назвали генеральной совокупностью, а некоторую часть, которая корректно описывает, характеризует всю генеральную совокупность, назвали выборкой (выборочным наблюдением или не сплошным наблюдением). Например, если требуется обследовать большой коллектив рабочих одной и той же профессии, то весь коллектив данной профессии называется однородной генеральной совокупностью, а выделенная для обследования часть коллектива исследуемой профессии называется выборочной совокупностью или выборкой. Обратите внимание, на важное понятие 'однородности' генеральной совокупности, выборки: исследовались и отбирались рабочие только 'одной' профессии.

При этом утверждается, чтобы на основе обследования некоторой части совокупности - выборки можно достоверно судить обо всей исследуемой однородной совокупности - генеральной. Т.е. изучая отдельные части целого, исследователь должен понять все целое. Естественно желание сформировать выборку так, чтобы она наилучшим образом представляла целое - генеральную совокупность.

Как этого добиться?

Если целое - генеральная совокупность нам неизвестна, то ничего лучшего не удается предложить для формирования выборки, чем чисто случайный выбор. Т.е. как бы исследователь хорошо не знал свой предмет, то все равно на некоторой стадии наступает незнание, и как результат он неизбежно будет полагаться на интуицию - его величество случай.

Данный процесс познания однородного целого по его части и послужил основой принципа рандомизации Р.Фишера или случайного отбора. Нарушение принципа рандомизации приводит к серьезным ошибкам.

Любое выборочное наблюдение не дает точной характеристики всей генеральной совокупности. Поэтому каждый результат, вычисленный по данным выборки, имеет некоторую погрешность - вспомните закон больших чисел. Эта погрешность выборки называется ошибкой репрезентативности (или представительности). Ошибка репрезентативности показывает величину расхождения между показателями по данным выборочного обследования и соответствующими показателями всей статистической генеральной совокупности.

Случайный характер отбора объектов обследования в выборке приводит к случайному же характеру ошибок репрезентативности. Поэтому здесь можно на основе закона больших чисел, увеличивая объем выборки, регулировать пределы возможной ошибки репрезентативности и, наоборот, по заданному пределу допустимой ошибки определить необходимую численность выборки. При вычислении средней величины она определяется как разность между выборочной средней и генеральной средней. Эта ошибка выборочного метода порождает смещение в оценках генеральной совокупности. Например, если мы хотим обследовать некоторую отрасль или общество, то соответственно в выборке должны быть представлены малые, средние, большие предприятия данной отрасли, все слои общества из всех регионов.

ИЗ СКАЗАННОГО ВЫШЕ СЛЕДУЮТ СЛЕДУЮЩИЕ ВЫВОДЫ

Генеральной совокупностью (X) называют множество результатов всех мыслимых наблюдений над значениями одного или нескольких признаков, которые могут быть сделаны при данном комплексе условий. При этом комплекс условий определяет вариацию признаков генеральной совокупности. Синонимом генеральной совокупности в статистике является случайная величина X.

Выборочной совокупностью (выборкой) x1,x2,..,xn называют множество результатов, случайно отобранных из генеральной совокупности. Выборка должна быть репрезентативной, т.е. правильно отражать пропорции генеральной совокупности. Это достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными. Задача статистики практически сводится к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки. Репрезентативность выборки достигается способом рандомизации (от англ. random - случай) или случайным отбором вариант из генеральной совокупности, что обеспечивает равную возможность для всех членов генеральной совокупности попасть в состав выборки.

В основе объяснения перехода от характеристик случайной величины X, которые вычисляются на основе точного знания исследуемого закона распределения, к эмпирическим (выборочным) лежит интерпретация выборки как модели генеральной совокупности, в которой возможными значениями являются наблюдавшиеся (т.е. практически реализованные) значения x1,x2,..,xn а в качестве вероятностей берутся соответствующие относительные частоты их появления в выборке, т.е. величины, равные 1/n.

Сказанное проиллюстрируем на примере наиболее часто используемых параметров для оценки генеральной совокупности начального момента первого порядка - математическое ожидание µ1 и центрального момента второго порядка - дисперсия µ2.

Математическое ожидание µ1 дискретной случайной величины с n возможными значениями x1,x2,..,xn и соответствующими вероятностями p1=p2=...=pn=1/n равно:

µ1=Sum(xi*pi), суммирование производится по i=1,2,...,n

Исходя из формулы математического ожидания, мы пришли к формуле средней арифметической (выборочной средней - MX), основной и наиболее употребительной характеристики центра группирования:

MX=1/n*Sum(xi), суммирование производится по i=1,2,...,n

Таким образом, средняя арифметическая MX является выборочным аналогом математического ожидания генеральной совокупности µ1, т.е. µ1=>MX.

Дисперсия µ2 случайной дискретной величины равна:

µ2=Sum((xi-µ1)^2*pi), суммирование производится по i=1,2,...,n

Учитывая, что для выборки µ1=МX, pi=1/n получим:

DX=1/(n)*Sum((xi-МX)^2), суммирование производится по i=1,2,...,n

Таким образом, выборочная дисперсия DX является выборочным аналогом дисперсии генеральной совокупности µ2, т.е. µ2=>DX. Было установлено, что данное уравнение выборочной дисперсии оказывается смещенной по отношению к своему генеральному параметру на величину, равную n/(n-1).

Чтобы получить несмещенную дисперсию выборки нужно ввести в качестве множителя данную поправку смещения, называемую поправкой Бесселя.

Данное смещение вполне очевидно, в формуле дисперсии выборки, размер которой n присутствует МХ, который забирает одну степень свободы:

DX=1/(n-1)*Sum((xi-МX)^2).

Перед каждым исследователем стоит задача так сформировать выборку, чтобы она более полно (репрезентативно) отражала генеральную совокупность. Т.е. без ошибок и/или когда ошибка близка к 0, ошибка e=>0.

Обозначая ошибку репрезентативности символом e, будем иметь для оценки ошибки среднего:

e=МX-µ1

Приведем конкретный пример. Пусть в коллективе из 20000 рабочих средняя месячная заработная плата рабочего (генеральная средняя) составляет 95,9 руб. При выборочном обследовании 1000 рабочих средняя заработная плата рабочего (выборочная средняя) оказалась равной 96 руб. Отсюда ошибка репрезентативности при выборочном обследовании определяется так:

e=МX-µ1=96-95,9=0,1 руб.

Аналогично проводится вычисление ошибки репрезентативности при определении доли изучаемого признака в некоторой генеральной совокупности. Если N - численность генеральной совокупности, a M - количество единиц, обладающих данным признаком в ее составе, то доля (р) единиц, обладающих этим признаком в генеральной совокупности p=M/N называется генеральной долей. Если для выборочной совокупности n обозначает численность выборки, m-количество единиц, обладающих изучаемым признаком в составе выборочной совокупности, а w-долю соответствующих единиц в составе выборки, то выборочная доля - w=m/n.

Разность e=w-p определяет ошибку репрезентативности.

Пусть в рассматриваемом коллективе из N=20000 рабочих имеется 1250 учеников, т.е. M=1250. Этим определяется генеральная доля учеников в объеме генеральной совокупности:

p=1250/20000=0.0625

В выборочной совокупности из n=1000 человек оказалось m=64 ученика. Этим определяется выборочная доля:

w=64/1000=0,064.

Ошибка репрезентативности, таким образом, составляет:

e=w-p=0,064-0,0625=0,0015,

или m/n - p=0.0015.

В статистике используются два различных варианта интерпретации выборки и ее отдельных элементов.

При ПЕРВОМ (практическом) варианте интерпретации под ВЫБОРКОЙ x1,x2,..,xn понимаются фактически выявленные значения исследуемой случайной величины, т. е. конкретные числа.

В соответствии со ВТОРЫМ вариантом интерпретации под ВЫБОРКОЙ x1,x2,..,xn понимается последовательность независимых, одинаково распределенных случайных величин, закон распределения которых совпадает с распределением генеральной совокупности.

Таким образом, если генеральная совокупность X имеет нормальное распределение, т.е. X=> N(µ1;µ2), то хi также принадлежит для всех i=1,2,..,n к нормальному распределению с математическим ожиданием Mхi=µ1 и дисперсией Dхi=µ2, т.е. хi=>N(µ1;µ2) для i=1,2,..,n.

В соответствии со ВТОРЫМ определением ВЫБОРКИ все выборочные характеристики (MX, DX, m/n) являются СЛУЧАЙНЫМИ величинами, как функции от случайных!!!

В отличие от ВЫБОРОЧНЫХ, параметры ГЕНЕРАЛЬНОЙ совокупности (µ1;µ2;p) являются НЕСЛУЧАЙНЫМИ величинами!!!

Данный момент вполне очевиден - выборка формируется на основании принципа рандомизации - случайного выбора данных из генеральной совокупности, поэтому выборочные характеристики (MX, DX, m/n) являются естественно СЛУЧАЙНЫМИ величинами, в отличие от ГЕНЕРАЛЬНОЙ совокупности.

Во многих случаях параметры генеральной совокупности µ1; µ2; p неизвестны, а известны лишь полученные по выборке их оценки, значения средней арифметической MX, выборочного среднего квадратического отклонения Sqr(DXmx) или относительной частоты w=m/n.

Тогда оценка значения средней квадратической ошибки средней арифметической µ2mx определяют по формуле:

Sqr(DXmx)=Sqr(DX)/Sqr(n) - оценка точности значения средней арифметической MX,

где Sqr(DX)=Sqr(1/(n)*Sum((xi-МX)^2) - собственно выборочный средне квадратичное отклонение. Оценку значения средней квадратической ошибки sw относительной частоты генеральной совокупности Sqr(µ2w) находят с помощью формулы:

sw=Sqr(w(1-w)/n)

При бесповторном отборе вариант из численно ограниченной генеральной совокупности ошибка выборочной средней оказывается несколько завышенной, особенно в тех случаях, когда объем выборки достаточно велик (n>25% от N).

Учитывая это обстоятельство, К. Пирсон (1898) предложил поправку Sqr((N-n)/(N-1)), которую в этом случае необходимо вносить в качестве множителя в формулу Sqr(DXmx)=Sqr(DX)/Sqr(n). При этом вместо (N-n)/(N-1) можно использовать приближенную величину 1-n/N, где n/N - доля выборки, т.е. вычислять ошибку средней по формуле:

Sqr(DXmx)=Sqr(DX/n*(1-n/N))

Чем больше доля выборки, тем сильнее скажется поправка на величине ошибки средней. Если же доля выборки мала, что наиболее часто встречается в практике, поправка оказывается близкой к единице и величина ошибки средней практически не изменится. Поэтому в тех случаях, когда объем генеральной совокупности N достаточно велик по сравнению с объемом выборки n, величина поправки 1-n/N будет близка к единице и ею можно пренебречь:

Sqr(DXmx)=Sqr(DX/n*(1-n/N))=Sqr(DX/n)

Пример. Из общего числа 500 мужчин, подлежащих призыву на военную службу, выборочно измерен рост у 80 человек. Средний рост призывников оказался равен 170 см с дисперсией DX=66,3. Определим ошибку Sqr(DXmx) для этой средней:

Sqr(DXmx)=Sqr(DX/n*(1-n/N))=Sqr(66.3/80*(1-80/500))=0.834

Если же ошибку средней вычислить без поправки Пирсона, она оказывается следующей:

Одно лишь свойство специфично для ошибок репрезентативности: они уменьшаются при увеличении объема выборки, т. е. при n=>oo, Sqr(DXmx)=>0. Это свойство статистических ошибок обусловлено действием закона больших чисел, по которому наиболее вероятный результат получается при наибольшем числе испытаний.

Отсюда понятно значение ошибки: она указывает на точность, с какой выборочный показатель репрезентирует, представляет, описывает генеральный параметр. Чем меньше ошибка, тем ближе выборочная характеристика к величине генерального параметра, и, наоборот, чем больше ошибка, тем менее точно выборочная характеристика репрезентирует генеральный параметр.

Ошибками репрезентативности сопровождаются и другие выборочные показатели, из которых необходимо отметить следующие:

Ошибка медианы: DXme=DXmx*Pi/2, где Pi=3,14 число пи.

ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ НЕКОТОРОГО КОЭФФИЦИЕНТА ЗАДАННОЙ ПОСТОЯННОЙ

В практической работе мы часто встречаемся с анализом выборочных средних.

В этой связи полезным является распределение впервые определенное У.С.Госсетом, писавшим под псевдонимом Student.

Рассмотрим это распределение, известное также как распределение Стьюдента, или t-распределение, а также его многомерное обобщение, данное Гарольдом Хотеллингом, критерий Хотеллинга T2.

У.С.Госсет рассуждал следующим образом. Допустим, дисперсия µ2 генеральной совокупности известна или определена заранее, а средняя величина µ1 генеральной совокупности не известна, и ее можно вычислить только как среднюю по выборке - MX. При этом генеральная совокупность описывается нормальным распределением, а все случайные наблюдения - отобранные данные Xi, которые мы включили в выборку, были взяты из ДАННОЙ ИССЛЕДУЕМОЙ генеральной совокупности, а не из какой-нибудь другой. В результате благодаря принципу рандомизации - случайного отбора, предложенного Р.Фишером, средняя величина выборки - MX НЕ БУДЕТ СУЩЕСТВЕННО отличаться от средней величины µ1 генеральной совокупности. Если же часть (или ВСЕ) наблюдения случайно отобранных данных Xi, которые мы включили в выборку были взяты из ДРУГОЙ генеральной совокупности, то средняя величина выборки - БУДЕТ СУЩЕСТВЕННО отличаться от средней величины µ1 ИССЛЕДУЕМОЙ генеральной совокупности.

Очевидно, что существует бесконечно много нормальных плотностей вероятности, зависящих от различных комбинаций МХ и DX. К счастью, мы можем выразить нормальную плотность в стандартной форме, записав ее как функцию стандартизованной переменной z, а не Xi. Эта стандартизованная переменная определяется как:

z=(Xi-µ1)/sqr(µ2)

Рассмотрим числовой пример. Предположим, что относительно величины Xi известно, что она распределена нормально, со средним значением, равным µ1=10 единицам, и дисперсией µ2=4 единицам. Еще раз вспомним, что распространенным (и удобным) понятием в статистике является понятие генеральной совокупности, которое определяется как совокупность всех мыслимых наблюдений (но не значений), которые могли бы быть сделаны при данном, реальном комплексе условий. В свою очередь реальный комплекс условий математически полностью определяется законом распределения вероятностей, и в частности функцией плотности вероятности. Какова вероятность того, что случайное наблюдение, извлеченное из этой генеральной совокупности, даст значение Xi, равное или большее 12? В стандартной шкале z искомое значение Xi равно:

z=(Xi-µ1)/sqr(µ2)=(12-10)/sqr(4)=(12-10)/2=1

Вероятность того, что X будет больше 12, равна 0.15866, а вероятность того, что Xi будет меньше 12, равна: 1,0 - 0,15866=0,84134, так как общая площадь под кривой равна единице. Имея в виду, что плотность симметрична, вероятность получения значения X, равного или меньшего 8 (т.е. z=1,0), также будет составлять 0,15866.

ПОСТРОЕНИЕ МНОГОФАКТОРНОЙ ФУНКЦИИ

Многофакторное уравнение должно отвечать трем важным требованиям:

  1. Как можно точнее отражать связи между зависимыми и независимыми переменными?
  2. Как представить собой простую и надежную модель рыночных процессов?
  3. Как учитывать изменения во времени и значений стоимости?

Для проведения грамотного множественного регрессионного анализа необходимо понимание (интерпретация) его экономического смысла. Данный анализ начнем с выявления (идентификации) переменных.

Этап 1. ИДЕНТИФИКАЦИЯ ПЕРЕМЕННЫХ.

При любом эмпирическом изучении функции в первую очередь нам необходимо выявить независимые переменные Xi=X1,X2,...,Xk и их связь с зависимой переменной Y:

Y=f(X1,X2,X3,X4,...,Xk).

Однако недостаточно определить связь переменных X1,X2,...,Xk с зависимой переменной Y. Мы должны также определить, имеют ли независимые переменные связи друг с другом. Построение многовариантной функции часто затруднено вследствие близких взаимных связей между внешними (исследуемыми) факторами X1,X2,...,Xk, определяющими Y, и тем фактом, что их величины изменяются более или менее случайно. Это последнее обстоятельство особенно досадно, так как трудно определить, какое реальное действие оказывает на Y одна из переменных в то время, как остальные переменные не изменяются.

При анализе простой (парной) регрессии мы полагаем, что Y изменяется в результате изменений X1, в то время как все остальные переменные X2, X3, ..., Xk не меняются. Такой же анализ можно осуществить и в отношении к остальным факторам.

Проблема идентификации может быть решена при помощи множественной регрессии при условии наличия достаточной информации и безусловного решения следующих проблем:

  1. Априори правильно осуществлена интерпретация исследуемых экономических процессов. Ни один из существенных факторов (переменных) не пропущен.
  2. Собрана необходимая и достаточная информация по каждому из факторов. В частности определена их глубина (размер выборки). Например, по временным периодам - день, неделя, декада,…, год. В случае невозможности получения соизмеримых выборок, то можно сформировать модель достоверной интерполяции (полином, сплайн и т.д.) эконометрических данных.
  3. Не допущены ошибки выбора спецификаций (типов) функций для корректной аппроксимации (подгонки) модели. Например, в модели использована самая простая множественная линейная регрессия, как следствие может быть порождена ошибка выбора спецификации функции. К сожалению, в экономике линейная зависимость редко встречается.

Некорректное решение данных проблем в совокупности приведет к неверно построенной модели исследуемых экономических процессов.

В частности, если для оценки функции используется анализ временных рядов, то мы должны знать о существовании проблемы идентификации, так как за период, достаточно продолжительный для данного анализа, можно ожидать изменения и других переменных, кроме анализируемой в данный момент переменной. Многие количественные переменные могут быть легко выявлены. Качественные переменные прямо не вычисляются. Тем не менее, степень их изменений может быть представлена в численном виде и, следовательно, может быть включена во множественный регрессионный анализ.

Например, качество некого товара можно оценивать не в целом как 'некое качество', что явно не поддается эконометрической обработке, а по 10-ти или 100 бальной системе. В результате качественная переменная приобретает количественное свойство и ее можно с успехом подвергнуть эконометрической обработке.

Этап 2. СБОР И УТОЧНЕНИЕ ДАННЫХ

Когда переменные выявлены, необходимо получить о них информацию. Источники такой информации, конечно же, определяются требованиями к модели.

При сборе данных необходимо учитывать следующие аспекты:

  1. Организацию информации (т.е. какую информацию следует использовать: ежедневную, месячную, квартальную или годовую).
  2. Количество наблюдений, требуемое для получения хороших результатов.
  3. Если в исследованиях собраны и/или имеются данные с различной информационной глубиной: ежедневные, месячные, квартальные, годовые, то, как корректно осуществить подгонку (аппроксимацию, интерполяцию) исследуемых данных.

ОРГАНИЗАЦИЯ И УТОЧНЕНИЕ ДАННЫХ

Вопрос о том, какую информацию лучше использовать - ежедневную, месячную, квартальную или годовую, - чаще всего решается на основе доступности. Многие организации не публикуют экономические сборники так часто, как этого хотелось бы исследователям, оставляя им возможность пользоваться лишь ежегодной информацией. При возможности было бы желательно иметь как можно большее количество наблюдений, что позволяет достичь большей эконометрической достоверности.

Например, данные временных рядов должны быть скорректированы с учетом изменений численности населения, инфляции, процентных ставок и т.д. Данные могут нуждаться в сезонном уточнении. Далее, так как многие экономические явления реагируют на изменение условий с некоторой задержкой (временным лагом), эконометрические модели, в которых используется информация, должны создаваться с применением скорее опережающих, чем текущих переменных. Кроме того, тот или другой ряд, может быть, сдвинут во времени таким образом, чтобы действие и реакция на это действие происходили одновременно.

Например, в интерпретации Чекирды закон Окуня на современном этапе можно озвучить следующим образом:

В результате изменений цен на нефть, солнечной активности, можно ожидать рост цен на выпускаемую продукцию через механизмы спроса и предложения, и как следствие снижение спроса потребителей, что в свою очередь с временным лагом в 1 год вызывает рост безработицы, которая неизбежно приводит к падению ВВП страны.

КОЛИЧЕСТВО НАБЛЮДЕНИЙ

Вопрос о том, какое количество наблюдений необходимо для получения обоснованных эконометрических результатов, не прост. Адекватных результатов можно ожидать, если мы будем работать со всей генеральной совокупностью. Но это редко удается. Обычно ограничения во времени и в деньгах, выделенных на сбор информации, вынуждают исследователей использовать выборочный метод.

Размер выборки является компромиссом:

Основное правило состоит в том, что для хорошо выбранной модели требуется количество наблюдений, по крайней мере, в 3 или 5 раза большее, чем количество независимых переменных.

Если модель (ее функциональное описание) выбрана неправильно, то никакой объем информации не поможет получить корректный результат.

Следующий этап состоит в выборе формы (функциональной зависимости) регрессионного уравнения.

Этап 3. ВЫБОР НАИЛУЧШЕЙ ФОРМЫ УРАВНЕНИЯ

Многие нелинейные зависимости, функции можно свести к линейным в доступном интервале эмпирических данных. В таком случае наилучшей формой является уравнение, описывающее регрессионную плоскость сверху, снизу или совпадающее с наблюденными точками. Самое простое оценочное уравнение имеет вид:

Y=b0+b1X1+b2X2+...+bnXn,

где Y - оценка функциональной зависимости;
Xi - значение i-й независимой переменной;
bi - оценочное значение i-го регрессионного параметра.

Когда данные указывают на то, что функция их распределения не совсем линейна, мы можем свести ее к линейным формам. Например, ниже приведенные нелинейные формы приводятся к линейным:

Степенная: Y=b0*X1^b1*...*Xn^bn => прологарифмируем левую и правую части уравнения => Ln(Y)=Ln(b0)+b1*Ln(X1)+...+bn*Ln(Xn)

Логарифмическая: Y=b0+b1*Ln(X1)+...+bn*Ln(Xn) => заменим выражения Ln(X1),...,Ln(Xn) на U1,...,Un => Y=b0+b1*U1+...+bn*Un

Экспоненциальная: Y=b0*Exp(b1X1)*...*Exp(bnXn) => прологарифмируем левую и правую части уравнения => Ln(Y)=Ln(b0)+b1*X1+...+bn*Xn

Полиноминальная (многочлен): Y=b0+b1*X1^1+b2*X1^2+...+bn*X1^n => заменим выражения X1^1,X1^2,...,X1^n на U1,...,Un => Y=b0+b1*U1+b2*U2+...+bn*Un

В каждом конкретном случае необходимо испробовать ВСЕ формы!!!

И использовать ту из них, которая лучше описывает связь между зависимой Y и независимыми переменными Xi.

NB. При этом следует не забывать, что в дальнейшем необходимо осуществить обратное преобразование всех к-в b0,b1,...,bn. Кроме этого в случае, если необходимо осуществить сравнительный анализ выше приведенных ф-ций подгонки, то, как видно будет далее, необходимо будет данный сравнительный анализ осуществлять с помощью статистических критериев. Поэтому это сравнение будет только тогда корректным, когда предварительно было также осуществлено обратное преобразование всех к-в b0,b1,...,bn.

В данном анализе множественная регрессия является расширением метода наименьших квадратов для простой (парной) линейной регрессии. Метод наименьших квадратов может быть быстро и точно применен для оценки коэффициентов регрессии. Анализ должен не только содержать значения всех параметров регрессионного уравнения, но также и проверочную информацию (статистические критерии), по которой можно судить о правильности выбранной модели.

Этап 4. РАСЧЕТ УРАВНЕНИЯ РЕГРЕССИИ

В данном расчете, во-первых, надо убедиться в наличии функциональной связи (линейной, нелинейной) между зависимой Y и независимыми переменными Xi.

Данная проверка осуществляется сопоставлением зависимой переменной Y с каждой из независимых переменных Xi. Для чего используют аналитические (построение функциональных зависимостей) и графические методы.

Если бы мы использовали данные временных рядов, то нам бы пришлось бы проверять их по каждой независимой переменной на линейность, организуя точки X, во времени. Если же какая-либо из переменных изменяется нелинейно, то необходимо применить соответствующее преобразование.

Для каждого исследуемого случая расположение точек на графике будет говорить о линейной или нелинейной связи независимых переменных Xi с зависимой переменной Y. Следовательно, мы можем применять множественную регрессию без какой-либо дальнейшей корректировки данных.

Кроме более или менее стандартной выводимой информации, нам необходима дополнительная информация, такая, как:

Таким образом, мы получаем не только расчет регрессионного уравнения, но и информацию, и тестовую статистику, необходимые для проведения регрессионного анализа.

Этап 5. ЭКСПЕРИМЕНТЫ С РЕГРЕССИОННОЙ МОДЕЛЬЮ

Существуют, по крайней мере, три различных способа анализа регрессионной модели.

  1. Использование различных способов определения переменных. Например, количество затраченного труда может быть измерено путем определения количества персонала, затраченного рабочего времени или по выплаченной заработной плате.
  2. Применение как линейной, так и нелинейной обработки информации.
  3. Удаление или введение в регрессионное уравнение различных независимых переменных.

Для наблюдения последствий систематического введения в уравнение независимых переменных будем использовать пошаговый множественно-регрессионный анализ.

Алгоритм данного анализа следующий:

Тем не менее, очень важно иметь априорные экономические соображения о целесообразности включения в уравнение каждой независимой переменной. При этом необходимо учитывать, что сильная корреляция между зависимой переменной и некоторой определенной независимой переменной необязательно указывает на причину и следствие. Многие величины могут быть связаны через другую переменную.

Кроме того, нельзя недооценивать переменную, регрессионный коэффициент которой показывает ее статистическую не значимость. Если априори существуют экономические соображения о важности этой переменной, то ее лучше оставить в анализе. Отсутствие значимости или даже неправильный знак при переменной могут быть результатом эффекта мультиколлинеарности - сильной взаимосвязи различных переменных Xi.

Математические характеристики множественной регрессии таковы, что результаты анализа могут быть улучшены путем увеличения количества наблюдений. В некоторых случаях они также могут быть улучшены путем введения добавочных переменных.

Этап 6. АНАЛИЗ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ

Результаты анализа могут быть интерпретированы следующим образом.

  1. Регрессионная константа, b0, определяет положение регрессионной плоскости. Теоретически она представляет собой требуемое количество при условии, что все независимые переменные равны нулю. Но математически она может быть отрицательной. В экономике это невозможно. Также маловероятно, чтобы все переменные равнялись нулю. Следовательно, параметр b0 нередко не имеет реального экономического смысла.
  2. Все остальные параметры, bi указывают направление и величину изменений зависимой переменной, Y, в результате увеличения на единицу соответствующей независимой переменной, Xi, при условии, что все остальные независимые переменные остаются постоянными.

ТЕСТИРОВАНИЕ И ОЦЕНКА РЕЗУЛЬТАТОВ

Задачами множественного регрессионного анализа являются получение надежной оценки параметров для независимых переменных на основе выборки, а также статистических выводов об этих параметрах, как индивидуальных, так и сгруппированных, и проверка правильности оценочного уравнения регрессии.

Программа, к сожалению, выполнит любой регрессионный анализ, данные для которого представлены в корректной форме, независимо от экономического смысла.

Таким образом, наша задача заключается в определении правильности применения расчетов для прогнозирования зависимой переменной.

Пригодность модели может быть определена путем ответа на два фундаментальных вопроса:

Ответ на первый вопрос основан на экономической теории и на суждениях исследователя. Для того чтобы ответить на второй вопрос, необходимо провести определенные статистические тесты, оценивающие как отдельные параметры, так и модель в целом.

Этап 6. 1. ТЕСТИРОВАНИЕ ПРИГОДНОСТИ МОДЕЛИ

ЗНАКИ КОЭФФИЦИЕНТОВ

Каждый коэффициент регрессии представляет собой крайнее значение реакции переменной Y на единичное изменение соответствующей независимой переменной Xi. Знак параметра указывает направление изменения переменной Y по отношению к изменению независимой переменной Xi.

Положительный знак показывает, что, например, переменная спроса изменяется в том же направлении, что и независимая переменная; отрицательный - что эти переменные изменяются в противоположных направлениях.

Необходимо проверить знак параметра, чтобы определить, показывает ли он теоретически правильное относительное изменение переменных.

Если знак неверен, то это может говорить о том, что мы неправильно построили модель и/или упустили важную переменную. В некоторых случаях неверный знак сопутствует другим симптомам возникновения статистической проблемы, например, мультиколлинеарности.

ВЕЛИЧИНЫ ПАРАМЕТРОВ

Это проверка параметра на экономический смысл. Хотя и не существует общепринятых пределов, большинство экономистов субъективно ограничивают значения каждого параметра определенными рамками. Иногда параметр может принять такое значение, которое явно невозможно.

Этап 6. 2. СТАТИСТИЧЕСКИЕ ТЕСТЫ И ОЦЕНКИ

ДАННЫЕ ТЕСТОВ

Для линейной, нелинейной регрессии необходимы статистические данные, с помощью которых можно ответить на следующие вопросы:

  1. Насколько хорошо изменения независимых переменных Xi объясняют изменение зависимой переменной Y, как по отдельности, так и в целом?
  2. Имеют ли независимые переменные Xi статистическую значимость. Иными словами, насколько надежными являются отдельные параметры при прогнозировании значений зависимой переменной?

В линейной, нелинейной регрессии в целом существуют следующие тесты:

  1. Средняя квадратичная ошибка оценки для регрессии.
  2. Множественный коэффициент детерминации, R2.
  3. Скорректированный множественный коэффициент детерминации, или R2коррект;
  4. F-статистика для оценки регрессии в целом;
  5. T2-статистика (Хотеллинга) для оценки регрессии в целом;

Для параметров отдельных переменных существуют тесты на:

Способы интерпретации и использования этих методов проверки рассмотрим более детально.

ОБЩИЕ ТЕСТЫ

МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ, R2

Множественная регрессия описывает регрессионную плоскость, а наблюдаемые точки (значения) лежат выше, ниже или на этой плоскости.

Множественный коэффициент детерминации является мерой того, насколько хорошо плоскость, описываемая регрессионным уравнением, удовлетворяет экспериментальным данным. При этом полная вариация переменной Y может быть разделена на две части:

Полная вариация (SST) = Объяснимая вариация (SSR) + Необъяснимая вариация (SSE)

Определения вариации и дисперсии в данном случае находятся в соответствии.

Вариация - это сумма квадратов отклонений собранных (наблюдаемых) значений от линии регрессии. Дисперсия - это арифметическое среднее вариации.

Множественный коэффициент детерминации R2, определяется как часть общего изменения переменной Y, относящаяся к изменениям всех вместе взятых независимых переменных X1, X2, X3, ..., Xk из наилучшего выбранного уравнения.

Этот коэффициент имеет исключительно математический смысл и не определяет никакой экономически обоснованной причинно-следственной связи.

Множественный коэффициент детерминации вычисляется по следующей формуле:

R2 = SSR / SST

или

R2 = (SST - SSE) / SST = 1 - SSE / SST = 1 - 610167,42/196466285,23 = 1,00

Это означает, что 99,69% изменений Y объясняется Xi взятых вместе и подставленных в наилучшее уравнение регрессии.

Величина R2 лежит в интервале от нуля до единицы.

Если вариация спроса полностью объяснима, то это должно означать, что все наблюденные точки лежат на плоскости регрессии (на линии для 2-х мерного варианта) с нулевыми отклонениями.

Следовательно, SST=SSR и SSE =0.

Для эмпирического анализа нет ничего необычного в том, чтобы получить высокий R2 при статистически незначимых или имеющих бессмысленный знак коэффициентах регрессии. Более того, одним из свойств метода наименьших квадратов для множественной регрессии является то, что при добавлении еще одной независимой переменной может произойти не снижение, а, наоборот, повышение R2 вне зависимости от того, связана ли введенная переменная с Y или нет.

По этой причине может возникнуть желание (с целью достичь более высокого значения R2) ввести как можно больше переменных. Однако с этим желанием надо бороться, так как немного можно сказать о модели, которая включает переменные, не имеющие теоретического обоснования. Мы должны помнить, что нашей целью является разработка надежных истинных экономически интерпретируемых оценок групповых параметров, а не получение высокого R2.

Скорректированный множественный коэффициент детерминации, или R2коррект.

Еще одной характеристикой R2 является его чувствительность к количеству наблюдений, входящих в регрессию.

Если количество наблюдений равно количеству независимых переменных, то каждая точка наблюдений будет лежать точно на регрессионной плоскости и расчетное значение будет равно наблюденному значению Y. Тогда R2=1, однако, это говорит скорее о недостатке информации, чем о благоприятном совпадении.

Чтобы получить информативные результаты, мы должны иметь количество наблюдений, достаточное для того, чтобы переменная спроса имела некоторую свободу изменений, т.е. число степеней свободы должно быть больше нуля. Термин 'степени свободы' (или df) означает, что если нам известно n-1 членов суммы, то i-й член определяется автоматически. Например, если мы знаем, что сумма 5 членов есть 15 и знаем, что первые четыре члена - это 1, 2, 3 и 4, сумма которых дает 10, то пятый член обязательно должен быть 5. Он не может быть чем-либо другим, следовательно df=(5-1)=4.

Если в регрессионное уравнение входит k независимых переменных Xk, то мы имеем k параметров b1,b2,...,bk, т.е. по коэффициенту на каждую независимую переменную плюс 1 для учета b0 (свободного к-та при Х0=1), если он есть. Т.о. для Xk => X1,X2,...,Xk => k=1,2,...,k, т.е. k=k, а с учетом свободного к-та Xk => X0,X1,X2,...,Xk => k=0,1,2,...,k, т.е. k=k+1

Для определения каждого параметра требуется, по крайней мере, одно наблюдение, и на каждый параметр теряется одна степень свободы. Если мы имеем n наблюдений, то число степеней свободы составляет df=n-k-1.

Если количество наблюдений равняется количеству переменных (Y и Xk), то df=0, a R2=1,0. Следовательно, зависимая переменная не имеет пространства для изменений. Можно сказать, что R2 стремится к 1 так же, как df стремится к 0.

Для того чтобы уделить должное внимание степеням свободы, определяемым количеством наблюдений и количеством параметров, статистики ввели скорректированный (истинный) множественный коэффициент детерминации, R2коррект. Его формула имеет следующий вид:

R2коррект = R2 - (1 - R2)*(k / (n - k - 1))

где n - количество наблюдений,
k - количество варьирующих переменных Хk. Для учета переменной Y введен минус 1.

В нашем случае:

R2коррект = 0,994675924723239

Каковы приемлемые значения для R2коррект? Это, в основном, дело индивидуальных соображений, и соображения эти меняются в зависимости от исследуемого объекта. Например, кросс-секционный анализ, рассматривающий демографические связи, имеет тенденцию занижать уровень R2коррект. по сравнению с методом временных рядов, работающим с ретроспективными связями.

Обычно если количество наблюдений, по крайней мере, в три или четыре раза больше количества независимых переменных, то приемлемым считается R2>0,75.

СТАНДАРТНАЯ ОШИБКА ОЦЕНКИ ЭКОНОМЕТРИЧЕСКОЙ МОДЕЛИ, DX

Когда исследователь изучает одномерные эконометрические параметры, то первое, что он вычисляет это первый момент - среднее изучаемого параметра - МХ, а величина среднего разброса данных относительно средней есть дисперсия DX=1/(n-1)*Sum(Xi-MX) или среднеквадратичное отклонение SX=DX^0.5.

Данный подход и оценки, характерные для одномерной статистики, полностью переносится и на многомерный статистический анализ и, в частности, на регрессионный анализ. Например, при двух переменных, каждая из которых представлена в векторной форме Y, X, роль средней (МХ) выполняет кривая, в частном случае прямая линия. Она так проведена между всеми i-ми точками (Yi, Xi) статистических данных, что все они в среднем находятся на минимальном расстоянии от построенной регрессионной линии.

Эти средние отклонения (разброс) точек относительно линии и есть ничто иное, как величина среднего разброса данных относительно средней (линии) есть дисперсия DX или среднеквадратичное отклонение DX^0.5.

Чтобы не вносить путаницу для многомерной статистики данная статистика DX^0.5 называется стандартной ошибкой оценки, построенной регрессионной зависимости. Во множественном регрессионном анализе эту линию можно естественно представить только в виде гиперпространства (n-мерного пространства).

Наряду c прочими свойствами стандартная ошибка оценки представляет собой показатель точности подбора линии выборочной регрессии, к выборочным значениям исходных статистических данных Y. Так как по мере приближения линии выборочной регрессии к истинной линии регрессии, то и как следствие квадрат ошибки, представленной в векторной форме - e'e, будет стремиться к нулю.

Напомним, что в векторной форме ошибка e или степень невязки регрессионной кривой, которую можно представить в виде векторного произведения - bX, относительно исходным статистическим выборочным данным вектора зависимой переменной Y можно представить в виде e=Y-bX. Вполне естественно, что в этом случае несмещенная дисперсия будет равна DX=e'e/(n-k-1), где (n-k-1) степень свободы, а стандартная ошибка оценки эконометрической модели это корень квадратный от SX=DX^0.5, как в одномерной статистике

В нашем исследовании DX равно:

DX=e'e/(n-k-1)=610167,420283/(13-5-1)=87166,774326

Таким образом, стандартная ошибка оценки построенной эконометрической модели равна: SX=DX^0.5=295,240198

Учитывая, что дисперсия генеральной совокупности DX обычно неизвестна и традиционно оценивается по выборке, поэтому стандартные ошибки Sb коэффициентов bi можно вычислить с помощью ковариационной матрицы (X'X)^(-1) векторной оценки bi. Матрица стандартных ошибок будет равна Sb=DX*(X'X)^(-1)

Квадратные корни из элементов главной диагонали матрицы Sb обычно и называют стандартными ошибками Sbi коэффициентов bi. В нашем случае они будут равны:

Sb0=0,331 Sb1=0,0105 Sb2=0,0147 Sb3=0,0126 Sb4=0,0151 Sb5=0,0236

Обсудив оценивание ошибок ковариационной матрицы вектора b, и получив коэффициенты bi (их математическое ожидание), обратимся теперь к выборочному распределению.

Ранее отмечалось, что вектор b=(X'X)^(-1)*X'Y.

Так как (X'X)^(-1)*X' предполагается постоянной, вектор b представляет собой линейную функцию вектора Y. И поскольку мы предполагаем, что вектор Y имеет нормальное распределение, то и b будет иметь нормальное распределение. Этот вывод - следствие того, что линейные функции нормально распределенных переменных также распределены нормально. Однако, так как обычно ковариационная матрица b неизвестна и предполагается, что b подчиняется распределению Стьюдента, которым мы в дальнейшем и будем пользоваться для проверки гипотез.

Где bi-некоторый коэффициент регрессии генеральной совокупности, Для проверки данной нулевой гипотезы Н0: bi=b0i,

Где bi-некоторый коэффициент регрессии генеральной совокупности, a b0i-предполагаемое значение этого коэффициента в генеральной совокупности. Воспользуемся статистикой:

t=(bi-b0i)/sqr(Sbii)

Дисперсия Sbii представляет собой i-й диагональный элемент матрицы Sb (ошибок bi), а квадратный корень из Sbii - это стандартная ошибка коэффициента bi. Эту нулевую гипотезу можно проверить по отношению к некоторой односторонней или двусторонней альтернативной гипотезе. Статистика t=(bi-b0i)/sqr(Sbii) подчиняется t-распределению c v=n-К-1 степенями свободы.

Значительный интерес представляет проверка гипотезы о том, что коэффициент bi, в т.ч. и b0, равен нулю в генеральной совокупности. Просто нами в процессе формирования экономических априорных предположений была допущена грубая ошибка, в результате которой в эконометрическую модель была включена незначимая предикторная переменная Xi реально не влияющая на исследуемые экономические процессы. В результате если благодаря данному критерию установлено, что угловой коэффициент bi не отличается существенно от нуля, то соответствующая этому коэффициенту переменная Xi не вносит статистически значимого вклада в уравнение регрессии, т.к. реально не влияет на исследуемые в модели экономические процессы. Иногда, в ряде случаев, нас интересует проверка гипотезы о том, что угловой коэффициент равен 'некоторой константе', отличной от нуля. Данная гипотеза также опирается на предположении, что эта 'некоторая константа' соответствует средней величине коэффициента bi при переменной Xi в генеральной совокупности.

NB. Внимание, этот метод проверки заслуживает доверия лишь в ситуациях, когда участвующие в регрессионной модели предсказывающие переменные Xi взаимно не коррелированны (или достаточно слабо взаимно коррелированны). Действительно, в моделях множественной регрессии c взаимно коррелированными предсказывающими переменными вполне реальны ситуации, когда проверка, основанная на t=(bi-b0i)/sqr(Sbii), свидетельствует о том, что все bi статистически незначимо отличаются от нуля, в то время как на самом деле все предсказывающие переменные существенно влияют на функцию регрессии.

Поэтому в общем случае, и в первую очередь в ситуациях, характеризующихся мультиколлинеарностью, т.е. высокой взаимозависимостью предсказывающих переменных Xi, более эффективен метод, основанный на последовательном пересчете и сравнении значений множественного коэффициента корреляции. Он рассчитывается для различных вариантов комбинаций предсказывающих переменных, включаемых в модель. Он взят в основу большинства алгоритмов так называемой пошаговой регрессии.

Сокращенный текст анализ по функции/функционалу - G1

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: G1.
Переменная X1: Farms.
Переменная X2: Forestry.
Переменная X3: Mining.
Переменная X4: Utilities.
Переменная X5: Construction.


5

G1_1

G1_2

G1_3

G1_4

G1_5


G1

Farms

Forestry

Mining

Utilities

Construction

1998

37638

923

27774

775

6489

1677

1999

41284

843

30629

557

7797

1458

2000

36442

568

23566

492

10438

1378

2001

38261

639

22938

404

13101

1179

2002

36063

629

23802

742

9498

1392

2003

35986

578

22600

918

10402

1488

2004

39079

612

26626

967

9426

1448

2005

44011

592

29916

864

11082

1557

2006

42109

254

28214

993

10875

1773

2007

37740

373

23000

1019

11319

2029

2008

37616

416

20996

1093

12979

2132

2009

30210

361

18227

1133

8662

1827

2010

29962

496

17805

1003

8706

1952

Дескриптивный, описательный анализ данных

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X5 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=37415; ErrMX=1122; Sx=4046; Var=0.108; Me=37638; Ex=0.394; As=-0.507; Min=29962; Max=44011; Inter=14049; Sum=486401;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X1:

Mx=560.31; ErrMX=51.89; Sx=187.09; Var=0.334; Me=578.00; Ex=0.104; As=0.373; Min=254.00; Max=923.00; Inter=669.00; Sum=7284;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X2:

Mx=24315; ErrMX=1137; Sx=4099; Var=0.169; Me=23566; Ex=-0.858; As=-0.0115; Min=17805; Max=30629; Inter=12824; Sum=316093;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X3:

Mx=843.08; ErrMX=65.03; Sx=234.46; Var=0.278; Me=918.00; Ex=-0.618; As=-0.745; Min=404.00; Max=1133; Inter=729.00; Sum=10960;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X4:

Mx=10060; ErrMX=529.28; Sx=1908; Var=0.190; Me=10402; Ex=-0.200; As=-0.0853; Min=6489; Max=13101; Inter=6612; Sum=130774;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X5:

Mx=1638; ErrMX=79.56; Sx=286.84; Var=0.175; Me=1557; Ex=-0.875; As=0.316; Min=1179; Max=2132; Inter=953.00; Sum=21290;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

G1

G1_1

G1_2

G1_3

G1_4

G1_5


Farms

Forestry

Mining

Utilities

Construction

1998

2.5%

73.8%

2.1%

17.2%

4.5%

1999

2.0%

74.2%

1.3%

18.9%

3.5%

2000

1.6%

64.7%

1.4%

28.6%

3.8%

2001

1.7%

60.0%

1.1%

34.2%

3.1%

2002

1.7%

66.0%

2.1%

26.3%

3.9%

2003

1.6%

62.8%

2.6%

28.9%

4.1%

2004

1.6%

68.1%

2.5%

24.1%

3.7%

2005

1.3%

68.0%

2.0%

25.2%

3.5%

2006

0.6%

67.0%

2.4%

25.8%

4.2%

2007

1.0%

60.9%

2.7%

30.0%

5.4%

2008

1.1%

55.8%

2.9%

34.5%

5.7%

2009

1.2%

60.3%

3.8%

28.7%

6.0%

2010

1.7%

59.4%

3.3%

29.1%

6.5%

MX

0.015

0.647

0.023

0.270

0.045

Данную таблицу можно представить в виде линейной эконометрической зависимости:

G1=18863+0,015*G1_1+0,647*G1_2+0,023*G1_3+0,270*G1_4+0,045*G1_5

Анализ регрессионного уравнения

Y=1.8298*X1^0.0269*X2^0.6566*(X3^-0.0042)*X4^0.2593*X5^0.1046

Beta

Sb

Tstudent

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

1.830

0.331

1.828

1.895

0.997

295.2

449.3825

3.865969

196466285

610167.4

0.027

0.011

2.558








0.657

0.015

44.618








-0.004

0.013

0.338








0.259

0.015

17.167








0.105

0.024

4.436








Determinant

0.000









1.000

0.198

0.896

-0.285

0.255

-0.285





0.198

1.000

0.469

-0.616

-0.529

-0.544





0.896

0.469

1.000

-0.358

-0.192

-0.390





-0.285

-0.616

-0.358

1.000

-0.019

0.802





0.255

-0.529

-0.192

-0.019

1.000

0.039





Проведенный корреляционный анализ массива Y и X1... Х5 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 2. Эта переменная обозначена как: Farms. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х5 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х5).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=295.24.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х5.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.997. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.995. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 449.38, что больше, чем F-критическое значение 3.866. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.895 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило.

Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, которая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 1.830 Sb0 = 0.331 T0наб. = 1.828 Исследовать

X1 b1 = 0.0269 Sb1 = 0.0105 T1наб. = 2.558 Значим.

X2 b2 = 0.657 Sb2 = 0.0147 T2наб. = 44.62 Значим.

X3 b3 = -0.0042 Sb3 = 0.0126 T3наб. = 0.338 Исследовать

X4 b4 = 0.259 Sb4 = 0.0151 T4наб. = 17.17 Значим.

X5 b5 = 0.105 Sb5 = 0.0236 T5наб. = 4.436 Значим.

Сокращенный текст анализ по функции/функционалу - G2.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: G2.
Переменная X1: Wood products.
Переменная X2: Nonmetallic mineral products.
Переменная X3: Primary metals.
Переменная X4: Fabricated metal products.
Переменная X5: Machinery.
Переменная X6: Computer and electronic products.
Переменная X7: Electrical equipment, appliances, and components.
Переменная X8: Motor vehicles&Other transportation.


8

G2_1

G2_2

G2_3

G2_4

G2_5

G2_6

G2_7

G2_8


G2

Wood products

Nonmetallic mineral products

Primary metals

Fabricated metal products

Machinery

Computer and electronic products

Electrical equipment, appliances, and components

Motor vehicles&Other transportation

1998

38082

24492

1342

483

4347

1814

3498

1270

836

1999

39730

26673

1420

394

4205

1722

3221

1182

913

2000

38444

25660

1248

414

4290

1606

3369

965

892

2001

33970

22940

1080

331

4032

1658

2385

742

802

2002

33465

22327

1123

332

4283

1421

2398

752

829

2003

33378

22896

1073

313

4032

1367

2365

679

653

2004

39574

27682

1231

466

4333

1534

2647

881

800

2005

41842

28612

1327

485

4730

1770

2984

1040

894

2006

42200

28396

1432

571

5097

1774

2917

1168

845

2007

38654

24506

1344

503

5708

1950

2279

1316

1048

2008

34339

20196

1193

565

5995

1984

2522

1167

717

2009

23039

13711

695

343

3744

1447

1948

734

417

2010

25299

14319

713

429

4029

1664

2882

753

510

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X8 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=35540; ErrMX=1634; Sx=5892; Var=0.166; Me=38082; Ex=0.626; As=-1.106; Min=23039; Max=42200; Inter=19161; Sum=462016;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X1:

Mx=23262; ErrMX=1332; Sx=4802; Var=0.206; Me=24492; Ex=0.450; As=-1.054; Min=13711; Max=28612; Inter=14901; Sum=302410;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X2:

Mx=1171; ErrMX=66.03; Sx=238.08; Var=0.203; Me=1231; Ex=0.634; As=-1.150; Min=695.00; Max=1432; Inter=737.00; Sum=15221;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X3:

Mx=433.00; ErrMX=24.37; Sx=87.87; Var=0.203; Me=429.00; Ex=-1.169; As=0.139; Min=313.00; Max=571.00; Inter=258.00; Sum=5629;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X4:

Mx=4525; ErrMX=188.73; Sx=680.47; Var=0.150; Me=4290; Ex=0.772; As=1.287; Min=3744; Max=5995; Inter=2251; Sum=58825;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X5:

Mx=1670; ErrMX=53.56; Sx=193.12; Var=0.116; Me=1664; Ex=-0.793; As=0.0128; Min=1367; Max=1984; Inter=617.00; Sum=21711;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X6:

Mx=2724; ErrMX=128.82; Sx=464.48; Var=0.171; Me=2647; Ex=-0.835; As=0.194; Min=1948; Max=3498; Inter=1550; Sum=35415;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X7:

Mx=973.00; ErrMX=63.67; Sx=229.56; Var=0.236; Me=965.00; Ex=-1.703; As=0.139; Min=679.00; Max=1316; Inter=637.00; Sum=12649;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X8:

Mx=781.23; ErrMX=47.40; Sx=170.89; Var=0.219; Me=829.00; Ex=0.762; As=-0.908; Min=417.00; Max=1048; Inter=631.00; Sum=10156;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

G2

G2_1

G2_2

G2_3

G2_4

G2_5

G2_6

G2_7

G2_8


Wood products

Nonmetallic mineral products

Primary metals

Fabricated metal products

Machinery

Computer and electronic products

Electrical equipment, appliances, and components

Motor vehicles&Other transportation

1998

64.3%

3.5%

1.3%

11.4%

4.8%

9.2%

3.3%

2.2%

1999

67.1%

3.6%

1.0%

10.6%

4.3%

8.1%

3.0%

2.3%

2000

66.7%

3.2%

1.1%

11.2%

4.2%

8.8%

2.5%

2.3%

2001

67.5%

3.2%

1.0%

11.9%

4.9%

7.0%

2.2%

2.4%

2002

66.7%

3.4%

1.0%

12.8%

4.2%

7.2%

2.2%

2.5%

2003

68.6%

3.2%

0.9%

12.1%

4.1%

7.1%

2.0%

2.0%

2004

69.9%

3.1%

1.2%

10.9%

3.9%

6.7%

2.2%

2.0%

2005

68.4%

3.2%

1.2%

11.3%

4.2%

7.1%

2.5%

2.1%

2006

67.3%

3.4%

1.4%

12.1%

4.2%

6.9%

2.8%

2.0%

2007

63.4%

3.5%

1.3%

14.8%

5.0%

5.9%

3.4%

2.7%

2008

58.8%

3.5%

1.6%

17.5%

5.8%

7.3%

3.4%

2.1%

2009

59.5%

3.0%

1.5%

16.3%

6.3%

8.5%

3.2%

1.8%

2010

56.6%

2.8%

1.7%

15.9%

6.6%

11.4%

3.0%

2.0%

MX

0.650

0.033

0.012

0.130

0.048

0.078

0.027

0.022

Данную таблицу можно представить в виде линейной эконометрической зависимости:

G2=19453+0,650*G2_1+0,033*G2_2+0,012*G2_3+0,130*G2_4+0,048*G2_5+0,078*G2_6+0,027*G2_7+0,022*G2_8

Анализ регрессионного уравнения.

Y=3.0815*X1^0.6500*X2^0.0069*X3^0.0143*X4^0.1503*X5^0.0533*X6^0.0899*X7^0.0256*X8^0.0209

Beta

Sb

Tstudent

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

3.082

0.325

3.459

2.132

1.000

126.8

3238

6.00

416532287

64310

0.650

0.037

17.559








0.007

0.045

0.153








0.014

0.024

0.600








0.150

0.034

4.482








0.053

0.023

2.317








0.090

0.013

6.920








0.026

0.021

1.210








0.021

0.015

1.402








Determinant

1.71E-21









1.000

0.978

0.967

0.506

0.436

0.418

0.532

0.646

0.878


0.978

1.000

0.917

0.348

0.274

0.232

0.480

0.490

0.835


0.967

0.917

1.000

0.514

0.505

0.497

0.519

0.757

0.895


0.506

0.348

0.514

1.000

0.800

0.812

0.340

0.774

0.351


0.436

0.274

0.505

0.800

1.000

0.802

-0.038

0.706

0.473


0.418

0.232

0.497

0.812

0.802

1.000

0.307

0.850

0.472


0.532

0.480

0.519

0.340

-0.038

0.307

1.000

0.473

0.396


0.646

0.490

0.757

0.774

0.706

0.850

0.473

1.000

0.657


0.878

0.835

0.895

0.351

0.473

0.472

0.396

0.657

1.000


Проведенный корреляционный анализ массива Y и X1... Х8 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 3. Эта переменная обозначена как: Nonmetallic mineral products. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х8 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х8).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=126.80.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х8.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 3238, что больше , чем F-критическое значение 5.999. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.132 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 3.082 Sb0 = 0.325 T0наб. = 3.459 Значим.

X1 b1 = 0.650 Sb1 = 0.0370 T1наб. = 17.56 Значим.

X2 b2 = 0.0069 Sb2 = 0.0450 T2наб. = 0.153 Исследовать

X3 b3 = 0.0143 Sb3 = 0.0239 T3наб. = 0.600 Исследовать

X4 b4 = 0.150 Sb4 = 0.0335 T4наб. = 4.482 Значим.

X5 b5 = 0.0533 Sb5 = 0.0230 T5наб. = 2.317 Значим.

X6 b6 = 0.0899 Sb6 = 0.0130 T6наб. = 6.920 Значим.

X7 b7 = 0.0256 Sb7 = 0.0211 T7наб. = 1.210 Исследовать

X8 b8 = 0.0209 Sb8 = 0.0149 T8наб. = 1.402 Исследовать

Сокращенный текст анализ по функции/функционалу - G3

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: G3.
Переменная X1: Furniture&Miscellaneous.
Переменная X2: Food and beverage and tobacco products.
Переменная X3: Textile mills and textile product mills.
Переменная X4: Paper & Printing.
Переменная X5: Petroleum and coal products.
Переменная X6: Chemical products.
Переменная X7: Plastics and rubber products.


7

G3_1

G3_2

G3_3

G3_4

G3_5

G3_6


G3

Furniture & Miscellaneous

Food and beverage and tobacco products

Textile mills and textile product mills

Paper & Printing

Petroleum and coal products

Chemical products

1998

57027

1073

730

2833

36050

837

12454

1999

55342

1018

665

2669

35749

1068

11292

2000

57924

467

638

2632

38124

1669

11546

2001

54022

261

664

2339

35323

1390

11275

2002

52985

291

726

2278

33565

1647

11458

2003

53188

252

848

2012

33103

2075

11936

2004

55483

262

772

2238

33677

3077

12503

2005

60182

291

766

2522

34835

4555

13906

2006

61048

295

698

2550

36224

4440

13469

2007

66688

267

805

3093

38133

4899

15742

2008

71647

200

950

3374

39062

6057

18219

2009

55133

189

801

3092

32570

2901

12789

2010

64124

92

801

3697

36045

4855

15637

Дескриптивный, описательный анализ данных

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X7 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=58830; ErrMX=1583; Sx=5708; Var=0.0970; Me=57027; Ex=0.591; As=1.125; Min=52985; Max=71647; Inter=18662; Sum=764793;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X1:

Mx=381.38; ErrMX=84.99; Sx=306.45; Var=0.804; Me=267.00; Ex=2.383; As=1.858; Min=92.00; Max=1073; Inter=981.00; Sum=4958;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X2:

Mx=758.77; ErrMX=23.81; Sx=85.84; Var=0.113; Me=766.00; Ex=0.639; As=0.660; Min=638.00; Max=950.00; Inter=312.00; Sum=9864;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X3:

Mx=2718; ErrMX=134.57; Sx=485.20; Var=0.179; Me=2632; Ex=-0.180; As=0.617; Min=2012; Max=3697; Inter=1685; Sum=35329;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X4:

Mx=35574; ErrMX=563.26; Sx=2031; Var=0.0571; Me=35749; Ex=-0.833; As=0.220; Min=32570; Max=39062; Inter=6492; Sum=462460;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X5:

Mx=3036; ErrMX=482.67; Sx=1740; Var=0.573; Me=2901; Ex=-1.383; As=0.326; Min=837.00; Max=6057; Inter=5220; Sum=39470;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X6:

Mx=13248; ErrMX=588.66; Sx=2122; Var=0.160; Me=12503; Ex=1.061; As=1.269; Min=11275; Max=18219; Inter=6944; Sum=172226;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X7:

Mx=3114; ErrMX=94.06; Sx=339.15; Var=0.109; Me=2997; Ex=0.292; As=1.174; Min=2770; Max=3785; Inter=1015; Sum=40486;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

G3

G3_1

G3_2

G3_3

G3_4

G3_5

G3_6

G3_7


Furniture & Miscellaneous

Food and beverage and tobacco products

Textile mills and textile product mills

Paper & Printing

Petroleum and coal products

Chemical products

Plastics and rubber products

1998

1.9%

1.3%

5.0%

63.2%

1.5%

21.8%

5.3%

1999

1.8%

1.2%

4.8%

64.6%

1.9%

20.4%

5.2%

2000

0.8%

1.1%

4.5%

65.8%

2.9%

19.9%

4.9%

2001

0.5%

1.2%

4.3%

65.4%

2.6%

20.9%

5.1%

2002

0.5%

1.4%

4.3%

63.3%

3.1%

21.6%

5.7%

2003

0.5%

1.6%

3.8%

62.2%

3.9%

22.4%

5.6%

2004

0.5%

1.4%

4.0%

60.7%

5.5%

22.5%

5.3%

2005

0.5%

1.3%

4.2%

57.9%

7.6%

23.1%

5.5%

2006

0.5%

1.1%

4.2%

59.3%

7.3%

22.1%

5.5%

2007

0.4%

1.2%

4.6%

57.2%

7.3%

23.6%

5.6%

2008

0.3%

1.3%

4.7%

54.5%

8.5%

25.4%

5.3%

2009

0.3%

1.5%

5.6%

59.1%

5.3%

23.2%

5.1%

2010

0.1%

1.2%

5.8%

56.2%

7.6%

24.4%

4.7%

MX

0.007

0.013

0.046

0.607

0.050

0.224

0.053

Данную таблицу можно представить в виде линейной эконометрической зависимости:

G3=33802+0,007*G3_1+0,013*G3_2+0,046*G3_3+0,607*G3_4+0,050*G3_5+0,224*G3_6+0,053*G3_7

Анализ регрессионного уравнения.

Y=2.8922*X1^0.0121*(X2^-0.0433)*X3^0.0303*X4^0.5651*X5^0.0289*X6^0.3915*X7^0.0044

Beta

Sb

Tstudent

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

2.892

0.257

4.135

2.015

1.000

160.77

2160.37

4.82

391018576

129240

0.012

0.003

4.269








-0.043

0.023

1.898








0.030

0.013

2.280








0.565

0.033

17.286








0.029

0.004

6.559








0.392

0.043

9.031








0.004

0.026

0.171








Determinant

2.35E-20









1.000

-0.270

0.569

0.738

0.779

0.856

0.954

0.851



-0.270

1.000

-0.457

-0.118

0.126

-0.620

-0.404

-0.212



0.569

-0.457

1.000

0.403

0.067

0.664

0.764

0.574



0.738

-0.118

0.403

1.000

0.514

0.566

0.742

0.377



0.779

0.126

0.067

0.514

1.000

0.400

0.572

0.618



0.856

-0.620

0.664

0.566

0.400

1.000

0.908

0.776



0.954

-0.404

0.764

0.742

0.572

0.908

1.000

0.822



0.851

-0.212

0.574

0.377

0.618

0.776

0.822

1.000



Проведенный корреляционный анализ массива Y и X1... Х7 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 7. Эта переменная обозначена как: Chemical products. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х7 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х7).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=160.77.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х7.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.999. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 2160, что больше , чем F-критическое значение 4.818. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.015 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 2.892 Sb0 = 0.257 T0наб. = 4.135 Значим.

X1 b1 = 0.0121 Sb1 = 0.0028 T1наб. = 4.269 Значим.

X2 b2 = -0.0433 Sb2 = 0.0228 T2наб. = 1.898 Исследовать

X3 b3 = 0.0303 Sb3 = 0.0133 T3наб. = 2.280 Значим.

X4 b4 = 0.565 Sb4 = 0.0327 T4наб. = 17.29 Значим.

X5 b5 = 0.0289 Sb5 = 0.0044 T5наб. = 6.559 Значим.

X6 b6 = 0.392 Sb6 = 0.0434 T6наб. = 9.031 Значим.

X7 b7 = 0.0044 Sb7 = 0.0256 T7наб. = 0.171 Исследовать

Сокращенный текст анализ по функции/функционалу - G4.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: G4.
Переменная X1: Wholesale trade.
Переменная X2: Retail trade.
Переменная X3: Air transportation.
Переменная X4: Rail&Water transportation.
Переменная X5: Truck transportation.
Переменная X6: Transit&Other&Pipeline transportation and support activities.
Переменная X7: Warehousing and storage.


7

G4_1

G4_2

G4_3

G4_4

G4_5

G4_6

G4_7



42

44RT

481

482

484

487OS

493


G4

Wholesale trade

Retail trade

Air transportation

Rail & Water transportation

Truck transportation

Transit & Other & Pipeline transportation and support activities

Warehousing and storage

1998

23938

14873

414

640

2322

4649

774

266

1999

24808

15687

316

601

2167

5037

717

283

2000

24559

15374

277

616

2107

5059

767

359

2001

23501

14431

187

512

2054

5069

805

443

2002

25074

15644

195

474

2360

4992

918

491

2003

29492

15544

176

561

2526

9052

1105

528

2004

27954

17255

231

494

2656

5689

1138

491

2005

29873

18223

225

525

3030

6120

1229

521

2006

30287

18036

207

568

3220

6414

1271

571

2007

29405

17603

165

542

3158

6287

1090

560

2008

29077

17731

131

529

3239

5918

969

560

2009

22157

13355

70

343

2485

4290

1056

558

2010

24865

15449

80

340

2888

4553

1098

457

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X7 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=26538; ErrMX=790.99; Sx=2852; Var=0.107; Me=25074; Ex=-1.746; As=0.0340; Min=22157; Max=30287; Inter=8130; Sum=344990;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X1:

Mx=16093; ErrMX=423.45; Sx=1527; Var=0.0949; Me=15644; Ex=-0.991; As=-0.0405; Min=13355; Max=18223; Inter=4868; Sum=209205;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X2:

Mx=205.69; ErrMX=25.88; Sx=93.30; Var=0.454; Me=195.00; Ex=0.951; As=0.699; Min=70.00; Max=414.00; Inter=344.00; Sum=2674;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X3:

Mx=518.85; ErrMX=25.48; Sx=91.89; Var=0.177; Me=529.00; Ex=0.604; As=-0.991; Min=340.00; Max=640.00; Inter=300.00; Sum=6745;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X4:

Mx=2632; ErrMX=119.94; Sx=432.46; Var=0.164; Me=2526; Ex=-1.518; As=0.197; Min=2054; Max=3239; Inter=1185; Sum=34212;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X5:

Mx=5625; ErrMX=343.44; Sx=1238; Var=0.220; Me=5069; Ex=4.542; As=1.857; Min=4290; Max=9052; Inter=4762; Sum=73129;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X6:

Mx=995.15; ErrMX=51.12; Sx=184.31; Var=0.185; Me=1056; Ex=-1.301; As=-0.179; Min=717.00; Max=1271; Inter=554.00; Sum=12937;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X7:

Mx=468.31; ErrMX=28.95; Sx=104.39; Var=0.223; Me=491.00; Ex=-0.0537; As=-1.060; Min=266.00; Max=571.00; Inter=305.00; Sum=6088;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

G4

G4_1

G4_2

G4_3

G4_4

G4_5

G4_6

G4_7


42

44RT

481

482

484

487OS

493


Wholesale trade

Retail trade

Air transportation

Rail & Water transportation

Truck transportation

Transit & Other & Pipeline transportation and support activities

Warehousing and storage

1998

62.1%

1.7%

2.7%

9.7%

19.4%

3.2%

1.1%

1999

63.2%

1.3%

2.4%

8.7%

20.3%

2.9%

1.1%

2000

62.6%

1.1%

2.5%

8.6%

20.6%

3.1%

1.5%

2001

61.4%

0.8%

2.2%

8.7%

21.6%

3.4%

1.9%

2002

62.4%

0.8%

1.9%

9.4%

19.9%

3.7%

2.0%

2003

52.7%

0.6%

1.9%

8.6%

30.7%

3.7%

1.8%

2004

61.7%

0.8%

1.8%

9.5%

20.4%

4.1%

1.8%

2005

61.0%

0.8%

1.8%

10.1%

20.5%

4.1%

1.7%

2006

59.6%

0.7%

1.9%

10.6%

21.2%

4.2%

1.9%

2007

59.9%

0.6%

1.8%

10.7%

21.4%

3.7%

1.9%

2008

61.0%

0.5%

1.8%

11.1%

20.4%

3.3%

1.9%

2009

60.3%

0.3%

1.5%

11.2%

19.4%

4.8%

2.5%

2010

62.1%

0.3%

1.4%

11.6%

18.3%

4.4%

1.8%

MX

0.608

0.008

0.020

0.099

0.211

0.037

0.018

Данную таблицу можно представить в виде линейной эконометрической зависимости:

G4=15255+0,608*G4_1+0,008*G4_2+0,020*G4_3+0,099*G4_4+0,211*G4_5+0,037*G4_6+0,018*G4_7

Анализ регрессионного уравнения.

Y=4.3826*X1^0.5479*X2^0.0065*X3^0.0032*X4^0.1170*X5^0.2561*X6^0.0361*(X7^-0.0049)

Beta

Sb

Tstudent

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

4.383

0.105

14.070

2.015

1.000

50

5611

5

97602703

12424

0.548

0.019

29.358








0.007

0.007

0.909








0.003

0.016

0.193








0.117

0.015

7.768








0.256

0.007

35.494








0.036

0.013

2.731








-0.005

0.007

0.701








Determinant

1.01E-19









1.000

0.899

-0.089

0.284

0.765

0.764

0.683

0.559



0.899

1.000

0.026

0.288

0.774

0.425

0.564

0.412



-0.089

0.026

1.000

0.824

-0.426

-0.082

-0.516

-0.783



0.284

0.288

0.824

1.000

-0.180

0.322

-0.384

-0.474



0.765

0.774

-0.426

-0.180

1.000

0.329

0.781

0.698



0.764

0.425

-0.082

0.322

0.329

1.000

0.455

0.426



0.683

0.564

-0.516

-0.384

0.781

0.455

1.000

0.803



0.559

0.412

-0.783

-0.474

0.698

0.426

0.803

1.000



Проведенный корреляционный анализ массива Y и X1... Х7 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 7. Эта переменная обозначена как: Transit&Other&Pipeline transportation and support activities. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х7 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х7).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=49.85.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х7.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 5611, что больше , чем F-критическое значение 4.818. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.015 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 4.383 Sb0 = 0.105 T0наб. = 14.07 Значим.

X1 b1 = 0.548 Sb1 = 0.0187 T1наб. = 29.36 Значим.

X2 b2 = 0.0065 Sb2 = 0.0072 T2наб. = 0.909 Исследовать

X3 b3 = 0.0032 Sb3 = 0.0164 T3наб. = 0.193 Исследовать

X4 b4 = 0.117 Sb4 = 0.0151 T4наб. = 7.768 Значим.

X5 b5 = 0.256 Sb5 = 0.0072 T5наб. = 35.49 Значим.

X6 b6 = 0.0361 Sb6 = 0.0132 T6наб. = 2.731 Значим.

X7 b7 = -0.0049 Sb7 = 0.0070 T7наб. = 0.701 Исследовать

Сокращенный текст анализ по функции/функционалу - G5.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: G5.
Переменная X1: Broadcasting (except internet) and telecommunications.
Переменная X2: Other information services.
Переменная X3: Federal Reserve banks, credit intermediation, and related activities.
Переменная X4: Securities&Insurance, commodity contracts, and investments.
Переменная X5: Real estate.


5

G5_1

G5_2

G5_3

G5_4

G5_5



513

514

521CI

523

531


G5

Broadcasting (except internet) and telecommunications

Other information services

Federal Reserve banks, credit intermediation, and related activities

Securities & Insurance, commodity contracts, and investments

Real estate

1998

3578

663

630

949

387

949

1999

3958

645

636

1132

463

1082

2000

4443

664

716

1111

435

1517

2001

4714

678

800

1102

393

1741

2002

5022

681

821

1252

387

1881

2003

4747

669

719

1218

352

1789

2004

4888

642

645

1181

394

2026

2005

5501

713

689

1294

467

2338

2006

5595

740

741

1330

497

2287

2007

5225

679

677

1099

479

2291

2008

4421

611

632

829

257

2092

2009

4138

497

536

1006

305

1794

2010

6773

508

572

853

269

4571

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X5 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=4846; ErrMX=228.54; Sx=824.00; Var=0.170; Me=4747; Ex=1.402; As=0.822; Min=3578; Max=6773; Inter=3195; Sum=63003;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X1:

Mx=645.38; ErrMX=19.66; Sx=70.88; Var=0.110; Me=664.00; Ex=1.252; As=-1.273; Min=497.00; Max=740.00; Inter=243.00; Sum=8390;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X2:

Mx=678.00; ErrMX=22.82; Sx=82.27; Var=0.121; Me=677.00; Ex=-0.294; As=0.131; Min=536.00; Max=821.00; Inter=285.00; Sum=8814;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X3:

Mx=1104; ErrMX=43.93; Sx=158.41; Var=0.143; Me=1111; Ex=-0.648; As=-0.445; Min=829.00; Max=1330; Inter=501.00; Sum=14356;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X4:

Mx=391.15; ErrMX=21.73; Sx=78.36; Var=0.200; Me=393.00; Ex=-0.809; As=-0.447; Min=257.00; Max=497.00; Inter=240.00; Sum=5085;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X5:

Mx=2028; ErrMX=243.37; Sx=877.47; Var=0.433; Me=1881; Ex=6.330; As=2.075; Min=949.00; Max=4571; Inter=3622; Sum=26358;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

G5

G5_1

G5_2

G5_3

G5_4

G5_5


513

514

521CI

523

531


Broadcasting (except internet) and telecommunications

Other information services

Federal Reserve banks, credit intermediation, and related activities

Securities & Insurance, commodity contracts, and investments

Real estate

1998

18.5%

17.6%

26.5%

10.8%

26.5%

1999

16.3%

16.1%

28.6%

11.7%

27.3%

2000

14.9%

16.1%

25.0%

9.8%

34.1%

2001

14.4%

17.0%

23.4%

8.3%

36.9%

2002

13.6%

16.3%

24.9%

7.7%

37.5%

2003

14.1%

15.1%

25.7%

7.4%

37.7%

2004

13.1%

13.2%

24.2%

8.1%

41.4%

2005

13.0%

12.5%

23.5%

8.5%

42.5%

2006

13.2%

13.2%

23.8%

8.9%

40.9%

2007

13.0%

13.0%

21.0%

9.2%

43.8%

2008

13.8%

14.3%

18.8%

5.8%

47.3%

2009

12.0%

13.0%

24.3%

7.4%

43.4%

2010

7.5%

8.4%

12.6%

4.0%

67.5%

MX

0.137

0.143

0.232

0.083

0.405

Данную таблицу можно представить в виде линейной эконометрической зависимости:

G5=3550+0,125*G5_1+0,048*G5_2+0,029*G5_3+0,314*G5_4+0,405*G5_5

Анализ регрессионного уравнения.

Y=16.0878*(X1^-0.0182)*X2^0.1820*X3^0.0226*X4^0.1864*X5^0.4454

Beta

Sb

Tstudent

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

16.09

0.79

3.53

1.89

0.97

191.5

43.0

3.9

8147625

256835

-0.02

0.23

0.08








0.18

0.17

1.05








0.02

0.14

0.17








0.19

0.11

1.70








0.45

0.03

14.15








Determinant

-0









1.00

-0.07

0.07

0.12

-0.04

0.92





-0.07

1.00

0.77

0.72

0.78

-0.42





0.07

0.77

1.00

0.63

0.46

-0.25





0.12

0.72

0.63

1.00

0.75

-0.26





-0.04

0.78

0.46

0.75

1.00

-0.37





0.92

-0.42

-0.25

-0.26

-0.37

1.00





Проведенный корреляционный анализ массива Y и X1... Х5 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 2. Эта переменная обозначена как: Broadcasting (except internet) and telecommunications. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х5 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х5).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=191.55.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х5.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.968. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.946. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 43.01, что больше , чем F-критическое значение 3.866. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.895 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 16.09 Sb0 = 0.788 T0наб. = 3.528 Значим.

X1 b1 = -0.0182 Sb1 = 0.225 T1наб. = 0.0807 Исследовать

X2 b2 = 0.182 Sb2 = 0.173 T2наб. = 1.052 Исследовать

X3 b3 = 0.0226 Sb3 = 0.135 T3наб. = 0.167 Исследовать

X4 b4 = 0.186 Sb4 = 0.109 T4наб. = 1.704 Исследовать

X5 b5 = 0.445 Sb5 = 0.0315 T5наб. = 14.15 Значим.

Сокращенный текст анализ по функции/функционалу - G6.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: G6.
Переменная X1: Rental and leasing services and lessors of intangible assets.
Переменная X2: Legal services .
Переменная X3: Computer systems design and related services .
Переменная X4: Miscellaneous professional, scientific, and technical services.
Переменная X5: Management of companies and enterprises.
Переменная X6: Administrative and support services.
Переменная X7: Waste management and remediation services.
Переменная X8: Educational services.


8

G6_1

G6_2

G6_3

G6_4

G6_5

G6_6

G6_7

G6_8



532RL

5411

5415

5412OP

55

561

562

61


G6

Rental and leasing services and lessors of intangible assets

Legal services

Computer systems design and related services

Miscellaneous professional, scientific, and technical services

Management of companies and enterprises

Administrative and support services

Waste management and remediation services

Educational services

1998

15092

1565

878

389

4850

4273

1970

329

838

1999

15371

1702

877

475

4975

4220

1964

345

813

2000

16178

1995

802

514

5213

4696

2079

347

532

2001

16370

2180

786

535

5122

4811

2112

359

465

2002

17361

2177

870

548

5612

5162

2247

386

359

2003

17639

2284

923

512

5417

5417

2325

407

354

2004

17785

2215

854

487

5531

5706

2129

368

495

2005

19424

2444

879

527

6127

6170

2324

405

548

2006

19988

2721

891

538

6336

6579

2502

266

155

2007

20345

2615

903

562

6590

6215

2892

355

213

2008

20410

2670

852

559

6268

6494

2801

664

102

2009

17198

2148

750

477

5274

5631

2302

466

150

2010

17185

2117

726

465

5086

5874

2113

606

198

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X8 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=17719; ErrMX=503.18; Sx=1814; Var=0.102; Me=17361; Ex=-1.101; As=0.276; Min=15092; Max=20410; Inter=5318; Sum=230346;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X1:

Mx=2218; ErrMX=95.78; Sx=345.32; Var=0.156; Me=2180; Ex=-0.160; As=-0.321; Min=1565; Max=2721; Inter=1156; Sum=28833;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X2:

Mx=845.46; ErrMX=16.81; Sx=60.62; Var=0.0717; Me=870.00; Ex=-0.273; As=-0.883; Min=726.00; Max=923.00; Inter=197.00; Sum=10991;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X3:

Mx=506.77; ErrMX=13.31; Sx=47.99; Var=0.0947; Me=514.00; Ex=1.758; As=-1.185; Min=389.00; Max=562.00; Inter=173.00; Sum=6588;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X4:

Mx=5569; ErrMX=159.60; Sx=575.45; Var=0.103; Me=5417; Ex=-1.064; As=0.604; Min=4850; Max=6590; Inter=1740; Sum=72401;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X5:

Mx=5481; ErrMX=222.07; Sx=800.69; Var=0.146; Me=5631; Ex=-1.144; As=-0.271; Min=4220; Max=6579; Inter=2359; Sum=71248;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X6:

Mx=2289; ErrMX=80.66; Sx=290.83; Var=0.127; Me=2247; Ex=0.482; As=1.086; Min=1964; Max=2892; Inter=928.00; Sum=29760;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X7:

Mx=407.92; ErrMX=30.96; Sx=111.62; Var=0.274; Me=368.00; Ex=1.706; As=1.459; Min=266.00; Max=664.00; Inter=398.00; Sum=5303;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X8:

Mx=401.69; ErrMX=67.27; Sx=242.53; Var=0.604; Me=359.00; Ex=-0.561; As=0.592; Min=102.00; Max=838.00; Inter=736.00; Sum=5222;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

G6

G6_1

G6_2

G6_3

G6_4

G6_5

G6_6

G6_7

G6_8


532RL

5411

5415

5412OP

55

561

562

61


Rental and leasing services and lessors of intangible assets

Legal services

Computer systems design and related services

Miscellaneous professional, scientific, and technical services

Management of companies and enterprises

Administrative and support services

Waste management and remediation services

Educational services

1998

10.4%

5.8%

2.6%

32.1%

28.3%

13.1%

2.2%

5.6%

1999

11.1%

5.7%

3.1%

32.4%

27.5%

12.8%

2.2%

5.3%

2000

12.3%

5.0%

3.2%

32.2%

29.0%

12.9%

2.1%

3.3%

2001

13.3%

4.8%

3.3%

31.3%

29.4%

12.9%

2.2%

2.8%

2002

12.5%

5.0%

3.2%

32.3%

29.7%

12.9%

2.2%

2.1%

2003

12.9%

5.2%

2.9%

30.7%

30.7%

13.2%

2.3%

2.0%

2004

12.5%

4.8%

2.7%

31.1%

32.1%

12.0%

2.1%

2.8%

2005

12.6%

4.5%

2.7%

31.5%

31.8%

12.0%

2.1%

2.8%

2006

13.6%

4.5%

2.7%

31.7%

32.9%

12.5%

1.3%

0.8%

2007

12.9%

4.4%

2.8%

32.4%

30.5%

14.2%

1.7%

1.0%

2008

13.1%

4.2%

2.7%

30.7%

31.8%

13.7%

3.3%

0.5%

2009

12.5%

4.4%

2.8%

30.7%

32.7%

13.4%

2.7%

0.9%

2010

12.3%

4.2%

2.7%

29.6%

34.2%

12.3%

3.5%

1.2%

MX

0.125

0.048

0.029

0.314

0.308

0.129

0.023

0.024

Данную таблицу можно представить в виде линейной эконометрической зависимости:

G6=13633+0,125*G6_1+0,048*G6_2+0,029*G6_3+0,314*G6_4+0,308*G6_5+0,129*G6_6+0,023*G6_7+0,024*G6_8

Анализ регрессионного уравнения.

Y=7.9757*X1^0.2041*X2^0.0563*(X3^-0.1054)*X4^0.5478*X5^0.1429*X6^0.0230*X7^0.0429*X8^0.0041

Beta

Sb

Tstudent

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

7.98

0.32

6.54

2.13

1.00

86.21

663.83

6.00

39496975

29726.9

0.20

0.10

2.13








0.06

0.04

1.48








-0.11

0.08

1.34








0.55

0.11

5.01








0.14

0.10

1.44








0.02

0.07

0.33








0.04

0.01

3.17








0.00

0.01

0.58








Determinant

-0









1.00

0.96

0.32

0.71

0.97

0.94

0.91

0.25

-0.71


0.96

1.00

0.21

0.81

0.91

0.92

0.86

0.21

-0.79


0.32

0.21

1.00

0.23

0.46

0.08

0.32

-0.46

0.24


0.71

0.81

0.23

1.00

0.75

0.57

0.70

0.08

-0.58


0.97

0.91

0.46

0.75

1.00

0.84

0.90

0.05

-0.58


0.94

0.92

0.08

0.57

0.84

1.00

0.79

0.38

-0.81


0.91

0.86

0.32

0.70

0.90

0.79

1.00

0.28

-0.72


0.25

0.21

-0.46

0.08

0.05

0.38

0.28

1.00

-0.50


-0.71

-0.79

0.24

-0.58

-0.58

-0.81

-0.72

-0.50

1.00


Проведенный корреляционный анализ массива Y и X1... Х8 подтвердил правильность выбора Y.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х8).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=86.21.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х8.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.999. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.998. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 663.83, что больше , чем F-критическое значение 5.999. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.132 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 7.976 Sb0 = 0.317 T0наб. = 6.543 Значим.

X1 b1 = 0.204 Sb1 = 0.0960 T1наб. = 2.125 Значим.

X2 b2 = 0.0563 Sb2 = 0.0380 T2наб. = 1.482 Исследовать

X3 b3 = -0.105 Sb3 = 0.0785 T3наб. = 1.342 Исследовать

X4 b4 = 0.548 Sb4 = 0.109 T4наб. = 5.013 Значим.

X5 b5 = 0.143 Sb5 = 0.0989 T5наб. = 1.445 Исследовать

X6 b6 = 0.0230 Sb6 = 0.0690 T6наб. = 0.333 Исследовать

X7 b7 = 0.0429 Sb7 = 0.0135 T7наб. = 3.171 Значим.

X8 b8 = 0.0041 Sb8 = 0.0070 T8наб. = 0.584 Исследовать

Сокращенный текст анализ по функции/функционалу - G7.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: G7.
Переменная X1: Accommodation & Performing arts & Amusements, spectator sports, museums, and related activities.
Переменная X2: Food services and drinking places.
Переменная X3: Other services, except government.
Переменная X4: Federal & State & Scrap & Noncomparable, used and secondhand goods.


3

G7_1

G7_2

G7_3

G7_4



711AS

722

81

Used


G7

Accommodation & Performing arts & Amusements, spectator sports, museums, and related activities

Food services and drinking places

Other services, except government

Federal & State & Scrap & Noncomparable, used and secondhand goods

1998

6658

648

666

2887

2457

1999

6472

666

640

2842

2324

2000

6517

682

686

2775

2374

2001

6280

665

653

2669

2293

2002

7038

760

849

2677

2752

2003

7787

769

893

2595

3530

2004

6071

775

845

2513

1938

2005

5984

856

891

2486

1751

2006

6046

949

1008

2637

1452

2007

5239

909

946

2264

1120

2008

5441

775

807

2053

1806

2009

4583

598

677

1595

1713

2010

4315

668

735

1798

1114

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X4 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=6033; ErrMX=265.59; Sx=957.61; Var=0.159; Me=6071; Ex=0.0713; As=-0.220; Min=4315; Max=7787; Inter=3472; Sum=78431;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X1:

Mx=747.69; ErrMX=29.62; Sx=106.81; Var=0.143; Me=760.00; Ex=-0.527; As=0.601; Min=598.00; Max=949.00; Inter=351.00; Sum=9720;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X2:

Mx=792.00; ErrMX=34.22; Sx=123.38; Var=0.156; Me=807.00; Ex=-1.292; As=0.261; Min=640.00; Max=1008; Inter=368.00; Sum=10296;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X3:

Mx=2445; ErrMX=112.06; Sx=404.05; Var=0.165; Me=2595; Ex=0.239; As=-1.097; Min=1595; Max=2887; Inter=1292; Sum=31791;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X4:

Mx=2048; ErrMX=187.11; Sx=674.63; Var=0.329; Me=1938; Ex=0.580; As=0.589; Min=1114; Max=3530; Inter=2416; Sum=26624;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

G7

G7_1

G7_2

G7_3

G7_4


711AS

722

81

Used


Accommodation & Performing arts & Amusements, spectator sports, museums, and related activities

Food services and drinking places

Other services, except government

Federal & State & Scrap & Noncomparable, used and secondhand goods

1998

9.7%

10.0%

43.4%

36.9%

1999

10.3%

9.9%

43.9%

35.9%

2000

10.5%

10.5%

42.6%

36.4%

2001

10.6%

10.4%

42.5%

36.5%

2002

10.8%

12.1%

38.0%

39.1%

2003

9.9%

11.5%

33.3%

45.3%

2004

12.8%

13.9%

41.4%

31.9%

2005

14.3%

14.9%

41.5%

29.3%

2006

15.7%

16.7%

43.6%

24.0%

2007

17.4%

18.1%

43.2%

21.4%

2008

14.2%

14.8%

37.7%

33.2%

2009

13.0%

14.8%

34.8%

37.4%

2010

15.5%

17.0%

41.7%

25.8%

MX

0.127

0.134

0.406

0.333

Данную таблицу можно представить в виде линейной эконометрической зависимости:

G7=4032+0,127*G7_1+0,134*G7_2+0,406*G7_3+0,333*G7_4

Анализ регрессионного уравнения.

Y=2.9694*X1^0.0612*X2^0.2154*X3^0.4327*X4^0.3163

Beta

Sb

Tstudent

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

2.97

0.22

4.85

1.86

1.00

79.0

438.5

3.69

11004090

49959

0.06

0.13

0.46








0.22

0.10

2.09








0.43

0.04

9.66








0.32

0.02

14.65








Determinant

1E-18









1.00

0.09

0.10

0.84

0.89






0.09

1.00

0.94

0.14

-0.29






0.10

0.94

1.00

-0.01

-0.19






0.84

0.14

-0.01

1.00

0.57






0.89

-0.29

-0.19

0.57

1.00






Проведенный корреляционный анализ массива Y и X1... Х4 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 5. Эта переменная обозначена как: Federal&State&Scrap&Noncomparable, used and secondhand goods. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х4 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х4).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=79.02.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х4.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.995. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.993. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 438.53, что больше , чем F-критическое значение 3.687. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.860 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 2.969 Sb0 = 0.224 T0наб. = 4.849 Значим.

X1 b1 = 0.0612 Sb1 = 0.132 T1наб. = 0.465 Исследовать

X2 b2 = 0.215 Sb2 = 0.103 T2наб. = 2.089 Значим.

X3 b3 = 0.433 Sb3 = 0.0448 T3наб. = 9.658 Значим.

X4 b4 = 0.316 Sb4 = 0.0216 T4наб. = 14.65 Значим.

Сокращенный текст анализ по функции/функционалу - GII.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: GII.
Переменная X1: G1.
Переменная X2: G2.
Переменная X3: G3.
Переменная X4: G4.
Переменная X5: G5.
Переменная X6: G6.
Переменная X7: G7.

7

GII

G1

G2

G3

G4

G5

G6

G7

1998

182013

37638

38082

57027

23938

3578

15092

6658

1999

186965

41284

39730

55342

24808

3958

15371

6472

2000

184507

36442

38444

57924

24559

4443

16178

6517

2001

177118

38261

33970

54022

23501

4714

16370

6280

2002

177008

36063

33465

52985

25074

5022

17361

7038

2003

182217

35986

33378

53188

29492

4747

17639

7787

2004

190834

39079

39574

55483

27954

4888

17785

6071

2005

206817

44011

41842

60182

29873

5501

19424

5984

2006

207273

42109

42200

61048

30287

5595

19988

6046

2007

203296

37740

38654

66688

29405

5225

20345

5239

2008

202951

37616

34339

71647

29077

4421

20410

5441

2009

156458

30210

23039

55133

22157

4138

17198

4583

2010

172523

29962

25299

64124

24865

6773

17185

4315

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X7 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=186922; ErrMX=4185; Sx=15089; Var=0.0807; Me=184507; Ex=-0.229; As=-0.245; Min=156458; Max=207273; Inter=50815; Sum=2.43E+06;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X1:

Mx=37415; ErrMX=1122; Sx=4046; Var=0.108; Me=37638; Ex=0.394; As=-0.507; Min=29962; Max=44011; Inter=14049; Sum=486401;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X2:

Mx=35540; ErrMX=1634; Sx=5892; Var=0.166; Me=38082; Ex=0.626; As=-1.106; Min=23039; Max=42200; Inter=19161; Sum=462016;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X3:

Mx=58830; ErrMX=1583; Sx=5708; Var=0.0970; Me=57027; Ex=0.591; As=1.125; Min=52985; Max=71647; Inter=18662; Sum=764793;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X4:

Mx=26538; ErrMX=790.99; Sx=2852; Var=0.107; Me=25074; Ex=-1.746; As=0.0340; Min=22157; Max=30287; Inter=8130; Sum=344990;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X5:

Mx=4846; ErrMX=228.54; Sx=824.00; Var=0.170; Me=4747; Ex=1.402; As=0.822; Min=3578; Max=6773; Inter=3195; Sum=63003;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X6:

Mx=17719; ErrMX=503.18; Sx=1814; Var=0.102; Me=17361; Ex=-1.101; As=0.276; Min=15092; Max=20410; Inter=5318; Sum=230346;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X7:

Mx=6033; ErrMX=265.59; Sx=957.61; Var=0.159; Me=6071; Ex=0.0713; As=-0.220; Min=4315; Max=7787; Inter=3472; Sum=78431;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

GII

G1

G2

G3

G4

G5

G6

G7

1998

20.7%

20.9%

31.3%

13.2%

2.0%

8.3%

3.7%

1999

22.1%

21.2%

29.6%

13.3%

2.1%

8.2%

3.5%

2000

19.8%

20.8%

31.4%

13.3%

2.4%

8.8%

3.5%

2001

21.6%

19.2%

30.5%

13.3%

2.7%

9.2%

3.5%

2002

20.4%

18.9%

29.9%

14.2%

2.8%

9.8%

4.0%

2003

19.7%

18.3%

29.2%

16.2%

2.6%

9.7%

4.3%

2004

20.5%

20.7%

29.1%

14.6%

2.6%

9.3%

3.2%

2005

21.3%

20.2%

29.1%

14.4%

2.7%

9.4%

2.9%

2006

20.3%

20.4%

29.5%

14.6%

2.7%

9.6%

2.9%

2007

18.6%

19.0%

32.8%

14.5%

2.6%

10.0%

2.6%

2008

18.5%

16.9%

35.3%

14.3%

2.2%

10.1%

2.7%

2009

19.3%

14.7%

35.2%

14.2%

2.6%

11.0%

2.9%

2010

17.4%

14.7%

37.2%

14.4%

3.9%

10.0%

2.5%

MX

0.200

0.189

0.315

0.142

0.026

0.095

0.032

Данную таблицу можно представить в виде линейной эконометрической зависимости:

GII=148383+0,200*G1+0,189*G2+0,315*G3+0,142*G4+0,026*G5+0,095*G6+0,032*G7

Анализ регрессионного уравнения.

Y=6.4837*X1^0.2117*X2^0.1642*X3^0.3314*X4^0.1783*X5^0.0302*X6^0.0443*X7^0.0204

Beta

Sb

T student

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

6.48

0.09

21.95

2.02

1.00

186.10

11269

4.82

3E+09

173160

0.21

0.01

25.97








0.16

0.01

29.71








0.33

0.01

53.44








0.18

0.01

22.86








0.03

0.00

12.20








0.04

0.01

6.13








0.02

0.00

5.11








Deter

-1E-19









1.00

0.79

0.81

0.55

0.85

0.19

0.68

0.12



0.79

1.00

0.93

0.02

0.56

-0.12

0.25

0.44



0.81

0.93

1.00

0.05

0.55

-0.14

0.20

0.48



0.55

0.02

0.05

1.00

0.46

0.33

0.68

-0.58



0.85

0.56

0.55

0.46

1.00

0.37

0.81

0.15



0.19

-0.12

-0.14

0.33

0.37

1.00

0.46

-0.40



0.68

0.25

0.20

0.68

0.81

0.46

1.00

-0.30



0.12

0.44

0.48

-0.58

0.15

-0.40

-0.30

1.00



Проведенный корреляционный анализ массива Y и X1... Х7 подтвердил правильность выбора Y.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х7).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=186.10.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х7.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 11269, что больше , чем F-критическое значение 4.818. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.015 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 6.484 Sb0 = 0.0851 T0наб. = 21.95 Значим.

X1 b1 = 0.212 Sb1 = 0.0082 T1наб. = 25.97 Значим.

X2 b2 = 0.164 Sb2 = 0.0055 T2наб. = 29.71 Значим.

X3 b3 = 0.331 Sb3 = 0.0062 T3наб. = 53.44 Значим.

X4 b4 = 0.178 Sb4 = 0.0078 T4наб. = 22.86 Значим.

X5 b5 = 0.0302 Sb5 = 0.0025 T5наб. = 12.20 Значим.

X6 b6 = 0.0443 Sb6 = 0.0072 T6наб. = 6.129 Значим.

X7 b7 = 0.0204 Sb7 = 0.0040 T7наб. = 5.113 Значим.

Сокращенный текст анализ по функции/функционалу - Value Added.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: Value Added.
Переменная X1: Compensation of employees.
Переменная X2: Taxes on production and imports, less subsidies.
Переменная X3: Gross operating surplus.

3

VA

VA1_1

VA1_2

VA1_3



V001

V002

V003


Value Added

Compensation of employees

Taxes on production and imports, less subsidies

Gross operating surplus

1998

103244

60909

2967

39368

1999

110837

64429

3028

43380

2000

112038

65150

3118

43770

2001

103603

64307

3073

36223

2002

102909

64719

3150

35040

2003

101293

65346

3234

32713

2004

110387

67557

3337

39493

2005

112009

68977

3482

39550

2006

119048

73143

3672

42233

2007

116570

71425

3993

41152

2008

104946

68441

4258

32247

2009

106709

61984

3949

40776

2010

103260

62850

4122

36288

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X3 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=108219; ErrMX=1576; Sx=5681; Var=0.0525; Me=106709; Ex=-0.752; As=0.605; Min=101293; Max=119048; Inter=17755; Sum=1.41E+06;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X1:

Mx=66095; ErrMX=1005; Sx=3625; Var=0.0548; Me=65150; Ex=-0.317; As=0.587; Min=60909; Max=73143; Inter=12234; Sum=859237;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X2:

Mx=3491; ErrMX=126.34; Sx=455.51; Var=0.130; Me=3337; Ex=-1.356; As=0.524; Min=2967; Max=4258; Inter=1291; Sum=45383;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X3:

Mx=38633; ErrMX=1059; Sx=3819; Var=0.0988; Me=39493; Ex=-0.972; As=-0.397; Min=32247; Max=43770; Inter=11523; Sum=502233;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

VA

VA1_1

VA1_2

VA1_3


V001

V002

V003


Compensation of employees

Taxes on production and imports, less subsidies

Gross operating surplus

1998

59.0%

2.9%

38.1%

1999

58.1%

2.7%

39.1%

2000

58.1%

2.8%

39.1%

2001

62.1%

3.0%

35.0%

2002

62.9%

3.1%

34.0%

2003

64.5%

3.2%

32.3%

2004

61.2%

3.0%

35.8%

2005

61.6%

3.1%

35.3%

2006

61.4%

3.1%

35.5%

2007

61.3%

3.4%

35.3%

2008

65.2%

4.1%

30.7%

2009

58.1%

3.7%

38.2%

2010

60.9%

4.0%

35.1%

Данную таблицу можно представить в виде линейной эконометрической зависимости:

VA=53940+0,611*VA1_1+0,032*VA1_2+0,357*VA1_3

Анализ регрессионного уравнения.

Y=2.4247*X1^0.6045*X2^0.0351*X3^0.3515

beta

Sb

T student

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

2.42

0.11

7.80

1.83

1.00

192.08

3496

3.63

4E+08

332060

0.60

0.01

57.83








0.04

0.00

7.82








0.35

0.01

65.93








Det

-2E-17









1.00

0.76

0.16

0.75







0.76

1.00

0.34

0.14







0.16

0.34

1.00

-0.21







0.75

0.14

-0.21

1.00







Проведенный корреляционный анализ массива Y и X1... Х3 подтвердил правильность выбора Y.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х3).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=192.08.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х3.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.999. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.999. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 3496, что больше , чем F-критическое значение 3.633. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.833 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 2.425 Sb0 = 0.114 T0наб. = 7.800 Значим.

X1 b1 = 0.605 Sb1 = 0.0105 T1наб. = 57.83 Значим.

X2 b2 = 0.0351 Sb2 = 0.0045 T2наб. = 7.815 Значим.

X3 b3 = 0.351 Sb3 = 0.0053 T3наб. = 65.93 Значим.

Сокращенный текст анализ по функции/функционалу - GO.

Для дальнейшего анализа введем следующие сокращенные обозначения для функции и всех переменных.
Функция Y: GO.
Переменная X1: VA.
Переменная X2: GII.

2

GO

VA

GII

1998

285257

103244

182013

1999

297802

110837

186965

2000

296545

112038

184507

2001

280721

103603

177118

2002

279917

102909

177008

2003

283510

101293

182217

2004

301221

110387

190834

2005

318826

112009

206817

2006

326321

119048

207273

2007

319866

116570

203296

2008

307897

104946

202951

2009

263167

106709

156458

2010

275783

103260

172523

Дескриптивный, описательный анализ данных.

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X2 по следующим показателям:

Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.

Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.

Функция Y:

Mx=295141; ErrMX=5325; Sx=19198; Var=0.0650; Me=296545; Ex=-0.911; As=0.167; Min=263167; Max=326321; Inter=63154; Sum=3.84E+06;

График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.

Переменная X1:

Mx=108219; ErrMX=1576; Sx=5681; Var=0.0525; Me=106709; Ex=-0.752; As=0.605; Min=101293; Max=119048; Inter=17755; Sum=1.41E+06;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

Переменная X2:

Mx=186922; ErrMX=4185; Sx=15089; Var=0.0807; Me=184507; Ex=-0.229; As=-0.245; Min=156458; Max=207273; Inter=50815; Sum=2.43E+06;

График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.

GO

VA

GII

1998

36.2%

63.8%

1999

37.2%

62.8%

2000

37.8%

62.2%

2001

36.9%

63.1%

2002

36.8%

63.2%

2003

35.7%

64.3%

2004

36.6%

63.4%

2005

35.1%

64.9%

2006

36.5%

63.5%

2007

36.4%

63.6%

2008

34.1%

65.9%

2009

40.5%

59.5%

2010

37.4%

62.6%

MX

0.367

0.633

Данную таблицу можно представить в виде линейной эконометрической зависимости:

GO=137119+0,367*VA+0,633*GII

Анализ регрессионного уравнения.

Y=1.9936*X1^0.3705*X2^0.6270

Beta

Sb

T
student

Tкрит

R2

SeY

Fнабл

Fкрит

ST

SE

1.99

0.06

12.18

1.81

1.00

252

34709

3.71

4E+09

637057

0.37

0.01

60.05








0.63

0.00

160.38








Det

2E-16









1.00

0.79

0.97








0.79

1.00

0.63








0.97

0.63

1.00








Проведенный корреляционный анализ массива Y и X1... Х2 подтвердил правильность выбора Y.

Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х2).

Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=252.40.

Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х2.

Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.

В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.

Применим F-статистику, чтобы определить, является ли этот результат случайным.

Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.

Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.

Используя односторонний тест. F-наблюдаемое равно 34709, что больше , чем F-критическое значение 3.708. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.

Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.

Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.812 (Критерий Student-а).

На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.

Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.

Ниже приводятся полученные результаты:

X0 b0 = 1.994 Sb0 = 0.0566 T0наб. = 12.18 Значим.

X1 b1 = 0.371 Sb1 = 0.0062 T1наб. = 60.05 Значим.

X2 b2 = 0.627 Sb2 = 0.0039 T2наб. = 160.38 Значим.