«Анализ модели множественной линейной регрессии»

Министерство образования и науки Украины

Донецкий Национальный университет

Кафедра теории вероятности

и математической статистики

специальность

«математическая экономика»

Курсовая работа на тему

«Анализ модели множественной линейной регрессии»

Донецк 2006

План

Введение………………………………………………………………….2

1. Описание модели и предварительный анализ……………………….5

2. Гетероскедастичность

2.1 Гетероскедастичность и ее последствия……………………..6

2.2 Обнаружение гетероскедастичности…………………………7

3. Автокорреляция

3.1 Автокорреляция и ее последствия…………………………...12

3.2 Обнаружение автокорреляции первого порядка:

критерий Дарбина-Уотсона……………………………………………..13

4. Мультиколлинеарность

4.1. Мультиколлинеарность и ее последствия…………………..16

4.2 Обнаружение мультиколлинеарности……………………….17

5. Спецификация модели………………………………………………...18

6. Анализ особенностей модели…………………………………………23

7. Список использованной литературы…………………………………24

8. Приложение 1. Исходные данные…………………………………….25

9. Приложение 2. Стандартизированные данные………………………26

10. Приложение 3. Пример применения метода

Голдфельда-Квандта……………………………………………………..27

Введение

Множественная линейная регрессия является обобщением парной линейной регрессии на случай, когда зависимая переменная гипотетически связана более чем с одной независимой переменной. Вследствие этого многие элементы анализа множественной линейной регрессии совпадают с элементами анализа парной регрессии (как то оценка дисперсии коэффициентов регрессии, проверка гипотезы об их значимости, вычисление коэффициента детерминации и т.д.) Для множественной линейной регрессии, построенной методом наименьших квадратов, также имеет место теорема Гаусса-Маркова
:

Предположим, что , где Х – детерминированная матрица , имеющая максимальный ранг и

2. ;

3. ;

4. ,

тогда оценка метода наименьших квадратов является несмещенной, эффективной и состоятельной.

Метод наименьших квадратов применяется в предположении, что кроме условий 1-4 теоремы Гаусса-Маркова выполняются также следующие требования:

5. Модель является линейной относительно параметров;

6.Между объясняющими переменными нет строгой или сильной зависимости;

7. Ошибка имеет гауссовское распределение с параметрами 0 и .

Нарушение хотя бы одного из предположений МНК приводит к ухудшению качества модели. В этом случае оценку нельзя считать несмещенной, эффективной и состоятельной. Нарушение второго условия приводит к гетероскедастичности, третьего – к автокорреляции, шестого – к мультиколлинеарности. Обнаружение этих явлений является необходимым элементом анализа множественной линейной регрессии. В данной работе приведено теоретическое описание методов обнаружения автокорреляции, гетероскедастичности и мультиколлинеарности, а также применение этих методов на конкретном примере.

Не менее важной задачей эконометриста есть правильная спецификация модели (ибо добавление переменной, которая не должна присутствовать в модели, равно как и отсутствие переменной, которая должна содержаться в ней, существенно ухудшает качество модели) и анализ ее особенностей. Этот аспект также будет рассмотрен в данной работе.

1. Описание модели и предварительный анализ

В нашем исследовании этапы анализа множественной парной регрессии будут рассматриваться на примере конкретной модели вида

. (1.1)

Данные, на основе которых строится эта модель приведены в Приложении 1. Оценки коэффициентов регрессии, полученные методом наименьших квадратов приведены в Таблице 1.1.

Таблица 1.1

b4	b3	b2	b1	b0
0,878172	-0,94682	-0,78627	0,224341	75,57982

Однако вследствие того, что исходные данные выражены в различных единицах измерения, имеет смысл перейти к так называемой стандартизированной форме, т.е. центрировать и нормировать исходные данные (см. Приложение 2). Таким образом мы приводим их к сопоставимому виду. Модель в этом случае будет иметь вид

. (1.2)

Коэффициенты для этой новой модели соответственно равны

b4stand	b3stand	b2stand	b1stand
0,142938	-0,68549	-0,00833	0,038692

А уравнение множественной линейной регрессии записывается следующим образом

. (1.3)

Коэффициент детерминации для данной модели равен 0,689985. Проведена проверка на адекватность с помощью критерия Фишера. Модель признана адекватной. В результате проверки на статистическую значимость выяснилось, что значимым является только коэффициент b3stand.

Таким образом, часть стандартной процедуры анализа общая для парной и множественной линейной регрессии завершена, и можно перейти к элементам анализа, более характерным для множественной регрессии.

2. Гетероскедастичность

2.1 Гетероскедастичность и ее последствия

Во втором условии Гаусса—Маркова утверждается, что дисперсия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Случайный член в каждом наблюдении имеет только одно значение, и может возникнуть вопрос о том, что означает его «дисперсия».

Имеется в виду его возможное поведение до того, как сделана выборка. Когда мы записываем модель (1.1), первые два условия Гаусса—Маркова указывают, что случайные члены , , ..., в n наблюдениях появляются на основе вероятностных распределений, имеющих нулевое математическое ожидание и одну и ту же дисперсию. Их фактические значения в выборке иногда будут положительными, иногда — отрицательными, иногда — относительно далекими от нуля, иногда.— относительно близкими к нулю, но у нас нет причин ожидать появления особенно больших отклонений в любом данном наблюдении. Другими словами, вероятность того, что величина примет какое-то данное положительное (или отрицательное) значение, будет одинаковой для всех наблюдений. Это условие известно как гомоскедастичность, что означает «одинаковый разброс».

Вместе с тем для некоторых выборок, возможно, более целесообразно предположить, что теоретическое распределение случайного члена является разным для различных наблюдений в выборке. Математически гомоскедастичность и гетероскедастичность могут определяться следующим образом: Гомоскедастичность: Var () = постоянна для всех наблюдений; Гетероскедастичность: Var () = , она не обязательно одинакова для всех i.

Для чего вводится требование об отсутствии гетероскедастичности? Во-первых, желательно, чтобы дисперсия МНК оценок была наименьшей, т.е. чтобы они обеспечивали максимальную точность. При отсутствии гетероскедастичности обычные коэффициенты регрессии имеют наиболее низкую дисперсию среди всех несмещенных оценок, являющихся линейными функциями от наблюдений у. Если имеет место гетероскедастичность, то оценки МНК, которые мы до сих пор использовали, неэффективны. Можно, по меньшей мере в принципе, найти другие оценки, которые имеют меньшую дисперсию и, не менее, являются несмещенными. Вторая, не менее важная причина заключается в том, что сделанные оценки стандартных ошибок коэффициентов регрессии будут неверны. Они вычисляется на основе предположения о том, что распределение случайного члена гомоскедастично; если это не так, то они неверны. Вполне вероятно, что стандартные ошибки будут занижены, а следовательно, t-статистика — завышена, будет получено неправильное представление о точности оценки уравнения регрессии. Возможно, будет принята гипотеза, что коэффициент значимо отличается от нуля данном уровне значимости, тогда как в действительности это не так.

2.2 Обнаружение гетероскедастичности

Очень часто появление проблемы гетероскедастичности можно предвидеть заранее, основываясь на знании характера данных. В таких случаях можно предпринять соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии, и это позволит уменьшить или, возможно, устранить необходимость формальной проверки. К настоящему времени для такой проверки предложено большое число тестов (и, соответственно, критериев для них). Мы рассмотрим три обычно используемых теста (критерия), в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющих переменных: тест ранговой корреляции Спирмена, тест Голдфелда—Квандта и тест Глейзера.

Тест ранговой корреляции Спирмена

При выполнении теста ранговой корреляции Спирмена предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения, и поэтому в регрессии, оцениваемой с помощью МНК; абсолютные величины остатков и значения объясняющих переменных будут коррелированы. Данные по и остатки упорядочиваются, и коэффициент ранговой корреляции определяется как

, (2.2.1)

где — разность между рангом и рангом е. Если предположить, что коэффициент корреляции для генеральной совокупности равен нулю, то коэффициент ранговой корреляции имеет нормальное распределение с математическим ожиданием 0 и дисперсией в больших выборках. Следовательно, соответствующая тестовая статистика равна , и при использовании двустороннего критерия нулевая гипотеза об отсутствии гетероскедастичности будет отклонена при уровне значимости в 5%, если она превысит 1,96, и при уровне значимости в 1%, если она превысит 2,58.

Применим тест ранговой корреляции Спирмена к нашей модели. Для простоты изложения подробные расчеты приведены лишь для .

упорядоченная х1	ранг	упорядоченная \|e\|	ранг	D
-1,849459746	7	0,008280966	8	-1	1
-1,388153599	3	0,024533337	2	1	1
-1,270872375	1	0,066601421	18	-17	289
-1,239597381	2	0,109125921	7	-5	25
-1,106678661	5	0,109137124	20	-15	225
-1,091041164	12	0,115128486	15	-3	9
-1,059766171	6	0,129180745	12	-6	36
-0,856478716	4	0,179692968	24	-20	400
-0,137153876	17	0,184931495	17	0	0
-0,082422638	22	0,200673797	10	12	144
-0,07460389	11	0,274351484	22	-11	121
0,050496083	9	0,321946398	23	-14	196
0,292877279	20	0,328435011	1	19	361
0,535258475	14	0,365273023	11	3	9
0,535258475	19	0,39452205	6	13	169
0,566533468	15	0,458740222	14	1	1
0,60562721	8	0,54427352	16	-8	64
0,746364678	16	0,616338961	19	-3	9
0,769820923	21	0,64321145	5	16	256
0,840189658	24	0,649611436	13	11	121
1,082570854	18	0,725844891	9	9	81
1,184214581	13	0,74336366	4	9	81
1,27803956	10	1,186499516	21	-11	121
1,668976974	23	1,47627288	3	20	400
коэффициент ранговой корреляции Спирмена			-0,356521739		3120
тестовая статистика			-1,709818195

(тестовая статистика для =1,447090034)

(тестовая статистика для =0,796525062)

(тестовая статистика для =0,492094017)

Т.к. статистики по модулю меньше 1,96, то при уровне значимости 0,05 нет оснований отвергнуть нулевую гипотезу об отсутствии гетероскедастичности.

Тест Голдфелда-Квандта

Вероятно, наиболее популярным формальным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом . При проведении проверки по этому критерию предполагается, что стандартное отклонение () распределения вероятностей пропорционально значению в этом наблюдении. Предполагается также, что случайный член распределен нормально и не подвержен автокорреляции.

Все наблюдений в выборке упорядочиваются по величине, после чего оцениваются отдельные регрессии для первых и для последних наблюдений; средние наблюдений отбрасываются. Если предположение относительно природы гетероскедастичности верно, то дисперсия и в последних наблюдениях будет больше, чем в первых и это будет отражено в сумме квадратов остатков в двух указанных «частных регрессиях. Обозначая суммы квадратов остатков в регрессиях для первых и последних наблюдений соответственно через RSS1 и RSS2, рассчитаем отношение RSS2/RSS1, которое имеет Г-распределение с (— k— 1) и (—k— 1) степенями свободы, где k — число объясняющих переменных в регрессионном уравнении. Мощность критерия зависит от выбора отношению к n. Основываясь на результатах некоторых проведенных ими экспериментов, С. Голдфелд и Р. Квандт утверждают, что должно составлять порядка 11, когда n= 30, и порядка 22, когда n = 60.

Метод Голдфелда—Квандта может также использоваться для проверки гетероскедастичность при предположении, что, обратно пропорционально . При этом используется та же процедура, что и описанная выше, но тестовой статистикой теперь является показатель RSS1/RSS2, который вновь имеет Г -распределение с (— k— 1) и (—k— 1) степенями свободы.

Применим метод Голдфелда-Квандта к нашей модели. Для простоты изложения подробные расчеты приведены лишь для (см. Приложение 3).

Для

RSS2/RSS1

0,631458

RSS1/RSS2

1,583637

Для

RSS2/RSS1

0,622567

RSS1/RSS2

1,606252

Для

RSS2/RSS1

0,894035

RSS1/RSS2

1,118524

Тест Глейзера

Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности. Мы снимаем предположение о том, что , пропорционально , и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма, например

(2.2.2)

Чтобы использовать данный метод, следуёт оценить регрессионную зависимость у от Х с помощью обычного МНК, а затем вычислить абсолютные величины остатков по функции (2.2.2) для данного значения Можно построить несколько таких функций, изменяя значение. В каждом случае нулевая гипотеза об отсутствии гетероскедастичности будет отклонена, если оценка значимо отличается от нуля. Если при оценивании более чем одной функции получается значимая оценка , то ориентиром при определении характера гетероскедастичности может служить наилучшая из них. Применим тест Глейзера к нашей модели. Для простоты изложения расчеты приведены лишь для .

	-2	-1	1	2
a	0,39599	0,411648	0,410665	0,411491
S(a)	0,081442	0,075325	0,07601	0,113293
b	0,000437	0,010412	-0,03746	-0,00086
S(b)	0,000869	0,012965	0,077645	0,087282
	0,011384	0,028482	0,010471	0,00000443
F	0,253322	0,644972	0,232788	0,0000974

Статистически значимых оценок получить не удалось. Дальнейший перебор гамма в данной работе не целесообразен, так как остальные критерии указывают на отсутствие гетероскедастичности. По той же причине не рассматривается тест Глейзера для остальных переменных.

Вывод: в результате применения теста ранговой корреляции Спирмена, метода Голдфельда-Квандта и теста Глейзера мы пришли к выводу, что нет основания отвергнуть гипотезу об отсутствии гетероскедастичности в нашей модели.

3. Автокорреляция

3.1 Автокорреляция и ее последствия

Автокорреляция – нарушение третьего условия теоремы Гаусса-Маркова. Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности. Коэффициенты регрессии остаются несмещенными, но становятся неэффективными, и их стандартные ошибки оцениваются неправильно (вероятно, они смещаются вниз, т. е. занижаются). Автокорреляция обычно встречается только в регрессионном анализе данных временных рядов.

3.2 Обнаружение автокорреляции первого порядка: критерий Дарбина-Уотсона

Начнем с частного случая, в котором автокорреляция подчиняется авторегрессионной схеме первого порядка:

(3.2.1)

Это означает, что величина случайного члена в любом наблюдении равна его значению в предшествующем наблюдении, умноженному на, плюс новый . данная схема оказывается авторегрессионной, поскольку е
определяется значениями этой же самой величины с запаздыванием, и схемой первого порядка, потому что в этом простом случае максимальное запаздывание равно единице. Предполагается, что значение в каждом наблюдении не зависит от его значений во всех других наблюдениях. Если положительно, то автокорреляция положительная; если отрицательно, то автокорреляция отрицательная. Если = 0, то автокорреляции нет и третье условие Гаусса—Маркова удовлетворяется. Конечно, мы не располагаем способом измерения значений случайного члена, поэтому мы не можем оценить регрессию (3.1.1) непосредственно. Тем не менее мы можем оценивать путем оценивания регрессионной зависимости е,
от
с использованием обычного МНК. При этом оценка равна

. (3.2.2)

Так как среднее значение Т остатков равно нулю, (среднее значение остатков в наблюдениях от 1 до Т—
1) и (среднее значение остатков в наблюдениях от 2 до Т)
будут близки к нулю, если выборка достаточно велика, и и будут аппроксимироваться выражениями и , соответственно.

Кроме того, будет приблизительно равно .
Следовательно, аппроксимируется выражением .

Широко известная статистика Дарбина—Уотсона определяется следующим образом:

(3.2.3)

Если автокорреляция отсутствует, то = 0, и поэтому величина DW должна близкой к двум. При наличии положительной автокорреляции величина DW, вообще говоря, будет меньше двух; при отрицательной автокорреляции она, вообще говоря, будет превышать 2. Так как должно находиться между значениями 1 и —1, то DW должно лежать между 0 и 4. Критическое значение DW при любом данном уровне значимости зависит, как можно предполагать, от числа объясняющих переменных в уравнении регрессии и от количества, наблюдений в выборке. К сожалению, оно также зависит от конкретных значений, принимаемых объясняющими переменными. Поэтому невозможно составить таблицу с указанием точных критических значений для всех возможных выборок, как это можно сделать для t и F-статистик; можно вычислить верхнюю и нижнюю границы для критического значения. Для положительной автокорреляции они обычно обозначаются как и .

Если бы мы знали значение , то могли бы сравнить с ним значение DW, рассчитанное для нашей регрессии. Если бы оказалось, что то мы не смогли бы отклонить нулевую гипотезу от отсутствии автокорреляции. В случае мы бы отклонили нулевую гипотезу и сделали вывод о наличии положительной автокорреляции.

Вместе с тем мы знаем только, что находится где-то между и и предполагает наличие трех возможностей:

1. Величина DW меньше, чем . В этом случае она будет также меньше, чем и поэтому мы сделаем вывод о наличии положительной автокорреляции.

2. Величина DW больше, чем , В этом случае она также больше критического уровня, и поэтому мы не сможем отклонить нулевую гипотезу.

З. Величина DW находится между и . В этом случае она может быть больше или меньше критического уровня. Поскольку нельзя определить, которая из двух возможностей налицо, мы не можем ни отклонить, ни принять нулевую гипотезу.

В случаях 1 и 2 тест Дарбина—Уотсона дает определенный ответ, но случай 3 относится к зоне невозможности принятия решения, и изменить создавшееся положение нельзя.

Проверка на отрицательную автокорреляцию проводится по аналогичной схеме, причем зона, содержащая критический уровень, расположена симметрично справа от 2. Величина (4- ) есть нижний предел, ниже которого признается отсутствие автокорреляции, а (4— ) — верхний предел, выше которого делается вывод о наличии отрицательной автокорреляции.

Таким образом, если DW находится между и (4- ), то нет оснований отвергать нулевую гипотезу об отсутствии автокорреляции.

Для нашей модели DW=1.75, =0,81, =1,53 (при уровне значимости 1%), а (4- )=2,47. Следовательно, в этом случае нет оснований отвергать нулевую гипотезу об отсутствии автокорреляции первого порядка.

4. Мультиколлинеарность

4.1. Мультиколлинеарность и ее последствия.

Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена — мала, то в итоге можно получить вполне хорошие оценки.

Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это — вопрос степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.

Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.

4.2 Обнаружение мультиколлинеарности

Основной способ проверки наличия мультиколлинеарности среди поясняющих переменных состоит в исследовании корреляционной матрицы, состоящей из выборочных частичных коэффициентов корреляции. Значимость одного или нескольких коэффициентов означает присутствие в регрессионной модели явления автокорреляции.

В случае двух объясняющих переменных частичный выборочный коэффициент корреляции между y и за исключением влияния имеет вид

(4.2.1)

Остальные частичные коэффициенты корреляции вычисляются аналогично. Для случая трех и более регрессоров также существуют подобные формулы, но вследствие их громоздкости представляется более приятным с практической точки зрения следующий метод: вычисляется матрица Z, обратная к матрице полной корреляции, и тогда частичный выборочный коэффициент между переменными и равен

(4.2.2)

Вычислим полной корреляции для нашей модели.

	х1	х2	х3	х4
х1	1	-0,50916	-0,664453715	0,301554799
х2	-0,509162268	1	0,741273537	-0,50786553
х3	-0,664453715	0,741274	1	-0,76295918
х4	0,301554799	-0,50787	-0,762959184	1

Вычислим матрицу Z.

2,187050344	-0,05801	2,322440805	1,082952756
-0,05800602	2,261181	-1,974634343	-0,3406974
2,322440805	-1,97463	6,478765795	3,239841974
1,082952756	-0,3407	3,239841974	2,972269121

Вычислим теперь матрицу частичных коэффициентов корреляции

	х1	х2	х3	х4
х1	1	0,026084	-0,61698	-0,42475
х2	0,026084	1	0,515909	0,131419
х3	-0,61698	0,515909	1	-0,7383
х4	-0,42475	0,131419	-0,7383	1

Коэффициенты частичной корреляции между и остальными регрессорами значимы. Дабы окончательно убедиться в наличии линейной зависимости между объясняющими переменными построим регрессии каждой из объясняющих переменных от остальных. В каждом из этих случаев коэффициент детерминации статистически значим. Следовательно, в нашей модели присутствует мультиколлинеарность.

5. Спецификация модели

Если точно известно, какие объясняющие переменные должны быть включены в уравнение при проведении регрессионного анализа, то наша задача — ограничиться оцениванием их коэффициентов, определением доверительных интервалов для этих оценок и т. д. Однако на практике мы никогда не можем быть уверены, что уравнение специфицировано правильно. Экономическая теория должна указывать направление, но теория не может быть совершенной. Не будучи уверенными в ней, мы можем включить в уравнение переменные, которых там не должно быть, и в то же время мы можем не включить другие переменные, которые должны там присутствовать. Вообще говоря, в проблему спецификации модели входят также вопросы выбора функциональной зависимости между

y и объясняющими переменными. Но так как в данном случае нас интересует непосредственно множественная линейная регрессия, то мы не будем здесь рассматривать приемы функциональной спецификации.

Для спецификации нашей модели будем использовать следующий метод.

Сначала оценим регрессию с k объясняющими переменными (в нашем случае k=4) и объясненная сумма квадратов отклонения y от составляет . Затем добавим еще несколько переменных, доведя их общее число до m,

и обьясненная сумма квадратов возрастает до .
Таким образом, мы объясняем дополнительную величину ,
использован для этого дополнительные (m-k) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.

Используется F-тест, и соответствующая F-статистика может быть описана следующим образом: (5.1)

Поскольку
— необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется и
- необъясненная сумма квадратов отклонений в уравнении с k переменными — равняется ,
улучшение качества уравнения при добавлении (m-k) переменных, представленное как разность ,
записывается в виде выражения. Следовательно, соответствующая F-статистика равна:

, (5.2)

в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (m-k) и (n-k-1) степенями свободы.

В нашем случае будет удобно поступить следующим образом: сначала попробовать убрать из модели последовательно ,,, и в каждом из этих случаев проверить выполнение вышеописанной гипотезы. Затем проделать то же самое с комбинациями из двух и трех переменных.

Исключим из модели переменную

R	0,6893
ESS3	15,8539
RSS3	7,1461
ESS4	15,86964
RSS4	7,13036
F	0,04195
Fcr	4,3512