РефератыОстальные рефераты«А«Анализ модели множественной линейной регрессии»

«Анализ модели множественной линейной регрессии»

Министерство образования и науки Украины


Донецкий Национальный университет


Кафедра теории вероятности


и математической статистики


специальность


«математическая экономика»


Курсовая работа на тему


«Анализ модели множественной линейной регрессии»


Донецк 2006


План


Введение………………………………………………………………….2


1. Описание модели и предварительный анализ……………………….5


2. Гетероскедастичность


2.1 Гетероскедастичность и ее последствия……………………..6


2.2 Обнаружение гетероскедастичности…………………………7


3. Автокорреляция


3.1 Автокорреляция и ее последствия…………………………...12


3.2 Обнаружение автокорреляции первого порядка:


критерий Дарбина-Уотсона……………………………………………..13


4. Мультиколлинеарность


4.1. Мультиколлинеарность и ее последствия…………………..16


4.2 Обнаружение мультиколлинеарности……………………….17


5. Спецификация модели………………………………………………...18


6. Анализ особенностей модели…………………………………………23


7. Список использованной литературы…………………………………24


8. Приложение 1. Исходные данные…………………………………….25


9. Приложение 2. Стандартизированные данные………………………26


10. Приложение 3. Пример применения метода


Голдфельда-Квандта……………………………………………………..27


Введение


Множественная линейная регрессия является обобщением парной линейной регрессии на случай, когда зависимая переменная гипотетически связана более чем с одной независимой переменной. Вследствие этого многие элементы анализа множественной линейной регрессии совпадают с элементами анализа парной регрессии (как то оценка дисперсии коэффициентов регрессии, проверка гипотезы об их значимости, вычисление коэффициента детерминации и т.д.) Для множественной линейной регрессии, построенной методом наименьших квадратов, также имеет место теорема Гаусса-Маркова
:


Предположим, что , где Х – детерминированная матрица , имеющая максимальный ранг и


1.


2. ;


3. ;


4. ,


тогда оценка метода наименьших квадратов является несмещенной, эффективной и состоятельной.


Метод наименьших квадратов применяется в предположении, что кроме условий 1-4 теоремы Гаусса-Маркова выполняются также следующие требования:


5. Модель является линейной относительно параметров;


6.Между объясняющими переменными нет строгой или сильной зависимости;


7. Ошибка имеет гауссовское распределение с параметрами 0 и .


Нарушение хотя бы одного из предположений МНК приводит к ухудшению качества модели. В этом случае оценку нельзя считать несмещенной, эффективной и состоятельной. Нарушение второго условия приводит к гетероскедастичности, третьего – к автокорреляции, шестого – к мультиколлинеарности. Обнаружение этих явлений является необходимым элементом анализа множественной линейной регрессии. В данной работе приведено теоретическое описание методов обнаружения автокорреляции, гетероскедастичности и мультиколлинеарности, а также применение этих методов на конкретном примере.


Не менее важной задачей эконометриста есть правильная спецификация модели (ибо добавление переменной, которая не должна присутствовать в модели, равно как и отсутствие переменной, которая должна содержаться в ней, существенно ухудшает качество модели) и анализ ее особенностей. Этот аспект также будет рассмотрен в данной работе.


1. Описание модели и предварительный анализ


В нашем исследовании этапы анализа множественной парной регрессии будут рассматриваться на примере конкретной модели вида


. (1.1)


Данные, на основе которых строится эта модель приведены в Приложении 1. Оценки коэффициентов регрессии, полученные методом наименьших квадратов приведены в Таблице 1.1.


Таблица 1.1














b4


b3


b2


b1


b0


0,878172


-0,94682


-0,78627


0,224341


75,57982



Однако вследствие того, что исходные данные выражены в различных единицах измерения, имеет смысл перейти к так называемой стандартизированной форме, т.е. центрировать и нормировать исходные данные (см. Приложение 2). Таким образом мы приводим их к сопоставимому виду. Модель в этом случае будет иметь вид


. (1.2)


Коэффициенты для этой новой модели соответственно равны












b4stand


b3stand


b2stand


b1stand


0,142938


-0,68549


-0,00833


0,038692



А уравнение множественной линейной регрессии записывается следующим образом


. (1.3)


Коэффициент детерминации для данной модели равен 0,689985. Проведена проверка на адекватность с помощью критерия Фишера. Модель признана адекватной. В результате проверки на статистическую значимость выяснилось, что значимым является только коэффициент b3stand.


Таким образом, часть стандартной процедуры анализа общая для парной и множественной линейной регрессии завершена, и можно перейти к элементам анализа, более характерным для множественной регрессии.


2. Гетероскедастичность


2.1 Гетероскедастичность и ее последствия


Во втором условии Гаусса—Маркова утверждается, что дисперсия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Случайный член в каждом наблюдении имеет только одно значение, и может возникнуть вопрос о том, что означает его «дисперсия».


Имеется в виду его возможное поведение до того, как сделана выборка. Когда мы записываем модель (1.1), первые два условия Гаусса—Маркова указывают, что случайные члены , , ..., в n наблюдениях появляются на основе вероятностных распределений, имеющих нулевое математическое ожидание и одну и ту же дисперсию. Их фактические значения в выборке иногда будут положительными, иногда — отрицательными, иногда — относительно далекими от нуля, иногда.— относительно близкими к нулю, но у нас нет причин ожидать появления особенно больших отклонений в любом данном наблюдении. Другими словами, вероятность того, что величина примет какое-то данное положительное (или отрицательное) значение, будет одинаковой для всех наблюдений. Это условие известно как гомоскедастичность, что означает «одинаковый разброс».


Вместе с тем для некоторых выборок, возможно, более целесообразно предположить, что теоретическое распределение случайного члена является разным для различных наблюдений в выборке. Математически гомоскедастичность и гетероскедастичность могут определяться следующим образом: Гомоскедастичность: Var () = постоянна для всех наблюдений; Гетероскедастичность: Var () = , она не обязательно одинакова для всех i.


Для чего вводится требование об отсутствии гетероскедастичности? Во-первых, желательно, чтобы дисперсия МНК оценок была наименьшей, т.е. чтобы они обеспечивали максимальную точность. При отсутствии гетероскедастичности обычные коэффициенты регрессии имеют наиболее низкую дисперсию среди всех несмещенных оценок, являющихся линейными функциями от наблюдений у. Если имеет место гетероскедастичность, то оценки МНК, которые мы до сих пор использовали, неэффективны. Можно, по меньшей мере в принципе, найти другие оценки, которые имеют меньшую дисперсию и, не менее, являются несмещенными. Вторая, не менее важная причина заключается в том, что сделанные оценки стандартных ошибок коэффициентов регрессии будут неверны. Они вычисляется на основе предположения о том, что распределение случайного члена гомоскедастично; если это не так, то они неверны. Вполне вероятно, что стандартные ошибки будут занижены, а следовательно, t-статистика — завышена, будет получено неправильное представление о точности оценки уравнения регрессии. Возможно, будет принята гипотеза, что коэффициент значимо отличается от нуля данном уровне значимости, тогда как в действительности это не так.


2.2 Обнаружение гетероскедастичности


Очень часто появление проблемы гетероскедастичности можно предвидеть заранее, основываясь на знании характера данных. В таких случаях можно предпринять соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии, и это позволит уменьшить или, возможно, устранить необходимость формальной проверки. К настоящему времени для такой проверки предложено большое число тестов (и, соответственно, критериев для них). Мы рассмотрим три обычно используемых теста (критерия), в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющих переменных: тест ранговой корреляции Спирмена, тест Голдфелда—Квандта и тест Глейзера.


Тест ранговой корреляции Спирмена


При выполнении теста ранговой корреляции Спирмена предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения, и поэтому в регрессии, оцениваемой с помощью МНК; абсолютные величины остатков и значения объясняющих переменных будут коррелированы. Данные по и остатки упорядочиваются, и коэффициент ранговой корреляции определяется как


, (2.2.1)


где — разность между рангом и рангом е. Если предположить, что коэффициент корреляции для генеральной совокупности равен нулю, то коэффициент ранговой корреляции имеет нормальное распределение с математическим ожиданием 0 и дисперсией в больших выборках. Следовательно, соответствующая тестовая статистика равна , и при использовании двустороннего критерия нулевая гипотеза об отсутствии гетероскедастичности будет отклонена при уровне значимости в 5%, если она превысит 1,96, и при уровне значимости в 1%, если она превысит 2,58.


Применим тест ранговой корреляции Спирмена к нашей модели. Для простоты изложения подробные расчеты приведены лишь для .



























































































































































































упорядоченная х1


ранг


упорядоченная |e|


ранг


D



-1,849459746


7


0,008280966


8


-1


1


-1,388153599


3


0,024533337


2


1


1


-1,270872375


1


0,066601421


18


-17


289


-1,239597381


2


0,109125921


7


-5


25


-1,106678661


5


0,109137124


20


-15


225


-1,091041164


12


0,115128486


15


-3


9


-1,059766171


6


0,129180745


12


-6


36


-0,856478716


4


0,179692968


24


-20


400


-0,137153876


17


0,184931495


17


0


0


-0,082422638


22


0,200673797


10


12


144


-0,07460389


11


0,274351484


22


-11


121


0,050496083


9


0,321946398


23


-14


196


0,292877279


20


0,328435011


1


19


361


0,535258475


14


0,365273023


11


3


9


0,535258475


19


0,39452205


6


13


169


0,566533468


15


0,458740222


14


1


1


0,60562721


8


0,54427352


16


-8


64


0,746364678


16


0,616338961


19


-3


9


0,769820923


21


0,64321145


5


16


256


0,840189658


24


0,649611436


13


11


121


1,082570854


18


0,725844891


9


9


81


1,184214581


13


0,74336366


4


9


81


1,27803956


10


1,186499516


21


-11


121


1,668976974


23


1,47627288


3


20


400


коэффициент ранговой корреляции Спирмена


-0,356521739



3120


тестовая статистика


-1,709818195



(тестовая статистика для =1,447090034)


(тестовая статистика для =0,796525062)


(тестовая статистика для =0,492094017)


Т.к. статистики по модулю меньше 1,96, то при уровне значимости 0,05 нет оснований отвергнуть нулевую гипотезу об отсутствии гетероскедастичности.


Тест Голдфелда-Квандта


Вероятно, наиболее популярным формальным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом . При проведении проверки по этому критерию предполагается, что стандартное отклонение () распределения вероятностей пропорционально значению в этом наблюдении. Предполагается также, что случайный член распределен нормально и не подвержен автокорреляции.


Все наблюдений в выборке упорядочиваются по величине, после чего оцениваются отдельные регрессии для первых и для последних наблюдений; средние наблюдений отбрасываются. Если предположение относительно природы гетероскедастичности верно, то дисперсия и в последних наблюдениях будет больше, чем в первых и это будет отражено в сумме квадратов остатков в двух указанных «частных регрессиях. Обозначая суммы квадратов остатков в регрессиях для первых и последних наблюдений соответственно через RSS1 и RSS2, рассчитаем отношение RSS2/RSS1, которое имеет Г-распределение с (— k— 1) и (—k— 1) степенями свободы, где k — число объясняющих переменных в регрессионном уравнении. Мощность критерия зависит от выбора отношению к n. Основываясь на результатах некоторых проведенных ими экспериментов, С. Голдфелд и Р. Квандт утверждают, что должно составлять порядка 11, когда n= 30, и порядка 22, когда n = 60.


Метод Голдфелда—Квандта может также использоваться для проверки гетероскедастичность при предположении, что, обратно пропорционально . При этом используется та же процедура, что и описанная выше, но тестовой статистикой теперь является показатель RSS1/RSS2, который вновь имеет Г -распределение с (— k— 1) и (—k— 1) степенями свободы.


Применим метод Голдфелда-Квандта к нашей модели. Для простоты изложения подробные расчеты приведены лишь для (см. Приложение 3).


Для







RSS2/RSS1


0,631458


RSS1/RSS2


1,583637



Для







RSS2/RSS1


0,622567


RSS1/RSS2


1,606252



Для







RSS2/RSS1


0,894035


RSS1/RSS2


1,118524



Тест Глейзера


Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности. Мы снимаем предположение о том, что , пропорционально , и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма, например


(2.2.2)


Чтобы использовать данный метод, следуёт оценить регрессионную зависимость у от Х с помощью обычного МНК, а затем вычислить абсолютные величины остатков по функции (2.2.2) для данного значения Можно построить несколько таких функций, изменяя значение. В каждом случае нулевая гипотеза об отсутствии гетероскедастичности будет отклонена, если оценка значимо отличается от нуля. Если при оценивании более чем одной функции получается значимая оценка , то ориентиром при определении характера гетероскедастичности может служить наилучшая из них. Применим тест Глейзера к нашей модели. Для простоты изложения расчеты приведены лишь для .













































-2


-1


1


2


a


0,39599


0,411648


0,410665


0,411491


S(a)


0,081442


0,075325


0,07601


0,113293


b


0,000437


0,010412


-0,03746


-0,00086


S(b)


0,000869


0,012965


0,077645


0,087282



0,011384


0,028482


0,010471


0,00000443


F


0,253322


0,644972


0,232788


0,0000974



Статистически значимых оценок получить не удалось. Дальнейший перебор гамма в данной работе не целесообразен, так как остальные критерии указывают на отсутствие гетероскедастичности. По той же причине не рассматривается тест Глейзера для остальных переменных.


Вывод: в результате применения теста ранговой корреляции Спирмена, метода Голдфельда-Квандта и теста Глейзера мы пришли к выводу, что нет основания отвергнуть гипотезу об отсутствии гетероскедастичности в нашей модели.


3. Автокорреляция


3.1 Автокорреляция и ее последствия


Автокорреляция – нарушение третьего условия теоремы Гаусса-Маркова. Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности. Коэффициенты регрессии остаются несмещенными, но становятся неэффективными, и их стандартные ошибки оцениваются неправильно (вероятно, они смещаются вниз, т. е. занижаются). Автокорреляция обычно встречается только в регрессионном анализе данных временных рядов.


3.2 Обнаружение автокорреляции первого порядка: критерий Дарбина-Уотсона


Начнем с частного случая, в котором автокорреляция подчиняется авторегрессионной схеме первого порядка:


(3.2.1)


Это означает, что величина случайного члена в любом наблюдении равна его значению в предшествующем наблюдении, умноженному на, плюс новый . данная схема оказывается авторегрессионной, поскольку е
определяется значениями этой же самой величины с запаздыванием, и схемой первого порядка, потому что в этом простом случае максимальное запаздывание равно единице. Предполагается, что значение в каждом наблюдении не зависит от его значений во всех других наблюдениях. Если положительно, то автокорреляция положительная; если отрицательно, то автокорреляция отрицательная. Если = 0, то автокорреляции нет и третье условие Гаусса—Маркова удовлетворяется. Конечно, мы не располагаем способом измерения значений случайного члена, поэтому мы не можем оценить регрессию (3.1.1) непосредственно. Тем не менее мы можем оценивать путем оценивания регрессионной зависимости е,
от
с использованием обычного МНК. При этом оценка равна


. (3.2.2)


Так как среднее значение Т остатков равно нулю, (среднее значение остатков в наблюдениях от 1 до Т—
1) и (среднее значение остатков в наблюдениях от 2 до Т)
будут близки к нулю, если выборка достаточно велика, и и будут аппроксимироваться выражениями и , соответственно.


Кроме того, будет приблизительно равно .
Следовательно, аппроксимируется выражением .


Широко известная статистика Дарбина—Уотсона определяется следующим образом:


(3.2.3)


Если автокорреляция отсутствует, то = 0, и поэтому величина DW должна близкой к двум. При наличии положительной автокорреляции величина DW, вообще говоря, будет меньше двух; при отрицательной автокорреляции она, вообще говоря, будет превышать 2. Так как должно находиться между значениями 1 и —1, то DW должно лежать между 0 и 4. Критическое значение DW при любом данном уровне значимости зависит, как можно предполагать, от числа объясняющих переменных в уравнении регрессии и от количества, наблюдений в выборке. К сожалению, оно также зависит от конкретных значений, принимаемых объясняющими переменными. Поэтому невозможно составить таблицу с указанием точных критических значений для всех возможных выборок, как это можно сделать для t и F-статистик; можно вычислить верхнюю и нижнюю границы для критического значения. Для положительной автокорреляции они обычно обозначаются как и .


Если бы мы знали значение , то могли бы сравнить с ним значение DW, рассчитанное для нашей регрессии. Если бы оказалось, что то мы не смогли бы отклонить нулевую гипотезу от отсутствии автокорреляции. В случае мы бы отклонили нулевую гипотезу и сделали вывод о наличии положительной автокорреляции.


Вместе с тем мы знаем только, что находится где-то между и и предполагает наличие трех возможностей:


1. Величина DW меньше, чем . В этом случае она будет также меньше, чем и поэтому мы сделаем вывод о наличии положительной автокорреляции.


2. Величина DW больше, чем , В этом случае она также больше критического уровня, и поэтому мы не сможем отклонить нулевую гипотезу.


З. Величина DW находится между и . В этом случае она может быть больше или меньше критического уровня. Поскольку нельзя определить, которая из двух возможностей налицо, мы не можем ни отклонить, ни принять нулевую гипотезу.


В случаях 1 и 2 тест Дарбина—Уотсона дает определенный ответ, но случай 3 относится к зоне невозможности принятия решения, и изменить создавшееся положение нельзя.


Проверка на отрицательную автокорреляцию проводится по аналогичной схеме, причем зона, содержащая критический уровень, расположена симметрично справа от 2. Величина (4- ) есть нижний предел, ниже которого признается отсутствие автокорреляции, а (4— ) — верхний предел, выше которого делается вывод о наличии отрицательной автокорреляции.


Таким образом, если DW находится между и (4- ), то нет оснований отвергать нулевую гипотезу об отсутствии автокорреляции.


Для нашей модели DW=1.75, =0,81, =1,53 (при уровне значимости 1%), а (4- )=2,47. Следовательно, в этом случае нет оснований отвергать нулевую гипотезу об отсутствии автокорреляции первого порядка.


4. Мультиколлинеарность


4.1. Мультиколлинеарность и ее последствия.


Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена — мала, то в итоге можно получить вполне хорошие оценки.


Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это — вопрос степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.


Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.


4.2 Обнаружение мультиколлинеарности


Основной способ проверки наличия мультиколлинеарности среди поясняющих переменных состоит в исследовании корреляционной матрицы, состоящей из выборочных частичных коэффициентов корреляции. Значимость одного или нескольких коэффициентов означает присутствие в регрессионной модели явления автокорреляции.


В случае двух объясняющих переменных частичный выборочный коэффициент корреляции между y и за исключением влияния имеет вид


(4.2.1)


Остальные частичные коэффициенты корреляции вычисляются аналогично. Для случая трех и более регрессоров также существуют подобные формулы, но вследствие их громоздкости представляется более приятным с практической точки зрения следующий метод: вычисляется матрица Z, обратная к матрице полной корреляции, и тогда частичный выборочный коэффициент между переменными и равен


(4.2.2)


Вычислим полной корреляции для нашей модели.
































х1


х2


х3


х4


х1


1


-0,50916


-0,664453715


0,301554799


х2


-0,509162268


1


0,741273537


-0,50786553


х3


-0,664453715


0,741274


1


-0,76295918


х4


0,301554799


-0,50787


-0,762959184


1



Вычислим матрицу Z.






















2,187050344


-0,05801


2,322440805


1,082952756


-0,05800602


2,261181


-1,974634343


-0,3406974


2,322440805


-1,97463


6,478765795


3,239841974


1,082952756


-0,3407


3,239841974


2,972269121



Вычислим теперь матрицу частичных коэффициентов корреляции
































х1


х2


х3


х4


х1


1


0,026084


-0,61698


-0,42475


х2


0,026084


1


0,515909


0,131419


х3


-0,61698


0,515909


1


-0,7383


х4


-0,42475


0,131419


-0,7383


1



Коэффициенты частичной корреляции между и остальными регрессорами значимы. Дабы окончательно убедиться в наличии линейной зависимости между объясняющими переменными построим регрессии каждой из объясняющих переменных от остальных. В каждом из этих случаев коэффициент детерминации статистически значим. Следовательно, в нашей модели присутствует мультиколлинеарность.


5. Спецификация модели


Если точно известно, какие объясняющие переменные должны быть включены в уравнение при проведении регрессионного анализа, то наша задача — ограничиться оцениванием их коэффициентов, определением доверительных интервалов для этих оценок и т. д. Однако на практике мы никогда не можем быть уверены, что уравнение специфицировано правильно. Экономическая теория должна указывать направление, но теория не может быть совершенной. Не будучи уверенными в ней, мы можем включить в уравнение переменные, которых там не должно быть, и в то же время мы можем не включить другие переменные, которые должны там присутствовать. Вообще говоря, в проблему спецификации модели входят также вопросы выбора функциональной зависимости между

y и объясняющими переменными. Но так как в данном случае нас интересует непосредственно множественная линейная регрессия, то мы не будем здесь рассматривать приемы функциональной спецификации.


Для спецификации нашей модели будем использовать следующий метод.


Сначала оценим регрессию с k объясняющими переменными (в нашем случае k=4) и объясненная сумма квадратов отклонения y от составляет . Затем добавим еще несколько переменных, доведя их общее число до m,

и обьясненная сумма квадратов возрастает до .
Таким образом, мы объясняем дополнительную величину ,
использован для этого дополнительные (m-k) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.


Используется F-тест, и соответствующая F-статистика может быть описана следующим образом: (5.1)


Поскольку
— необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется и
- необъясненная сумма квадратов отклонений в уравнении с k переменными — равняется ,
улучшение качества уравнения при добавлении (m-k) переменных, представленное как разность ,
записывается в виде выражения. Следовательно, соответствующая F-статистика равна:


, (5.2)


в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (m-k) и (n-k-1) степенями свободы.


В нашем случае будет удобно поступить следующим образом: сначала попробовать убрать из модели последовательно ,,, и в каждом из этих случаев проверить выполнение вышеописанной гипотезы. Затем проделать то же самое с комбинациями из двух и трех переменных.


Исключим из модели переменную























R


0,6893


ESS3


15,8539


RSS3


7,1461


ESS4


15,86964


RSS4


7,13036


F


0,04195


Fcr


4,3512



Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.


Исключим























R


0,689954


ESS3


15,86894


RSS3


7,13106


ESS4


15,86964


RSS4


7,13036


F


0,00188


Fcr


4,3512



Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.


Исключим























R


0,617456


ESS3


14,20149


RSS3


8,79851


ESS4


15,86964


RSS4


7,13036


F


4,44507


Fcr


4,3512



Следовательно, дополнительные переменные увеличивают возможности объяснения уравнения.


Исключим























R


0,683111


ESS3


15,71154


RSS3


7,28846


ESS4


15,86964


RSS4


7,13036


F


0,42128


Fcr


4,3512



Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.


Вывод: исключать не желательно.


Исключим теперь и .























R


0,689276


ESS2


15,85336


RSS2


7,14664


ESS4


15,86964


RSS4


7,13036


F


0,0217


Fcr


3,4668



Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.


Исключим и .























R


0,683


ESS2


15,709


RSS2


7,291


ESS4


15,86964


RSS4


7,13036


F


0,214


Fcr


3,4668



Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.


Исключим и .























R


0,6831


ESS2


15,711


RSS2


7,289


ESS4


15,86964


RSS4


7,13036


F


0,212


Fcr


3,4668



Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.


Вывод: исключение переменных и влияет на модель весьма незначительно.


Исключим теперь все переменные, кроме.























R


0,683


ESS1


15,708


RSS1


7,292


ESS4


15,86964


RSS4


7,13036


F


0,143


Fcr


3,05



Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.


Таким образом, приходим к выводу, что оптимальной будет модель, в которой y зависит только от .


Скорректированный коэффициент детерминации


, (5.3)


где k – число независимых переменных в этом случае будет равен 0,676.


6. Анализ особенностей модели


Итак, нами проведен подробный анализ множественной линейной регрессии.


В результате этого анализа мы выяснили, что в данном случае выполняется условие гомоскедастичности, отсутствует автокорреляция, но присутствует мультиколлинеарность, так как переменные ,, связаны с переменной линейной зависимостью. В ходе анализа спецификации модели мы пришли к выводу, что оптимальной будет модель с одним регрессором - . В этом случае устраняется проблема мультиколлинеарности. В пользу этого свидетельствует также тот факт, что согласно t-критерию только коэффициент при в исходной модели признан статистически значимым.


Если же взглянуть на нашу модель с точки зрения «здравого смысла», то становится очевидным, что производительность труда напрямую зависит от уровня затрат рабочего времени. И это подтверждается результатами анализа с математической точки зрения. А в свою очередь уровень затрат рабочего времени зависит от фондоёмкости, стажа, текучести, что отражено в таблице частичных выборочных коэффициентов корреляции. Таким образом, есть основания считать, что анализ модели проведен верно.



Список использованной литературы


1. Доугерти К. Введение в эконометрику: Пер. с англ. – М.: ИНФРА-М, 1997.


2.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. 2-е изд., испр. – М.: Дело, 1998.


3. Назаренко О.М. Основи економетрики: Підручник. – Київ: «Центр навчальної літератури», 2004.


Приложение 1


Исходные данные

















































































































































































Месяц


Производительность труда, у1


Фондоемкость, х1


Коэффициент текучести, х2


Уровень затрат рабочего времени, х3


Стаж, х4


1


55,4


25,6


13,4


19


7,2


2


63


37,6


12,6


17,8


5


3


73,6


34,2


14


16


12,5


4


65,4


34,4


11,8


16,1


9,4


5


56,8


34


9,6


14,7


10,2


6


78,1


48,4


8,3


14,5


9,9


7


68,8


49,9


13,4


15,2


11,7


8


58,3


46,7


12,8


13,3


7,5


9


70,2


48


14,4


13,9


13


10


82,8


54,2


11,3


11,2


10,7


11


86,5


54,9


5,9


12,4


9,9


12


85,3


52,7


7,4


10,6


12,4


13


90,2


67,9


8,8


12,2


12,6


14


86,6


48,2


8,1


12,1


16,6


15


96,4


50,7


11,2


10,4


12,8


16


86,8


64,3


4,3


9,8


13,7


17


94,8


59,6


7,2


10,7


12,9


18


90,2


45,4


2,9


8,7


15,4


19


78,6


74,7


5,4


9,3


16,6


20


93,3


50,2


1,6


9


16,1


21


88,9


58,3


4,3


6,5


11,6


22


93,9


56,4


2


4,3


16,1


23


87,9


67


8


5


17,2


24


98,2


74,7


-1


7


13,5



Приложение 2


Стандартизированные данные

















































































































































































месяц


ystand


x1stand


x2stand


x3stand


x4stand


1


-1,138703734


-1,27087


2,129500778


1,817988473


-1,07758


2


-1,356882333


-1,2396


2,109497639


1,606298171


-1,15942


3


-2,253838793


-1,38815


0,249205766


0,94770612


-0,50469


4


-0,20134383


-0,85648


1,169350133


1,065311844


-1,20034


5


-0,314473474


-1,10668


-0,010835033


1,041790699


-1,40495


6


-0,007407298


-1,05977


0,649268535


0,524325516


0,027281


7


-0,459925873


-1,84946


-0,370891525


0,477283227


0,313726


8


-0,379118984


0,605627


-0,110850725


0,64193124


0,313726


9


0,235013367


0,050496


-0,410897802


0,712494674


-0,05456


10


-0,096294875


1,27804


0,70927795


0,28911407


-0,99574


11


-1,009412713


-0,0746


0,029171244


0,736015818


-0,95482


12


-0,41144174


-1,09104


0,389227735


0,359677504


0,068201


13


-0,532652072


1,184215


0,889306196


-0,22835111


-0,54561


14


-0,112456253


0,535258


-0,450904079


-0,55764714


-0,42285


15


-0,257908652


0,566533


0,509246566


0,171508347


-0,30009


16


-0,072052809


0,746365


-1,211023338


-0,7458163


-0,54561


17


0,727935386


-0,13715


-1,111007646


-1,00454889


1,541351


18


0,356223699


1,082571


-1,291035892


-0,62821057


-0,42285


19


0,170367856


0,535258


0,269208905


-0,81637973


1,459509


20


0,776419519


0,292877


-0,05084131


-0,7458163


1,00938


21


2,271346952


0,769821


-1,131010785


-1,45145064


0,354647


22


1,746102178


-0,08242


-0,05084131


-1,71018323


2,114242


23


1,649133912


1,668977


-1,471064138


-1,45145064


1,786876


24


0,671370564


0,84019


-1,431057861


-1,05159118


0,600172



Приложение 3.


Пример применения метода Голдфельда-Квандта







































































































































































x1 упорядоченное


y упорядоченное


частная регрессия


е2


-1,849459746


-0,45993


-1,4667727


1,013741


-1,388153599


-2,25384


-0,92641095


1,762065


-1,270872375


-1,1387


-0,78903085


0,122271


-1,239597381


-1,35688


-0,75239615


0,365404


-1,106678661


-0,31447


-0,5966987


0,079651


-1,091041164


-0,41144


-0,57838136


0,027869


-1,059766171


-0,00741


-0,54174666


0,285519


-0,856478716


-0,20134


-0,30362115


0,010461


-0,137153876


0,727935


0,538976829


0,035705


-0,082422638


1,746102


RSS1


3,702684


-0,07460389


-1,00941


0,050496083


0,235013


0,292877279


0,77642


0,535258475


-0,11246


0,535258475


0,170368


0,566533468


-0,25791


0,106320791


0,132663


0,60562721


-0,37912


0,134788179


0,264101


0,746364678


-0,07205


0,237270778


0,095681


0,769820923


2,271347


0,254351211


4,068272


0,840189658


0,671371


0,305592511


0,133794


1,082570854


0,356224


0,48209032


0,015842


1,184214581


-0,53265


0,556105531


1,185393


1,27803956


-0,09629


0,624427264


0,51944


1,668976974


1,649134


0,90910115


0,547648


n'


9


RSS2


6,962835


коэфф.регр. для первых n'


1,171373387


0,699635


коэфф.регр. для последних n'


0,728182764


-0,30622


RSS2/RSS1


1,880483


RSS1/RSS2


0,531778


кол-во степеней свободы


4


Fcr


6,388233


Сохранить в соц. сетях:
Обсуждение:
comments powered by Disqus

Название реферата: «Анализ модели множественной линейной регрессии»

Слов:7091
Символов:84121
Размер:164.30 Кб.