Regresja statystyczna
- określony, konkretny typ zależności funkcyjnej między zmienną objaśnianą (występującą po lewej stronie znaku równości, czyli zmienna zależna) a zmiennymi objaśniającymi (występującymi po prawej stronie znaku równości, czyli zmienne niezależne),
- zmienne posiadające ustaloną treść,
- parametry strukturalne (współczynniki występujące przy zmiennych),
- składnik losowy (zmienna losowa o nieznanej treści, opisująca czynniki wpływające na zmienną objaśnianą, nieujęte w modelu).
Zmienne występujące w modelach regresyjnych dzielimy na dwa rozłączne zbiory:
- zmienne endogeniczne (wyjaśniane przez model),
- zmienne egzogeniczne (nie są wyjaśniane przez model).
Ze względu na rolę pełnioną przez poszczególne zmienne w modelu istnieje jeszcze podział na:
- zmienne objaśniane (zmienne zależne),
- zmienne objaśniające (zmienne niezależne).
Istnieje także podział zmiennych ze względu na chwilę czasową, której dotyczą, na:
- zmienne bieżące (nieopóźnione),
- zmienne opóźnione.
Szacowanie parametrów strukturalnych modelu
Klasyczną metodę najmniejszych kwadratów stosujemy, gdy chcemy oszacować parametry strukturalne modelu regresyjnego postaci:
na podstawie zebranych danych (n jest liczbą zgromadzonych obserwacji).
Postać macierzowa tego modelu wygląda następująco:
gdzie:
- Y oznacza wektor obserwacji, czyli wektor danych empirycznych zebranych na temat zmiennej objaśnianej
- X jest macierzą obserwacji złożoną z danych empirycznych zebranych na temat każdej zmiennej
objaśniającej (pierwsza kolumna złożona jest z jedynek, ponieważ pierwszy wyraz analizowanego przez nas modelu jest wyrazem wolnym):
- oznacza wektor rzeczywistych wartości szacowanych parametrów strukturalnych:
- jest wektorem składników losowych:
Oznaczeniem estymatora parametru będzie . Natomiast wektor oszacowań parametrów to:
Model deterministyczny ma więc postać:
gdzie oznacza wartość zmiennej objaśniającej wyznaczoną z oszacowanego modelu.
Różnicę między rzeczywistą a deterministyczną wartością zmiennej objaśnianej nazywa się resztą
modelu o okresie i oznacza jak poniżej:
Wykorzystując wcześniej wprowadzone oznaczenia macierzowe można zapisać:
a, aby suma kwadratów reszt była jak najmniejsza:
w wyniku czego, otrzymujemy następujący estymator oszacowań parametrów liniowego modelu
regresyjnego:
nione następujące założenia:
1. zależności między zmiennymi modelu muszą być liniowe,
2. parametry szacowane są jedynie na podstawie danych zebranych w macierzy oraz w wektorze obserwacji,
3. model musi być stabilny w czasie,
4. nielosowe elementy macierzy oraz wektora obserwacji ustalane są w powtarzalnych próbach,
5. składnik losowy ma rozkład normalny i wartość oczekiwaną równą 0:
6. składnik losowy ma stałą wariancję:
7. nie zachodzi autokorelacja składnika losowego, co oznacza, że składniki losowe z różnych okresów
nie zależą od siebie, tak więc ich kowariancję można wyrazić następująco:
8. rząd macierzy obserwacji jest równy liczbie szacowanych parametrów:
co oznacza, że kolumny w macierzy obserwacji nie mogą być liniowo zależne, jak również liczba obserwacji $n$ musi być co najmniej równa liczbie szacowanych parametrów.
Ogólną postać modelu ściśle nieliniowego można przedstawić następująco:
gdzie:
- wektor k zmiennych objaśniających,
- wektor parametrów strukturalnych,
- dowolna funkcja rzeczywista.
Nieliniowa metoda najmniejszych kwadratów pozwala wyznaczyć składowe wektora , będącego
oceną wektora parametrów tak, aby została zminimalizowana suma kwadratów reszt, czyli:
Poszukiwanie punktu stacjonarnego funkcji S z warunku koniecznego istnienia ekstremum funkcji:
prowadzi do następującego układu równości:
Stosując odpowiednie metody rozwiązywania układów równań nieliniowych rozwiązujemy powyższy
układ równań otrzymując oszacowanie parametrów modelu.
Weryfikacja statystyczna modelu regresyjnego
do danych empirycznych.
Przyrost krańcowy zmiennej objaśnianej względem zmiennej objaśniającej jest stosunkiem
bezwzględnych przyrostów tych zmiennych, można ją przedstawić jako:
Wielkość ta podaje o ile jednostek zmieni się zmienna objaśniana , jeżeli zmienna objaśniająca
wzrośnie o jednostkę przy założeniu zasady ceteris paribus (pozostałe zmienne pozostają bez zmian).
Elastyczność krańcowa zmiennej objaśnianej względem zmiennej objaśniającej jest stosunkiem
względnych przyrostów zmiennych, można ją przedstawić jako:
Wielkość ta podaje o ile procent zmieni się zmienna objaśniana , jeżeli zmienna objaśniająca
wzrośnie o jednostkę przy założeniu zasady ceteris paribus (pozostałe zmienne pozostają bez zmian).
Standardowy błąd oszacowania parametru wyraża się wzorem:
gdzie, jest macierzą obserwacji na podstawie której oszacowano model, wielkość nazywamy
wariancją resztową, gdzie oznacza wektor reszt modelu, zaś i odnoszą się do liczby obserwacji i liczby zmiennych objaśniających w modelu,
Średni błąd względny szacunku parametru określamy natomiast wzorem:
zmiennej objaśnianej a wartościami teoretycznymi, czyli obliczonymi z oszacowanego modelu.
Innymi słowy, współczynnik determinacji informuje jaka część zmienności zmiennej objaśnianej jest
wyjaśniana przez model. Wartość tego współczynnika przedstawia wiele równoważnych wzorów, na
przykład:
gdzie i oznaczają odpowiednio wartość empiryczną i wartość teoretyczną zmiennej objaśnianej, i to średnie arytmetyczne tych wartości, a t określa oczywiście resztę modelu, czyli różnicę . Im współczynnik determinacji
jest bliższy jedynki, tym lepiej.
jak na przykład:
-
skorygowany współczynnik determinacji wyrażający się wzorem:
którego używamy jeżeli ilość obserwacji, którymi dysponujemy do szacowania modelu, jest mała;
-
niescentrowany współczynnik determinacji opisany wzorem:
dotyczący modelu w którym nie występuje wyraz wolny.
Musimy pamiętać o tym, że prawidłową interpretację współczynnika determinacji otrzymamy
wtedy, gdy model ekonometryczny jest liniowy, posiada wyraz wolny i jest oszacowany metodą najmniejszych
kwadratów dla dużej liczby obserwacji.
istotności t-Studenta. W tym celu wykorzystujemy następujące kroki.
1. Formułujemy hipotezy testu:
oznacza to, że szacowany parametr nie jest istotny statystycznie, a zmienna objaśniająca, przy której stoi, nie wywiera statystycznie istotnego wpływu na zmienną objaśnianą
co oznacza, że szacowany parametr jest istotny statystyczne, a towarzysząca mu
zmienna objaśniająca wywiera istotny wpływ na zmienną objaśnianą.
2. Obliczamy standardowy błąd szacunków parametru według wzoru:
gdzie a X oznacza macierz obserwacji, na podstawie której oszacowano model.
3. Wyznaczamy wartość statystyki:
Ma ona rozkład t-Studenta o (n − (k + 1)) stopniach swobody. Z tablic rozkładu t-Studenta
odczytujemy wartość krytyczną t* dla ustalonego poziomu istotności oraz n − (k − 1) stopni
swobody.
4. Weryfikujemy hipotezy:
- jeśli , to odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną.
- jeśli , to nie mamy podstaw do odrzucenia hipotezy zerowej.
Walda
się szczególny przypadek uogólnionego testu Walda.
-model podstawowy (P) :
- model rozszerzony (R), którym jest cały badany model:
co oznacza, że zbiór zmiennych jest nieistotny dla modelu,
co oznacza, że zbiór zmiennych jest istotny dla modelu.
- Obliczamy współczynnik determinacji badanego modelu (R).
-
Obliczamy statystykę:
Statystyka ma rozkład Fishera-Snedeckora o k i n − (k + 1) stopniach swobody.
- Odczytujemy z tablic statystycznych - wartość krytyczną rozkładu Fishera-Snedeckora dla ustalonego poziomu istotności oraz k i n − (k + 1) stopni swobody
-
Dokonujemy weryfikacji hipotezy według następujących zasad:
-jeśli to odrzucamy hipotezę czyli uznajemy cały zespół zmiennych objaśniających
za istotny dla modelu,
-jeśli to nie ma podstaw do odrzucenia hipotezy czyli przyjmujemy, że cały
zestaw zmiennych objaśniających jest dla modelu nieistotny.
Predykcja i ocena prognoz
na podstawie modelu regresyjnego. Wynik tego procesu nazywamy prognozą.
pującej postaci:
gdzie:
jest wektorem zmiennych z góry ustalonych, a
jest wektorem oszacowań parametrów rzeczywistych .
Symbol oznacza okres prognozy. Wektor wartości zmiennych objaśniających w okresie ma
zatem postać:
gdzie jest horyzontem prognozy.
Prognoza punktowa to wartość zmiennej endogenicznej w okresie prognozy, wyrażana wzorem:
- - błąd estymacji modelu,
- - błąd struktury stochastycznej modelu,
- - błąd losowy,
-
- błąd specyfikacji, czyli wybór niewłaściwej postaci analitycznej lub zmiennych objaśniających
modelu, -
- błąd warunków endogenicznych, polegający na tym, że w okresie prognozy uległy zmianie okoliczności
dotyczące zmiennej endogenicznej, oszacowany model może więc ich w pełni nie oddawać, -
- błąd warunków egzogenicznych, polegający na zmianie okoliczności dotyczących zmiennych egzogenicznych,
w związku z czym model może ich w pełni nie oddawać, - - błąd pomiaru.
Poniżej przedstawiono i omówiono wyrażające je wzory.
Błąd bezwzględny prognozy:
Błąd względny prognozy:
Średni błąd prognozy (ang. mean error):
ME powinno być bliskie zeru, co oznacza, że prognoza jest nieobciążona.
Średni absolutny błąd prognozy (ang. mean absolute error):
Porównując wartość ME i MAE można stwierdzić, czy prognozy są systematycznie niższe albo wyższe
od rzeczywistych wartości prognozowanej zmiennej.
Pierwiastek błędu średniokwadratowego (ang. root mean square error):
Jeśli wartość RMSE różni się znacząco od wartości MAE oznacza to, że wśród błędów prognozy występują
błędy o bardzo dużych wartościach.
Średni absolutny błąd procentowy (ang. mean absolute percentage error):
Wartość ta informuje o ile procent średnio różni się prognoza zmiennej objaśnianej od jej wartości
rzeczywistej.
Współczynnik rozbieżności:
Współczynnik rozbieżności jest wartością unormowaną i określa jak bardzo prognozowane wartości odbiegają
od wartości rzeczywistych. Im U jest bliższe zeru, tym prognozy wierniej oddają rzeczywiste
wartości prognozowanej zmiennej.
Literatura:
[1] Gruszczyński M., Podgórska M., Ekonometria, Szkoła Główna Handlowa, Warszawa 2008
[2] Maddala G.S., Ekonometria, Wydawnictwo Naukowe PWN, Warszawa 2013