Regresja statystyczna

Regresja to metoda statystyczna służąca określaniu związku pomiędzy różnymi wielkościami i przewidywaniu nieznanych wartości jednych wielkości na podstawie znanych wartości innych.

Model regresyjny jest formalnym opisem stochastycznej zależności różnego rodzaju zjawisk od czynników je kształtujących, wyrażonym w formie odpowiedniego równania matematycznego.

Strukturę każdego równania tworzą:

określony, konkretny typ zależności funkcyjnej między zmienną objaśnianą (występującą po lewej stronie znaku równości, czyli zmienna zależna) a zmiennymi objaśniającymi (występującymi po prawej stronie znaku równości, czyli zmienne niezależne),
zmienne posiadające ustaloną treść,
parametry strukturalne (współczynniki występujące przy zmiennych),
składnik losowy (zmienna losowa o nieznanej treści, opisująca czynniki wpływające na zmienną objaśnianą, nieujęte w modelu).

Zmienne występujące w modelach regresyjnych dzielimy na dwa rozłączne zbiory:

zmienne endogeniczne (wyjaśniane przez model),
zmienne egzogeniczne (nie są wyjaśniane przez model).

Ze względu na rolę pełnioną przez poszczególne zmienne w modelu istnieje jeszcze podział na:

zmienne objaśniane (zmienne zależne),
zmienne objaśniające (zmienne niezależne).

Istnieje także podział zmiennych ze względu na chwilę czasową, której dotyczą, na:

zmienne bieżące (nieopóźnione),
zmienne opóźnione.

Szacowanie parametrów strukturalnych modelu

Klasyczna metoda najmniejszych kwadratów.

Klasyczną metodę najmniejszych kwadratów stosujemy, gdy chcemy oszacować parametry strukturalne $\alpha _{0}, \alpha _{1}, \dots,\alpha _{k}$ modelu regresyjnego postaci:

 $y _{t} = \alpha_{0} + \alpha_{1}x_{1t} + \alpha_{2}x_{2t} + \dots + \alpha_{k}x_{kt} + \varepsilon_{t}, ~~~~ t = 1,2,\dots,n,$

na podstawie zebranych danych (n jest liczbą zgromadzonych obserwacji).
Postać macierzowa tego modelu wygląda następująco:

 $\mathbf{Y} = \mathbf{X} \alpha + \varepsilon,$

gdzie:

- Y oznacza wektor obserwacji, czyli wektor danych empirycznych zebranych na temat zmiennej objaśnianej

 $Y = \begin{bmatrix} y_{1}\\ y_{2}\\ \vdots \\ y_{n} \\ \end{bmatrix},$

- X jest macierzą obserwacji złożoną z danych empirycznych zebranych na temat każdej zmiennej
objaśniającej (pierwsza kolumna złożona jest z jedynek, ponieważ pierwszy wyraz analizowanego przez nas modelu jest wyrazem wolnym):

 $X = \begin{bmatrix} 1 &amp; x_{11} &amp; x_{21} &amp; \dots &amp; x_{k1} \\ 1 &amp; x_{12} &amp; x_{22} &amp; \dots &amp; x_{k2} \\ \vdots &amp; \vdots &amp; \vdots &amp; \ddots &amp; \vdots \\ 1 &amp; x_{1n} &amp; x_{2n} &amp; \dots &amp; x_{kn} \\ \end{bmatrix},$

- $\alpha$ oznacza wektor rzeczywistych wartości szacowanych parametrów strukturalnych:

 $\alpha = \begin{bmatrix} \alpha_{0} \\ \alpha_{1} \\ \vdots \\ \alpha_{k} \\ \end{bmatrix},$

- $\varepsilon$ jest wektorem składników losowych:

 $\varepsilon = \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \\ \end{bmatrix}.$

Oznaczeniem estymatora parametru $\alpha_{j}$ będzie $a_{j}$ . Natomiast wektor oszacowań parametrów to:

 $a = \begin{bmatrix} \alpha_{0} \\ \alpha_{1} \\ \vdots \\ \alpha_{k} \\ \end{bmatrix}.$

Model deterministyczny ma więc postać:

 $\hat{y}_{t} = \alpha_{0} + \alpha_{1}x_{1t} + \alpha_{2}x_{2t} + \dots + \alpha_{k}x_{kt}, ~~~~ t = 1, 2, \dots, n,$

gdzie $\hat{y}$ oznacza wartość zmiennej objaśniającej wyznaczoną z oszacowanego modelu.
Różnicę między rzeczywistą a deterministyczną wartością zmiennej objaśnianej nazywa się resztą
modelu o okresie $t$ i oznacza jak poniżej:

 $e_{t} = y_{t} - \hat{y}_{t}.$

Wykorzystując wcześniej wprowadzone oznaczenia macierzowe można zapisać:

 $\mathbf{e=Y- \hat Y=Y-Xa}.$

Klasyczna metoda najmniejszych kwadratów polega na tym, aby tak dobrać oszacowania parametrów
a, aby suma kwadratów reszt była jak najmniejsza:

 $S(a) = \sum\limits_{t=1}^{n}e_{t}^{2}\rightarrow min,$

w wyniku czego, otrzymujemy następujący estymator oszacowań parametrów liniowego modelu
regresyjnego:

 $\mathbf{a}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}.$

Aby można było zastosować klasyczną metodę najmniejszych kwadratów muszą zostać speł-
nione następujące założenia:

1. zależności między zmiennymi modelu muszą być liniowe,

2. parametry szacowane są jedynie na podstawie danych zebranych w macierzy oraz w wektorze obserwacji,

3. model musi być stabilny w czasie,

4. nielosowe elementy macierzy oraz wektora obserwacji ustalane są w powtarzalnych próbach,

5. składnik losowy $\varepsilon$ ma rozkład normalny i wartość oczekiwaną równą 0:

 $E(\varepsilon) = 0,$

6. składnik losowy $\varepsilon$ ma stałą wariancję:

 $D^{2}(\varepsilon) = \sigma^{2},$

7. nie zachodzi autokorelacja składnika losowego, co oznacza, że składniki losowe z różnych okresów
nie zależą od siebie, tak więc ich kowariancję można wyrazić następująco:

 $cov(\varepsilon_i,\varepsilon_j)=\begin{cases} 0 \ dla \ i\neq j,\\a^2 \ dla \ i=j,\end{cases}$

8. rząd macierzy obserwacji jest równy liczbie szacowanych parametrów:

 $rz(\mathbf{X})=k+1,$

co oznacza, że kolumny w macierzy obserwacji nie mogą być liniowo zależne, jak również liczba obserwacji $n$ musi być co najmniej równa liczbie szacowanych parametrów.

Nieliniowa metoda najmniejszych kwadratów.
Ogólną postać modelu ściśle nieliniowego można przedstawić następująco:

 $y_{t} = g(\alpha , x) + \varepsilon_{t}$

gdzie:
$x$ - wektor k zmiennych objaśniających,
$\alpha$ - wektor parametrów strukturalnych,
$g$ - dowolna funkcja rzeczywista.

Nieliniowa metoda najmniejszych kwadratów pozwala wyznaczyć składowe wektora $a$ , będącego
oceną wektora parametrów $\alpha$ tak, aby została zminimalizowana suma kwadratów reszt, czyli:

 $S(a) = \sum\limits_{t=1}^{n}e_{t}^{2} = \sum\limits_{t=1}^{n}(y_{t}-g(a,x))^{2} \rightarrow min.$

Poszukiwanie punktu stacjonarnego funkcji S z warunku koniecznego istnienia ekstremum funkcji:

 $\frac{\partial S(a)}{\partial a} = 0$

prowadzi do następującego układu równości:

 $\sum\limits_{t = 1}^{n}(y_{t} -g(a,x))\frac{\partial g(a,x)}{\partial a_{i}} = 0, ~~~~ i = 1, \dots,k.$

Stosując odpowiednie metody rozwiązywania układów równań nieliniowych rozwiązujemy powyższy
układ równań otrzymując oszacowanie parametrów modelu.

Weryfikacja statystyczna modelu regresyjnego

Mając oszacowany model należy przeprowadzić jego weryfikację pod względem dobroci dopasowania
do danych empirycznych.

Merytoryczna ocena

Rozważmy następujący model:

 $y = {f(x_{1},...,x_{n})}.$

Przyrost krańcowy zmiennej objaśnianej $y$ względem zmiennej objaśniającej $x_{i}$ jest stosunkiem
bezwzględnych przyrostów tych zmiennych, można ją przedstawić jako:

 $P_{y/x_i}={\partial f(x_1,...,x_n) \over \partial x_i }.$

Wielkość ta podaje o ile jednostek zmieni się zmienna objaśniana $Y$ , jeżeli zmienna objaśniająca $x_{i}$
wzrośnie o jednostkę przy założeniu zasady ceteris paribus (pozostałe zmienne pozostają bez zmian).

Elastyczność krańcowa zmiennej objaśnianej $Y$ względem zmiennej objaśniającej $x_{i}$ jest stosunkiem
względnych przyrostów zmiennych, można ją przedstawić jako:

 $E_{y/x_i}={\partial f(x_1,...,x_n) \over \partial x_i } \cdot {x_i \over f(x_1,...,x_n)}.$

Wielkość ta podaje o ile procent zmieni się zmienna objaśniana $Y$ , jeżeli zmienna objaśniająca $x_{i}$
wzrośnie o jednostkę przy założeniu zasady ceteris paribus (pozostałe zmienne pozostają bez zmian).

Błędy szacunku parametrów

Jakość oszacowanych parametrów oceniamy obliczając standardowe i względne błędy szacunku parametrów.

Standardowy błąd oszacowania parametru $a_{i}$ wyraża się wzorem:

 $S(a_{i}) = \sqrt{S_{e}^2(X^{T}X)^{-1}_{(i+1,i+1)}},$

gdzie, $X$ jest macierzą obserwacji na podstawie której oszacowano model, wielkość $S_{e}^{2}$ nazywamy
wariancją resztową, gdzie $e$ oznacza wektor reszt modelu, zaś $n$ i $k$ odnoszą się do liczby obserwacji i liczby zmiennych objaśniających w modelu,

 $S_{e}^{2} = \frac{e^{T}e}{n-(k+1)}.$

Średni błąd względny szacunku parametru $a_{i}$ określamy natomiast wzorem:

 $S_{w}(a_{i}) = \frac{S(a_{i})}{\left | a_{i} \right |}.$

Współczynnik determinacji

Współczynnik determinacji modelu określa jakość dopasowania pomiędzy wartościami empirycznymi
zmiennej objaśnianej a wartościami teoretycznymi, czyli obliczonymi z oszacowanego modelu.
Innymi słowy, współczynnik determinacji informuje jaka część zmienności zmiennej objaśnianej jest
wyjaśniana przez model. Wartość tego współczynnika przedstawia wiele równoważnych wzorów, na
przykład:

 $R^{2} = \frac{\sum\limits^{n}_{t = 1}(\hat{y} -{\overline{\hat y}})^{2}}{\sum\limits^{n}_{t=1}(y_{t} - \overline{y})^{2}} = 1 - \frac{\sum\limits^{n}_{t=1}e_{t}}{\sum\limits^{n}_{t=1}(\hat{y} - \overline{y})^{2}},$

gdzie $y_{t}$ i $\hat{y}_{t}$ oznaczają odpowiednio wartość empiryczną i wartość teoretyczną zmiennej objaśnianej, $\overline{y}$ i $\hat{\overline{y}}$ to średnie arytmetyczne tych wartości, a $e_{t}$ t określa oczywiście resztę modelu, czyli różnicę $y_{t} - \hat{y}_{t}$ . Im współczynnik determinacji $R^{2}$
jest bliższy jedynki, tym lepiej.

Istnieją również szczególne przypadki współczynnika determinacji dotyczące szczególnych sytuacji,
jak na przykład:

skorygowany współczynnik determinacji wyrażający się wzorem:
```
 $\overline{R}^{2} = R^{2} - \frac{k}{n - (k+1)}(1-R^{2}),$ 
```
którego używamy jeżeli ilość obserwacji, którymi dysponujemy do szacowania modelu, jest mała;
niescentrowany współczynnik determinacji opisany wzorem:
```
 $R^{2}_{c} = 1 - \frac{e^{T}e}{Y^{T}Y},$ 
```
dotyczący modelu w którym nie występuje wyraz wolny.

Musimy pamiętać o tym, że prawidłową interpretację współczynnika determinacji otrzymamy
wtedy, gdy model ekonometryczny jest liniowy, posiada wyraz wolny i jest oszacowany metodą najmniejszych
kwadratów dla dużej liczby obserwacji.

Badanie indywidualnej istotności zmiennej objaśniającej - test t-Studenta

Dla każdej zmiennej objaśniającej $X_{j}$ , występującej w rozważonym modelu przeprowadzamy test
istotności t-Studenta. W tym celu wykorzystujemy następujące kroki.

1. Formułujemy hipotezy testu:
$H_{0}: \alpha_{j} = 0$ oznacza to, że szacowany parametr nie jest istotny statystycznie, a zmienna objaśniająca, przy której stoi, nie wywiera statystycznie istotnego wpływu na zmienną objaśnianą
$H_{1}: \alpha_{j} \neq 0$ co oznacza, że szacowany parametr jest istotny statystyczne, a towarzysząca mu
zmienna objaśniająca wywiera istotny wpływ na zmienną objaśnianą.

2. Obliczamy standardowy błąd szacunków parametru $a_{j}$ według wzoru:

 $S(a_{j}) = \sqrt{S^{2}_{e}(X^{T}X)^{-1}_{j+1,j+1}},$

gdzie $S^{2}_{e} = \frac{e^{T}e}{n-(k+1)},$ a X oznacza macierz obserwacji, na podstawie której oszacowano model.

3. Wyznaczamy wartość statystyki:

 $t_{j} = \frac{a_{j}}{S(a_{j})}.$

Ma ona rozkład t-Studenta o (n − (k + 1)) stopniach swobody. Z tablic rozkładu t-Studenta
odczytujemy wartość krytyczną t* dla ustalonego poziomu istotności oraz n − (k − 1) stopni
swobody.

4. Weryfikujemy hipotezy:
- jeśli $\left | t_{j} \right | > t^{*}$ , to odrzucamy hipotezę zerową i przyjmujemy hipotezę alternatywną.
- jeśli $\left | t_{j} \right | \leqslant t^{*}$ , to nie mamy podstaw do odrzucenia hipotezy zerowej.

Badanie istotności zbioru zmiennych objaśniających - szczególny przypadek testu
Walda

W celu zbadania istotności całego zbioru zmiennych objaśniających występujących w modelu stosuje
się szczególny przypadek uogólnionego testu Walda.

Definiujemy dwa następujące modele:

-model podstawowy (P) :

 $y_{t} = \alpha_{0} + \varepsilon_{t}, ~~~~t=1,\dots,n,$

- model rozszerzony (R), którym jest cały badany model:

 $y_{t} = \beta_{0} + \beta_{1}x_{1t} + \dots + \beta_{k}x_{kt} + \mu _{t}, ~~~~t=1, \dots,n.$

Stawiamy następujące hipotezy:
$H_{0} : \beta_{1} = \dots = \beta_{k} = 0,$ co oznacza, że zbiór zmiennych $\left \{ x_{1},\dots,x_{k} \right \}$ jest nieistotny dla modelu,
$H_{1} : \exists i \in\left \{ 1,\dots,k \right \} \beta \neq0,$ co oznacza, że zbiór zmiennych $\left \{ x_{1},\dots,x_{k} \right \}$ jest istotny dla modelu.

Obliczamy współczynnik determinacji $R^{2}$ badanego modelu (R).
Obliczamy statystykę:
```
 $F = \frac{R^{2} /k}{(1-R^{2}) / [n - (k+1)]}.$ 
```
Statystyka ma rozkład Fishera-Snedeckora o k i n − (k + 1) stopniach swobody.
Odczytujemy z tablic statystycznych $F^{*}$ - wartość krytyczną rozkładu Fishera-Snedeckora dla ustalonego poziomu istotności oraz k i n − (k + 1) stopni swobody
Dokonujemy weryfikacji hipotezy według następujących zasad:
-jeśli $F > F^{*},$ to odrzucamy hipotezę $H_{0},$ czyli uznajemy cały zespół zmiennych objaśniających
za istotny dla modelu,
-jeśli $F \leqslant F^{*},$ to nie ma podstaw do odrzucenia hipotezy $H_{1},$ czyli przyjmujemy, że cały
zestaw zmiennych objaśniających jest dla modelu nieistotny.

Predykcja i ocena prognoz

Predykcją (prognozowaniem) nazywamy wnioskowanie o przyszłych wartościach zmiennej endogenicznej
na podstawie modelu regresyjnego. Wynik tego procesu nazywamy prognozą.

Prognoza punktowa.

Do prognozowania posługujemy się oszacowanym i pozytywnie zweryfikowanym modelem w nastę-
pującej postaci:

 $\hat{y}_{t} = a_{0} + a_{1}x_{1t} + a_{2}x_{2t} + \dots + a_{k}x_{kt} = {X_t}^T a, ~~~~ t=1,2,\dots,n,$

gdzie:

 ${X_t}^{T} = \left [ 1,x_{1t},x_{2t},\dots,x_{kt} \right ]$

jest wektorem zmiennych z góry ustalonych, a

 ${a}^{T} = \left [ a_{0},a_{1},a_{2},\dots,a_{n} \right ]$

jest wektorem oszacowań parametrów rzeczywistych $\alpha$ .

Symbol $\tau$ oznacza okres prognozy. Wektor wartości zmiennych objaśniających w okresie $\tau$ ma
zatem postać:

 ${x_\tau}^{T} = \left [ 1,x_{1\tau},x_{2\tau},\dots,x_{k\tau} \right ], ~~~~ \tau \in \left \{ n+1,n+2,\dots,m \right \},$

gdzie $m$ jest horyzontem prognozy.

Prognoza punktowa to wartość zmiennej endogenicznej w okresie prognozy, wyrażana wzorem:

 $Y^{P}_{\tau} = {x_\tau}^{T}a.$

Błąd prognozy punktowej.

Do najczęstszych powodów dokonywania nietrafnych prognoz zalicza się:

- błąd estymacji modelu,
- błąd struktury stochastycznej modelu,
- błąd losowy,
- błąd specyfikacji, czyli wybór niewłaściwej postaci analitycznej lub zmiennych objaśniających
modelu,
- błąd warunków endogenicznych, polegający na tym, że w okresie prognozy uległy zmianie okoliczności
dotyczące zmiennej endogenicznej, oszacowany model może więc ich w pełni nie oddawać,
- błąd warunków egzogenicznych, polegający na zmianie okoliczności dotyczących zmiennych egzogenicznych,
w związku z czym model może ich w pełni nie oddawać,
- błąd pomiaru.

Ocena $ex$ post prognozy punktowej. Miary błędów.

Załóżmy, że obliczono dla $m$ okresów prognozy $y^{P}_{1} , \dots , y^{P}_{m}$ wartości zmiennej objaśnianej. Nastąpił okres prognozy i wobec tego znane są już rzeczywiste wartości $y_{1} , \dots , y_{m}$ prognozowanej zmiennej. Można więc obliczyć odpowiednie wartości błędów oraz miary dokładności prognozy ex post dla okresów
$\tau = \left \{ 1,\dots,m \right \}.$ Poniżej przedstawiono i omówiono wyrażające je wzory.

Błąd bezwzględny prognozy:

 $e^{P}_{\tau} = y_{\tau} - y_{\tau}^{P}, ~~~~ \tau \in \left \{1,\dots,m \right \}.$

Błąd względny prognozy:

 $\omega^{P}_{\tau} = \left |\frac{e^{P}_{\tau}}{y_{\tau}} \right | = \left | \frac{y_{\tau} - y^{P}_{\tau}}{y_{\tau}} \right | , ~~~~ \tau \in \left \{ 1,\dots,m \right \}.$

Średni błąd prognozy (ang. mean error):

 $ME = \frac{1}{m} \sum\limits^{m}_{\tau = 1}(y_{\tau} - y^{P}_{\tau}).$

ME powinno być bliskie zeru, co oznacza, że prognoza jest nieobciążona.

Średni absolutny błąd prognozy (ang. mean absolute error):

 $MAE = \frac{1}{m} \sum\limits^{m}_{\tau = 1}\left | y_{\tau} - y^{P}_{\tau} \right |.$

Porównując wartość ME i MAE można stwierdzić, czy prognozy są systematycznie niższe albo wyższe
od rzeczywistych wartości prognozowanej zmiennej.

Pierwiastek błędu średniokwadratowego (ang. root mean square error):

 $RMSE = \sqrt{ \frac{1}{m} \sum\limits^{m}_{\tau = 1}(y_{\tau} - y^{P}_{\tau})^{2}}.$

Jeśli wartość RMSE różni się znacząco od wartości MAE oznacza to, że wśród błędów prognozy występują
błędy o bardzo dużych wartościach.

Średni absolutny błąd procentowy (ang. mean absolute percentage error):

 $MAPE = \frac{1}{m} \sum\limits^{m}_{\tau=1} \left | \frac{y_{\tau} - y^{P}_{\tau}}{y_{\tau}} \right | \cdot 100\%$

Wartość ta informuje o ile procent średnio różni się prognoza zmiennej objaśnianej od jej wartości
rzeczywistej.

Współczynnik rozbieżności:

 $U = \frac{\sqrt{\frac{1}{m}}\sum\limits^{m}_{\tau = 1}(y_{\tau} - y^{P}_{\tau})^{2}}{\sqrt{\frac{1}{m}\sum\limits^{m}_{\tau=1}{y_\tau}^{2}}+\sqrt{\frac{1}{m}\sum\limits^{m}_{\tau=1}y_{\tau}^{P^{2}}}}.$

Współczynnik rozbieżności jest wartością unormowaną i określa jak bardzo prognozowane wartości odbiegają
od wartości rzeczywistych. Im U jest bliższe zeru, tym prognozy wierniej oddają rzeczywiste
wartości prognozowanej zmiennej.

Autorzy: Piotr Bugla, Martyna Seweryn, Kamil Stasik.

Literatura:

[1] Gruszczyński M., Podgórska M., Ekonometria, Szkoła Główna Handlowa, Warszawa 2008
[2] Maddala G.S., Ekonometria, Wydawnictwo Naukowe PWN, Warszawa 2013

dr Marian Płaszczyca

Head of Statistics & IT

BioStat^® sp. z o.o.

(+48) 666069834

statystyka@biostat.com.pl