Korelacja rho-Spearmana
Współczynnik korelacji jest nieparametrycznym odpowiednikiem współczynnika . Podobnie jak w wypadku parametrycznej korelacji, ten współczynnik również mierzy siłę współzależności pomiędzy zmiennymi, jednak w tym wypadku nie jest już wymagana skala ilościowa o rozkładzie normalnym.
W przypadku współczynnika korzysta się z zmiennych porządkowych, więc jeśli w badaniu występują zmienne ilościowe, to w teście korelacji należy je przerangować. Istotnym podczas rangowania zmiennych jest fakt, aby trzymać się jednej konwencji skali, uszeregowanej w odpowiedniej kolejności – wzrost lub spadek danej cechy, jako kolejne parametry rang. Jednie przy takim założeniu, korelacja daje wyniki adekwatne do badanego zagadnienia. Jeżeli w trakcie rangowania natkniemy się na obserwacje, dla których ranga występuje kilkakrotnie w zbiorze danych, przypisujemy im wartość średnią z pozycji, którą by zajmowały – są to tzw. rangi wiązane.
Jedną z dodatkowych korzyści przerangowania obserwacji ilościowych jest redukcja wpływu obserwacji odstających na wynik testu, co jest cechą niezwykle przydatną w małolicznych grupach. Dodatkowo rangowanie jest niezbędne, gdy sprawdza się korelację pomiędzy zmienną ilościową (np. poziomem IQ), a porządkową (np. wykształceniem – podstawowym, średnim, wyższym etc.), gdzie rozwiązanie nie jest w stanie udzielić nam poprawnej odpowiedzi dla takiego zagadnienia.
Wzór na korelację prezentuje się następująco:
,
gdzie:
to różnica pomiędzy -tą rangą dla zmiennej , a -tą rangą dla zmiennej
Jest to jednak prostsza obliczeniowo wersja oryginalnego wzoru, która nie uwzględnia rang wiązanych. Istnieje założenie w środowiskach naukowych, które mówi że powyższego wzoru nie powinno się używać do określania korelacji, jeżeli rangi wiązane stanowią ponad 25% całego zbioru danych. W przeciwnym wypadku należy stosować bardziej ogólną wersję wzoru:
,
gdzie:
to różnica pomiędzy -tą rangą dla zmiennej , a -tą rangą dla zmiennej
to współczynniki dla rang wiązanych liczone według wzoru:
,
gdzie:
to liczba obserwacji mających -tą rangę w analizowanym zbiorze danych.
Współczynnik korelacji przyjmuje wartości z zakresu gdzie znak przy wartości współczynnika określa kierunek korelacji (dodatni - wzrost wartości jednej zmiennej definiuje wzrost wartości drugiej zmiennej; ujemny - wzrost wartości jednej zmiennej definiuje spadek wartości drugiej). Wartość bezwzględna współczynnika korelacji określa siłę zależności pomiędzy zmiennymi, gdzie to brak zależności natomiast to idealna korelacja.
Podobnie jak w przypadku korelacji parametrycznej w tym przypadku również należy sprawdzić istotność statystyczną uzyskanej zależności. Aby zrealizować to zagadnienie należy postawić następujące hipotezy:
- zależność cech jest nieistotna
- zależność cech jest istotna
Do weryfikacji hipotezy stosujemy test :
,
gdzie:
to współczynnik korelacji Spearmana,
to liczebność populacji.
Dla danej wartości testu odczytujemy wartość istotności Zwykle w badaniach statystycznych przyjmujemy poziom istotności Jeżeli przyjmujemy Jeżeli odrzucamy na rzecz
Przykład
Wygenerowano zestaw obserwacji charakteryzujący IQ i wykształcenie badanych, aby sprawdzić czy zamienne korelują ze sobą.
IQ |
Wykształcenie |
---|---|
117 |
wyższe |
108 |
zawodowe |
120 |
wyższe |
115 |
wyższe |
100 |
zawodowe |
117 |
średnie |
109 |
zawodowe |
98 |
zawodowe |
116 |
wyższe |
103 |
podstawowe |
113 |
średnie |
97 |
podstawowe |
114 |
średnie |
96 |
podstawowe |
110 |
średnie |
Następnie wyznaczono rangi dla IQ:
IQ |
IQ |
i |
|
---|---|---|---|
117 |
96 |
1 |
|
108 |
97 |
2 |
|
120 |
98 |
3 |
|
115 |
100 |
4 |
|
100 |
103 |
5 |
|
117 |
108 |
6 |
|
109 |
109 |
7 |
|
98 |
110 |
8 |
|
116 |
113 |
9 |
|
103 |
114 |
10 |
|
113 |
115 |
11 |
|
97 |
116 |
12 |
|
114 |
117 |
13 |
|
96 |
117 |
14 |
|
110 |
120 |
15 |
|
oraz wykształcenia:
Wyk |
Wyk |
i |
|
---|---|---|---|
wyższe |
podstawowe |
1 |
|
zawodowe |
podstawowe |
2 |
|
wyższe |
podstawowe |
3 |
|
wyższe |
zawodowe |
4 |
|
zawodowe |
zawodowe |
5 |
|
średnie |
zawodowe |
6 |
|
zawodowe |
zawodowe |
7 |
|
zawodowe |
średnie |
8 |
|
wyższe |
średnie |
9 |
|
podstawowe |
średnie |
10 |
|
średnie |
średnie |
11 |
|
podstawowe |
wyższe |
12 |
|
średnie |
wyższe |
13 |
|
podstawowe |
wyższe |
14 |
|
średnie |
wyższe |
15 |
|
Obliczono kwadrat różnic rang dla obu zmiennych:
IQ |
Wykształcenie |
|
|
|
|
---|---|---|---|---|---|
117 |
wyższe |
13 |
13,5 |
-0,5 |
0,25 |
108 |
zawodowe |
5,5 |
5,5 |
0 |
0 |
120 |
wyższe |
13 |
13,5 |
-0,5 |
0,25 |
115 |
wyższe |
13 |
13,5 |
-0,5 |
0,25 |
100 |
zawodowe |
5,5 |
5,5 |
0 |
0 |
117 |
średnie |
13 |
9,5 |
3,5 |
12,25 |
109 |
zawodowe |
5,5 |
5,5 |
0 |
0 |
98 |
zawodowe |
2 |
5,5 |
-3,5 |
12,25 |
116 |
wyższe |
13 |
13,5 |
-0,5 |
0,25 |
103 |
podstawowe |
5,5 |
2 |
3,5 |
12,25 |
113 |
średnie |
9 |
9,5 |
-0,5 |
0,25 |
97 |
podstawowe |
2 |
2 |
0 |
0 |
114 |
średnie |
9 |
9,5 |
-0,5 |
0,25 |
96 |
podstawowe |
2 |
2 |
0 |
0 |
110 |
średnie |
9 |
9,5 |
-0,5 |
0,25 |
,
a także współczynniki dla rang wiązanych:
Następnie obliczono współczynnik korelacji dla uproszczonego wzoru:
,
oraz dla wzoru uwzględniającego rangi wiązane:
,
Ostatecznie spawdzono istotność współczynnika korelacji (bazując na wyniku uwzględniającym rangi wiązane):
,
Dla obliczonej wartości testu istotność wynosi:
Jako, że to odrzucamy na rzecz