Korelacja: znaczenie, typy i jej obliczenia

Po przeczytaniu tego artykułu dowiesz się o: - 1. Definicjach korelacji 2. Znaczenie korelacji 3. Potrzeba 4. Rodzaje 5. Metody obliczeń.

Definicje korelacji:

Jeśli zmianie jednej zmiennej wydaje się towarzyszyć zmiana w drugiej zmiennej, mówi się, że dwie zmienne są skorelowane, a ta współzależność nazywana jest korelacją lub współzmiennością.

W skrócie, tendencja do jednoczesnej zmienności między dwiema zmiennymi nazywa się korelacją lub współzmiennością. Na przykład, może istnieć związek pomiędzy wysokością i ciężarem grupy studentów, a wyniki uczniów z dwóch różnych przedmiotów powinny mieć współzależność lub związek między nimi.

Mierzenie stopnia zależności lub współzmienności między dwiema zmiennymi jest przedmiotem analizy korelacji. Zatem korelacja oznacza relację lub "wspólne życie" lub zgodność między dwiema zmiennymi.

W statystyce korelacja jest metodą określania zgodności lub proporcjonalności między dwiema seriami miar (lub punktacji). Mówiąc prościej, korelacja wskazuje na związek jednej zmiennej z drugą.

Znaczenie korelacji:

Aby zmierzyć stopień powiązania lub zależności między dwiema zmiennymi w sposób ilościowy, stosuje się wskaźnik zależności i jest on określany jako współczynnik korelacji.

Współczynnik korelacji jest indeksem liczbowym, który mówi nam, w jakim stopniu te dwie zmienne są ze sobą powiązane i do jakiego stopnia zmiany jednej zmiennej zmieniają się wraz ze zmianami w drugiej. Współczynnik korelacji jest zawsze symbolizowany przez r lub ρ (Rho).

Pojęcie "r" jest znane jako współczynnik korelacji chwilowej produktu lub współczynnik korelacji Karla Pearsona. Symbol "ρ" (Rho) jest znany jako współczynnik korelacji Rangi lub Współczynnik korelacji rang Spearmana.

Wielkość " r " oznacza kwotę (lub stopień) korelacji między dwiema zmiennymi. Jeśli korelacja jest dodatnia, wartość " r " wynosi + ve, a jeśli korelacja jest ujemna, wartość V jest ujemna. Tak więc oznaki współczynnika wskazują na rodzaj związku. Wartość V waha się od +1 do -1.

Korelacja może się różnić między idealną korelacją dodatnią a doskonałą ujemną korelacją. Górna część skali wskaże idealną dodatnią korelację i rozpocznie się od +1, a następnie przejdzie przez zero, wskazując na całkowity brak korelacji.

Dolna część skali zakończy się na poziomie -1 i wskaże idealną korelację ujemną. Tak więc numeryczny pomiar korelacji zapewnia skala, która wynosi od +1 do -1.

[NB - Współczynnik korelacji jest liczbą, a nie procentem. Jest on zwykle zaokrąglany do dwóch miejsc dziesiętnych].

Konieczność korelacji:

Korelacja nadaje sens konstrukcie. Analiza korelacyjna jest niezbędna dla podstawowych badań psychoedukacyjnych. W rzeczywistości większość podstawowych i stosowanych badań psychologicznych ma charakter korelacyjny.

Analiza korelacyjna jest wymagana dla:

(i) Znalezienie cech testów psychologicznych i edukacyjnych (rzetelność, trafność, analiza przedmiotów itp.).

(ii) Badanie, czy określone dane są zgodne z hipotezą.

(iii) Przewidywanie jednej zmiennej na podstawie znajomości drugiej (innych).

(iv) Budowanie modeli i teorii psychologicznych i edukacyjnych.

(v) Grupowanie zmiennych / miar dla oszczędnej interpretacji danych.

(vi) prowadzenie wielowymiarowych testów statystycznych (Hoteling's T 2, MANOVA, MANCOVA, analiza dyskryminacyjna, analiza czynnikowa).

(vii) Izolowanie wpływu zmiennych.

Rodzaje korelacji:

W przypadku dystrybucji dwuwymiarowej korelacja może być:

1. Korelacja dodatnia, ujemna i zerowa; i

2. Liniowy lub krzywoliniowy (nieliniowy).

1. Korelacja dodatnia, ujemna lub zerowa:

Gdy po wzroście jednej zmiennej (X) następuje odpowiednie zwiększenie drugiej zmiennej (Y); korelacja jest określana jako korelacja dodatnia. Dodatnie korelacje wahają się od 0 do +1; górny limit, czyli +1, jest idealnym dodatnim współczynnikiem korelacji.

Doskonała dodatnia korelacja określa, że ​​dla każdego wzrostu jednostkowego w jednej zmiennej występuje proporcjonalny wzrost w drugiej. Na przykład "Ciepło" i "Temperatura" mają doskonałą dodatnią korelację.

Jeśli, z drugiej strony, wzrost jednej zmiennej (X) powoduje odpowiedni spadek w drugiej zmiennej (Y), korelacja jest uważana za korelację ujemną.

Negatywna korelacja wynosi od 0 do -1; dolny limit daje idealną korelację ujemną. Idealna korelacja ujemna wskazuje, że w przypadku każdej jednostkowej zmiany jednej zmiennej występuje proporcjonalne zmniejszenie jednostkowe w drugiej.

Korelacja zerowa oznacza brak związku między dwiema zmiennymi X i Y; tj. zmiana jednej zmiennej (X) nie jest powiązana ze zmianą drugiej zmiennej (Y). Na przykład masa ciała i inteligencja, rozmiar buta i miesięczne wynagrodzenie; itd. Korelacja zera jest punktem środkowym zakresu od 1 do + 1.

2. Korelacja liniowa lub krzywoliniowa:

Korelacja liniowa jest stosunkiem zmiany między dwiema zmiennymi w tym samym kierunku lub w przeciwnym kierunku, a graficzna reprezentacja jednej zmiennej w odniesieniu do innej zmiennej jest linią prostą.

Rozważ inną sytuację. Po pierwsze, wraz ze wzrostem jednej zmiennej, druga zmienna wzrasta proporcjonalnie do pewnego punktu; po tym wraz ze wzrostem pierwszej zmiennej rozpoczyna się druga zmienna.

Graficzna reprezentacja dwóch zmiennych będzie krzywą linią. Taka zależność między dwiema zmiennymi określana jest jako korelacja krzywoliniowa.

Metody obliczania współczynnika korelacji:

W łatwości niezgrupowanych danych dotyczących dystrybucji dwuwymiarowej stosuje się następujące trzy metody do obliczenia wartości współczynnika korelacji:

1. Metoda wykresu punktowego.

2. Współczynnik momentów Pearsona dla korelacji produktu.

3. Współczynnik rang Spearmana Współczynnik korelacji.

1. Metoda diagramów rozproszonych:

Schemat rozrzutu lub diagram punktowy to urządzenie graficzne do wyciągania pewnych wniosków na temat korelacji między dwiema zmiennymi.

Podczas przygotowywania wykresu rozrzutu obserwowane pary obserwacji są nanoszone przez kropki na papierze milimetrowym w dwuwymiarowej przestrzeni, wykonując pomiary na zmiennej X wzdłuż osi poziomej i na zmiennej Y wzdłuż pionowej osi.

Umieszczenie tych kropek na wykresie ujawnia zmianę w zmiennej, czy zmieniają się w tym samym lub w przeciwnych kierunkach. Jest to bardzo prosta, prosta, ale zgrubna metoda obliczania korelacji.

Częstotliwości lub punkty są nanoszone na wykresie za pomocą wygodnej skali dla dwóch serii. Wykreślone punkty będą koncentrować się w paśmie o większej lub mniejszej szerokości w zależności od jego stopnia. "Linia najlepszego dopasowania" jest rysowana wolną ręką, a jej kierunek wskazuje na rodzaj korelacji. Diagramy rozproszenia jako przykład pokazujące różne stopnie korelacji pokazano na rys. 5.1 i rys. 5.2.

Jeśli linia pójdzie w górę, a ruch w górę będzie od lewej do prawej, pokaże dodatnią korelację. Podobnie, jeśli linie przesuwają się w dół, a kierunek jest od lewej do prawej, to pokaże ujemną korelację.

Stopień nachylenia wskaże stopień korelacji. Jeśli naniesione punkty są rozrzucone szeroko, to pokaże brak korelacji. Ta metoda po prostu opisuje "fakt", że korelacja jest dodatnia lub ujemna.

2. Współczynnik chwiejności produktu Pearsona dla korelacji:

Współczynnik korelacji, r, jest często nazywany "Pearsona r" po profesorze Karlu Pearsonie, który opracował metodę momentu produktu, po wcześniejszej pracy Galona i Bravaisa.

Współczynnik korelacji jako stosunek:

Współczynnik korelacji momentu produktu może być rozumiany zasadniczo jako iloraz, który wyraża stopień, w jakim zmianom jednej zmiennej towarzyszą lub zależne od zmian drugiej zmiennej.

Jako ilustrację rozważ następujący prosty przykład, który daje sparowane wysokości i wagi pięciu studentom:

Średnia wysokość to 69 cali, średnia waga 170 funtów, a o to 2, 24 cala, a o to 13, 69 funta, odpowiednio. W kolumnie (4) podano odchylenie (x) wysokości każdego ucznia od wysokości średniej, aw kolumnie (5) podano odchylenie (y) masy ucznia od średniej wagi. Iloczyn tych sparowanych odchyleń (xy) w kolumnie (6) jest miarą porozumienia pomiędzy poszczególnymi wysokościami i masami. Im większa suma kolumny xy tym wyższy stopień zgodności. W powyższym przykładzie wartość Σxy / N wynosi 55/5 lub 11. Jeżeli idealna zgodność, tj. R = ± 1.00, wartość Σ xy / N przekracza maksymalną wartość graniczną.

Zatem Σ xy / N nie dałoby odpowiedniej miary związku między x i y. Powodem jest to, że taka średnia nie jest miarą stabilną, ponieważ nie jest niezależna od jednostek, w których wyrażono wzrost i wagę.

W konsekwencji stosunek ten będzie różny, jeśli zamiast cali i funtów zastosowane zostaną centymetry i kilogramy. Jednym ze sposobów uniknięcia kłopotów - niektóre kwestie różnic w jednostkach to wyrażanie każdego odchylenia jako wyniku σ lub wyniku standardowego lub wyniku Z, tj. Podzielenie każdego xiy przez jego własne σ.

Każde odchylenie xiy jest wyrażane jako stosunek i jest liczbą czystą, niezależną od jednostek testowych. Suma produktów z kolumny wyników σ (9) podzielona przez N daje stosunek, który jest stabilnym wyrażeniem zależności. Ten stosunek jest współczynnikiem korelacji "moment produktu". W naszym przykładzie jego wartość 0, 36 wskazuje na dość wysoką dodatnią korelację między wzrostem a masą w tej małej próbce.

Należy zauważyć, że nasz współczynnik lub współczynnik jest po prostu przeciętnym iloczynem wyników σ odpowiadających mi miernikom X i Y, tj

Charakter r xy :

(i) r xy to moment produktu r

(ii) r xy oznacza stosunek = r xy .

(iii) r xy może być + ve lub - ve granica limitami - 1, 00 do + 1, 00.

(iv) r xy można uznać za średnią arytmetyczną (r xy jest średnią ze standardowych produktów).

(v) na rxy nie ma wpływu żadna liniowa transformacja wyników na X lub Y lub na oba.

(vi) Gdy zmienne są w standardowej formie punktacji, r daje miarę średniej kwoty zmiany w jednej zmiennej związanej ze zmianą jednej jednostki, drugiej zmiennej.

(vii) r xy = √b yx b xy gdzie b yx = współczynnik regresji Y na X, b xy = współczynnik regresji X na Y. r xy = pierwiastek kwadratowy z nachyleń linii regresji.

(viii) r xy nie zależy od wielkości średnich (wyniki zawsze są względne).

(ix) r xy nie może być obliczone, jeśli jedna z zmiennych nie ma wariancji S 2 x lub S 2 Y = 0

(x) r xy z 60 oznacza tę samą wielkość związku co r xy = - .60. Znak mówi o kierunku związku i wielkości o sile związku.

(xi) df dla r xy to N - 2, który służy do testowania znaczenia r xy . Testowanie istotności r polega na sprawdzeniu istotności regresji. Linia regresji obejmuje nachylenie i przechwycenie, stąd utrata 2 df . Zatem, gdy N = 2, r xy wynosi albo + 1, 00 albo - 1, 00, ponieważ nie ma swobody dla zmiany próbkowania w wartości liczbowej r.

A. Obliczanie r xy (dane niezgrupowane) :

Tutaj, użycie wzoru na obliczenie r zależy od "gdzie od odchyleń są brane". W różnych sytuacjach odchylenia mogą być przyjmowane albo od rzeczywistej średniej albo od zera, albo od AM Typu Formuły wygodnie zastosowanego do obliczenia współczynnika korelacji zależy od wartości średniej (albo we frakcji, albo w całości).

(i) Wzór r, gdy odchylenia pochodzą od średnich dwóch rozkładów X i Y.

gdzie r xy = Korelacja między X i Y

x = odchylenie dowolnego wyniku X od średniej z testu X

y = odchylenie odpowiedniego wyniku Y od średniej w teście Y.

Σxy = Suma wszystkich produktów odchyleń (X i Y)

σ x i σ y = odchylenia standardowe rozkładu wyniku X i Y.

w którym xiy są odchyleniami od rzeczywistych środków, a Σx2 i Σy2 są sumami kwadratów odchyleń wx i y wziętych z dwóch środków.

Ta formuła jest preferowana:

ja. Gdy wartości średnie obu zmiennych nie są ułamkami.

ii. Kiedy znaleźć korelację między krótkimi, niezgrupowanymi seriami (powiedzmy dwadzieścia pięć przypadków).

iii. Kiedy odchylenia są pobierane z rzeczywistych średnich z dwóch rozkładów.

Niezbędne kroki przedstawiono w tabeli 5.1. Są one wymienione tutaj:

Krok 1:

Lista w równoległych kolumnach sparowanych wyników X i Y, upewniając się, że odpowiadające im wyniki są razem.

Krok 2:

Określ dwa środki M x i M y . W tabeli 5.1 są to odpowiednio 7, 5 i 8, 0.

Krok 3:

Określ dla każdej pary wyników dwa odchylenia x i y. Sprawdź je, znajdując sumy algebraiczne, które powinny wynosić zero.

Krok 4:

Wyróżnij wszystkie odchylenia i wpisz w dwóch kolumnach. Ma to na celu obliczenie σ x i σ y .

Krok 5:

Suma kwadratów odchyleń w celu uzyskania Σx 2 i Σy 2 Znajdź xy produkt i zsumuj je dla Σxy.

Krok 6:

Z tych wartości obliczyć σ x i σ y .

Alternatywne i krótsze rozwiązanie:

Istnieje alternatywna i krótsza trasa, która pomija obliczenia σ x i σ y, jeśli nie są one potrzebne w żadnym innym celu.

Zastosowanie wzoru (28):

(ii) Obliczenie r xy z wyników oryginalnych lub wyników surowych:

Jest to kolejna procedura z niezgrupowanymi danymi, która nie wymaga stosowania odchyleń. Zajmuje się w całości oryginalnymi wynikami. Formuła może wyglądać zabraniająco, ale jest łatwa do zastosowania.

Ta formuła jest preferowana:

ja. Kiedy obliczyć r z bezpośrednich wyników surowych.

ii. Oryginalne wyniki ft., Gdy dane są małe rozgrupowane.

iii. Gdy wartości średnie są ułamkami.

iv. Gdy dostępna jest dobra maszyna licząca.

X i Y są oryginalnymi punktami w zmiennych X i Y. Inne symbole mówią, co się z nimi dzieje.

Postępujemy zgodnie z krokami zilustrowanymi w Tabeli 5.2:

Krok 1:

Kwadratuj wszystkie pomiary X i Y.

Krok 2:

Znajdź produkt XY dla każdej pary wyników.

Krok 3:

Zsumuj X, Y, X 2, Y 2 i XY.

Krok 4:

Zastosuj formułę (29):

(ii) Obliczanie r xy, gdy odchylenia są przyjmowane od założonej średniej:

Wzór (28) jest użyteczny przy obliczaniu r bezpośrednio z dwóch niezgrupowanych serii wyników, ale ma wady, ponieważ wymaga "długiej metody" obliczania średnich i σ . Odchyłki x i y, gdy są pobierane z rzeczywistych środków, są zwykle dziesiętne, a pomnożenie i kwadratura tych wartości jest często żmudnym zadaniem.

Z tego powodu - nawet podczas pracy z krótkimi niezgrupowanymi seriami - często łatwiej jest założyć środki, obliczyć odchylenia od tych AM i zastosować wzór (30).

Ta formuła jest preferowana:

ja. Kiedy rzeczywiste środki są zwykle miejscami dziesiętnymi, a pomnożenie i kwadratura tych wartości jest często żmudnym zadaniem.

ii. Kiedy odchylenia są pobierane z AM.

iii. Kiedy mamy unikać ułamków.

Kroki obliczeniowe r można opisać w następujący sposób:

Krok 1:

Znajdź średnią z Testu 1 (X) i średniej z Testu 2 (Y). Środki przedstawione w tabeli 5.3 M X = 62, 5 i M Y = 30, 4 odpowiednio.

Krok 2:

Wybierz AM zarówno X jak i Y, czyli AM X jako 60.0 i AM Y jako 30.0.

Krok 3:

Znajdź odchylenie każdego wyniku w teście 1 od jego AM, 60.0 i wpisz je w kolumnie x '. Następnie znajdź odchylenie każdego wyniku w teście 2 od jego wartości AM, 30, 0 i wpisz je w kolumnie y '.

Krok 4:

Wyrównaj wszystkie x 'i wszystkie z nich i wprowadź te kwadraty odpowiednio w kolumnie x' 2 i y ' 2 . Łącznie te kolumny, aby uzyskać Σx " 2 i Σy" 2 .

Krok 5:

Pomnóż x 'i y' i wprowadź te produkty (z należytym uwzględnieniem znaku) w kolumnie x'y '. Całkowita kolumna x'y ', biorąc pod uwagę znaki, aby uzyskać Σx'y'.

Krok 6:

Korekcje, Cx i C y, można znaleźć odejmując AM X od M x i AM y od M y . Następnie Cx znaleziono jako 2, 5 (62, 5 - 60, 0), a C y jako .4 (30, 4 - 30, 0).

Krok 7:

Zastępuje Σx'y ', 334, dla Σx' 2, 670 i dla Σy ' 2, 285 we wzorze (30), jak pokazano w Tabeli 5.3 i rozwiązuje dla r xy.

Właściwości r :

1. Wartość współczynnika korelacji r pozostaje niezmieniona, gdy stała jest dodawana do jednej lub obu zmiennych:

Aby zaobserwować wpływ na współczynnik korelacji r, gdy stała jest dodawana do jednej lub obu zmiennych, rozważamy przykład.

Teraz dodajemy wynik 10 do każdego wyniku w X i 20 do każdego wyniku Y i reprezentujemy te wyniki odpowiednio przez X 'i Y'.

Obliczenia dla obliczenia r dla oryginalnych i nowych par obserwacji są podane w Tabeli 5.4:

Za pomocą wzoru (29) współczynnikiem korelacji oryginalnego wyniku będzie:

Tę samą formułę dla nowych wyników można zapisać jako:

Widzimy więc, że wartość współczynnika korelacji r pozostaje niezmieniona, gdy stała jest dodawana do jednej lub obu zmiennych.

2. Wartość współczynnika korelacji r pozostaje niezmieniona, gdy stała jest odejmowana od jednej lub obu zmiennych:

Uczniowie mogą to sprawdzić, biorąc przykład. Kiedy każdy wynik jednej lub obu zmiennych jest odejmowany przez stałą, wartość współczynnika korelacji r pozostaje również niezmieniona.

3. Wartość współczynnika korelacji r pozostaje niezmieniona, gdy jeden lub oba zestawy wariacji wartości są mnożone przez pewną stałą:

Aby zaobserwować wpływ mnożenia zmiennych przez pewną stałą na wartość r, arbitralnie mnożymy oryginalne wyniki pierwszego i drugiego zbioru w poprzednim przykładzie odpowiednio przez 10 i 20.

R pomiędzy X 'i Y' można następnie obliczyć jako:

Współczynnik korelacji między X 'i Y' będzie następujący:

Widzimy więc, że wartość współczynnika korelacji r pozostaje niezmieniona, gdy stała jest mnożona przez jeden lub oba zestawy wartości wariancji.

4. Wartość r pozostanie niezmieniona nawet wtedy, gdy jeden lub oba zestawy wartości wariancji zostaną podzielone przez pewną stałą:

Uczniowie mogą to sprawdzić, biorąc przykład.

B. Współczynnik korelacji w zgrupowanych danych :

Kiedy liczba par pomiarów (N) na dwóch zmiennych X i Y jest duża, nawet umiarkowana, a gdy nie ma dostępnej maszyny liczącej, zwyczajową procedurą jest grupowanie danych zarówno w X jak i Y oraz w celu utworzenia wykresu rozrzutu lub diagram korelacji, który jest również nazywany dwukierunkowym rozkładem częstotliwości lub dwuwymiarowym rozkładem częstotliwości.

Wybór rozmiaru przedziału klasy i limitów przedziałów jest zgodny z tymi samymi zasadami, które podano wcześniej. Aby wyjaśnić tę kwestię, bierzemy pod uwagę dwuwymiarowe dane dotyczące wyników uzyskanych przez grupę 20 studentów z fizyki i matematyki.

Przygotowanie diagramu punktowego:

Podczas konfigurowania podwójnego grupowania danych przygotowywana jest tabela z kolumnami i wierszami. Tutaj klasyfikujemy każdą parę zmiennych jednocześnie w dwóch klasach, jedna reprezentuje wynik w Fizyce (X), a druga w Matematyce (Y), jak pokazano w Tabeli 5.6.

Wyniki 20 uczniów zarówno z fizyki (X), jak i matematyki (Y) przedstawiono w tabeli poniżej:

Możemy łatwo przygotować dwuwymiarową tabelę rozkładu częstotliwości, umieszczając wyniki dla każdej pary wyników. Budowa scattergrama jest dość prosta. Musimy przygotować tabelę, jak pokazano na powyższym schemacie.

Wzdłuż lewego marginesu odstępy klasowe rozkładu X są zwalniane od dołu do góry (w kolejności rosnącej). W górnej części diagramu, c.i's rozkładu Y są zwalniane od lewej do prawej (w kolejności rosnącej).

Każda para wyników (zarówno w X, jak i Y) jest reprezentowana przez liczbę w odpowiedniej komórce. Nr 1 student uzyskał 32 w fizyce (X) i 25 w matematyce (Y). Jego wynik 32 w (X) umieszcza go w ostatnim rzędzie, a 25 w (Y) umieszcza go w drugiej kolumnie. Tak więc dla pary wyników (32, 25) oznaczenie zostanie oznaczone w drugiej kolumnie piątego rzędu.

W podobny sposób, w przypadku ucznia nr 2, dla wyników (34, 41), umieścimy kartę w 4. kolumnie piątego rzędu. Podobnie, 20 poziomów zostanie umieszczonych w odpowiednich rzędach i kolumnach. (Wiersze będą reprezentowały wyniki X, a kolumny będą reprezentowały wyniki Y).

Wzdłuż prawego marginesu kolumna f x, liczba przypadków w każdym ci, rozkładu X jest zestawiona, a wzdłuż dolnej krawędzi diagramu w wierszu f liczba przypadków w każdym ci, z rozkładu Y jest tabelaryczny.

Całkowita suma f x kolumna wynosi 20, a całkowita liczba wierszy f jest równy 20. Jest to w rzeczywistości rozkład dwuwymiarowy, ponieważ reprezentuje wspólny podział dwóch zmiennych. Scattergram jest następnie "tabelą korelacji".

Obliczanie r z tabeli korelacji:

Poniższy schemat kroków, które należy wykonać przy obliczaniu r, najlepiej będzie zrozumieć, jeśli uczeń będzie stale odnosił się do Tabeli 5.7, czytając każdy krok:

Krok 1:

Zbuduj scattergram dla dwóch zmiennych, które mają być skorelowane, a następnie przygotuj tabelę korelacji.

Krok 2:

Policz częstotliwości każdej ci rozkładu - X i zapisz ją w kolumnie f x . Policz częstotliwości dla każdego ci rozkładu - Y i wypełnij wiersz f y .

Krok 3:

Załóżmy średnią dla rozkładu X i oznaczmy ci w podwójnych liniach. W podanej tabeli korelacji przyjmijmy średnią w ci, 40 - 49 i umieśćmy podwójne linie, jak pokazano w tabeli. Odchylenia powyżej linii AM będą (+ ve), a odchyłki poniżej będą (- ve).

Odchylenie względem linii AM, tj. Względem ci, w której przyjęliśmy średnią, jest oznaczone jako 0 (zero), a powyżej d są oznaczone jako +1, +2. 13 i niżej odnotowano, że d - 1. Teraz kolumna dx jest wypełniona. Następnie pomnóż f x . i dx każdego wiersza, aby uzyskać fdx . Pomnóż dx i fdx każdego wiersza, aby uzyskać fdx 2 .

[Uwaga: Podczas obliczania SD w przyjętej średniej metodzie zakładaliśmy średnią, zaznaczając d's i obliczając fd i fd 2 . Tutaj również postępuje ta sama procedura.]

Krok 4:

Zastosuj tę samą procedurę co w kroku 3 i obliczyć dy, fdy i fdy 2 . Dla rozkładu-Y, załóżmy średnią w ci 20-29 i umieść podwójne linie, aby zaznaczyć kolumnę, jak pokazano w tabeli. Odchylenia po lewej stronie tej kolumny będą ujemne, a prawidłowe pozytywne.

Zatem d dla kolumny, w której zakłada się średnią, jest oznaczone jako 0 (zero), a d po lewej jest zaznaczone - 1, a d po prawej stronie oznaczone jako +1, +2 i +3. Teraz kolumna dy jest wypełniona. Pomnóż wartości fy i dy każdej kolumny, aby uzyskać FDD . Pomnóż wartości dy i fdy do każdej kolumny, aby uzyskać wartość fdy 2 .

Krok 5:

Ponieważ faza ta jest ważna, musimy dokładnie oznaczyć dla obliczenia dy dla różnych jednostek ci rozkładu X i dx dla różnych ci rozkładu -Y.

dy dla różnych ci dystrybucji-X: W pierwszym rzędzie 1 f znajduje się pod kolumną, 20-29, której dy jest równe 0 (Spójrz na dół, pozycja dy tego wiersza wynosi 0). Ponownie 1 f znajduje się pod kolumną, 40-49, której dy to + 2. Tak więc dla pierwszego rzędu = (1 x 0) + (1 x 2) = + 2.

W drugim rzędzie stwierdzamy, że:

1 f znajduje się pod kolumną, 40-49, której dy to + 2 i

2 f s znajdują się pod kolumną, 50-59, których dy są po +3.

Tak więc dla 2. rzędu = (1 x 2) + (2 X 3) = 8.

W trzecim rzędzie

2 f s znajdują się pod kolumną, 20-29, których dy są po 0,

2 f s znajdują się pod kolumną, 40-49, której dy są po +2, a 1 f pod kolumną, 50-59, której dy jest +3.

Tak więc dla trzeciego rzędu = (2 x 0) + (2 x 2) + (1 X 3) = 7.

W czwartym rzędzie

3 f s znajdują się pod kolumną, 20-29, których dy są po 0,

2 f s znajdują się pod kolumną, 30-39, której dy są +1, a 1 f pod kolumną, 50-59, której dy jest + 3,

Tak więc dla czwartego rzędu = (3 X 0) + (2 X 1) + (1 x 3) = 5.

Podobnie w piątym rzędzie

dy dla 5. rzędu = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx dla różnych ci, 'v dystrybucji - Y:

W pierwszej kolumnie

2 f s są w stosunku do rzędu, 30-39, których dx wynosi - 1.

Więc dx z 1. kolumny = (2 x - 1) = - 2

W drugiej kolumnie

1 f jest przeciwko ci, 70-79, gdzie dx wynosi +3,

2 f s są przeciwko ci, 50-59, których dx to +1,

3 f s są przeciwko ci, 40-49, których dx to 0,

1 f jest przeciwko ci, 30-39, którego dx wynosi - 1.

Zatem dx dla drugiej kolumny = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. W trzeciej kolumnie

dx dla trzeciej kolumny = 2 × 0 = 0

W czwartej kolumnie

dx dla czwartej kolumny = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

W piątej kolumnie

dx dla 5. kolumny = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Krok 6:

Teraz obliczyć dx.dy każdy rząd rozkładu - X, mnożąc pozycje dx każdego rzędu przez wpisy dy każdego wiersza. Następnie obliczyć dx.dy dla każdej kolumny rozkładu - Y, mnożąc wpisy dy każdej kolumny przez pozycje dx każdej kolumny.

Krok 7:

Teraz weź algebraiczną sumę wartości kolumn fdx, fdx 2, dy i dx.dy (dla dystrybucji - X). Weź algebraiczną sumę wartości wierszy fdy, fdy 2, dx i dx.dy (dla dystrybucji - Y)

Krok 8:

Σ. dx.dy dystrybucji X = Σ dx.dy dystrybucji Y.

Σ fdx = całkowita liczba wierszy dx (tj. Σ dx )

Σ fdy = suma kolumn dy (tj. Σ dy )

Krok 9:

Wartości znalezionych symboli

Σ fdx = 13, Σ fd 2 x = 39

Σ fdy = 22, Σ fd 2 y = 60

Σ dx.dy = 29 i N = 20.

W celu obliczenia współczynnika korelacji w tabeli korelacji można zastosować następującą formułę:

Możemy oznaczyć, że w mianowniku wzoru (31) stosujemy wzór na x i y z wyjątkiem nie i. Możemy tutaj zauważyć, że Cx, C y, σ x, σ v są wyrażone w jednostkach przedziałów klasowych (tj. W jednostce i). Tak więc, podczas obliczania σ x i σ y, nie są używane żadne. Jest to pożądane, ponieważ wszystkie odchylenia produktu, tj. Σ dx.dy, są w jednostkach interwałowych.

Tak więc obliczamy:

Interpretacja współczynnika korelacji:

Samo obliczenie korelacji nie ma żadnego znaczenia dopóki i dopóki nie określimy, jak duży musi być współczynnik, aby być znaczącym, i co korelacja mówi nam o danych? Co rozumiemy przez uzyskaną wartość współczynnika korelacji?

Błędna interpretacja współczynnika korelacji:

Czasami błędnie interpretujemy wartość współczynnika korelacji i ustalamy związek przyczynowo-skutkowy, tj. Jedną zmienną powodującą zmienność drugiej zmiennej. W rzeczywistości nie możemy interpretować w ten sposób, chyba że mamy solidną podstawę logiczną.

Współczynnik korelacji daje nam ilościowe określenie stopnia zależności między dwiema zmiennymi X i Y, a nie informacje o charakterze powiązania między dwiema zmiennymi. Przyczyna implikuje niezmienny ciąg - zawsze prowadzi do B, podczas gdy korelacja jest po prostu miarą wzajemnego powiązania dwóch zmiennych.

Na przykład może istnieć wysoka korelacja między nieprzystosowaniem a lękiem:

Ale na podstawie wysokiej korelacji nie można powiedzieć, że nieprzystosowanie powoduje lęk. Może być możliwe, że wysoki niepokój jest przyczyną niedostosowania. To pokazuje, że nieprzystosowanie i lęk są ze sobą powiązane. Rozważ kolejny przykład.

Istnieje wysoka korelacja między umiejętnościami w zakresie przedmiotów w szkole a osiągnięciami w temacie. Na koniec egzaminów w szkole będzie to odzwierciedlać związek przyczynowy? Może, ale nie musi.

Umiejętność w badaniu przedmiotu zdecydowanie powoduje różnice w osiągnięciu przedmiotu, ale wysokie osiągnięcia studenta w temacie nie są wynikiem tylko wysokiej zdolności; może to być spowodowane także innymi zmiennymi.

Zatem przy interpretacji wielkości współczynnika korelacji pod względem przyczyny i skutku jest właściwe, wtedy i tylko wtedy, gdy zmienne będące przedmiotem dochodzenia stanowią logiczną podstawę takiej interpretacji.

Czynniki wpływające na wielkość współczynnika korelacji:

Powinniśmy również zdawać sobie sprawę z następujących czynników, które wpływają na wielkość współczynnika korelacji i mogą prowadzić do błędnej interpretacji:

1. Wielkość "r" zależy w dużym stopniu od zmienności zmierzonych wartości w skorelowanej próbce. Im większa zmienność, tym wyższa będzie korelacja, a wszystko inne będzie równe.

2. Zmienia się rozmiar "r", gdy badacz wybiera skrajną grupę podmiotów w celu porównania tych grup pod względem określonego zachowania. "R" uzyskany z połączonych danych grup ekstremalnych byłby większy niż "r" uzyskany z losowej próbki z tej samej grupy.

3. Dodanie lub opuszczenie skrajnych przypadków z grupy może spowodować zmianę wielkości "r". Dodanie skrajnego przypadku może zwiększyć wielkość korelacji, natomiast zrzucenie skrajnych przypadków obniży wartość "r".

Wykorzystuje moment produktu r:

Korelacja jest jedną z najszerzej stosowanych procedur analitycznych w dziedzinie pomiarów i ewaluacji edukacyjnej i psychologicznej. Jest to przydatne w:

ja. Opisujące stopień zgodności (lub zależności) między dwiema zmiennymi.

ii. Prognozowanie jednej zmiennej - zmiennej zależnej na podstawie zmiennej niezależnej.

iii. Sprawdzanie poprawności testu; np. test inteligencji grupowej.

iv. Określanie stopnia obiektywności testu.

v. Poradnictwo edukacyjne i zawodowe oraz w procesie decyzyjnym.

vi. Określanie wiarygodności i ważności testu.

vii. Określanie roli różnych korelatów dla pewnej zdolności.

viii. Technika analizy czynnikowej do określania współczynnika obciążenia zmiennych podstawowych w zdolnościach ludzkich.

Założenia momentu produktu r :

1. Normalny rozkład:

Zmienne, z których chcemy obliczyć korelację, powinny być normalnie dystrybuowane. Założenie można wyliczyć z losowego próbkowania.

2. Liniowość:

Korelacja czasu produktu może być przedstawiona w linii prostej, znanej jako korelacja liniowa.

3. Ciągłe serie:

Pomiar zmiennych w ciągłych seriach.

4. Homoskedastyczność:

Musi spełniać warunek homoscedastyczności (jednakowa zmienność).

3. Współczynnik korelacji rang Spearmana:

W Edukacji i Psychologii są sytuacje, w których obiekty lub jednostki mogą być uszeregowane i uporządkowane według wartości lub biegłości w dwóch zmiennych, a gdy te 2 zestawy rang są kowariancyjne lub zawierają między sobą porozumienie, mierzymy stopnie zależności przez korelację rangową. .

Ponownie występują problemy, w których związek pomiędzy dokonanymi pomiarami jest nieliniowy i nie można go opisać za pomocą momentu produktu r.

Na przykład ocena grupy uczniów na podstawie zdolności przywódczych, kolejności kobiet w konkursie piękności, studentów uszeregowanych w kolejności preferencji lub zdjęć może być uszeregowana zgodnie z ich walorami estetycznymi. Pracownicy mogą być uszeregowani według rangi przełożonych w zakresie wydajności pracy.

Dzieci w wieku szkolnym mogą być klasyfikowane przez nauczycieli na dostosowanie społeczne. W takich przypadkach przedmioty lub jednostki mogą być uszeregowane i uporządkowane według wartości lub biegłości na dwóch zmiennych. Spearman opracował formułę o nazwie Współczynnik korelacji rang, aby zmierzyć stopień lub stopień korelacji między 2 zestawami rang.

Współczynnik korelacji jest oznaczony grecką literą ρ (zwaną Rho) i jest podawany jako:

gdzie, ρ = rho = Współczynnik korelacji rang Spearmana

D = Różnica pomiędzy sparowanymi szeregami (w każdym przypadku)

N = Łączna liczba pozycji / osób w rankingu.

Charakterystyka Rho (ρ):

1. W współczynniku korelacji rang obserwacje lub pomiary zmiennej biwariantowej są oparte na skali porządkowej w postaci rang.

2. Na wielkość współczynnika wpływa bezpośrednio rozmiar różnic rangowych.

(za) Jeśli rangi są takie same dla obu testów, każda różnica rang będzie wynosić zero, a ostatecznie D 2 będzie wynosić zero. Oznacza to, że korelacja jest idealna; tj. 1, 00.

(b) Jeśli różnice w rankingu są bardzo duże, a ułamek jest większy niż jeden, wówczas korelacja będzie ujemna.

Założenia Rho (ρ):

ja. N jest małe lub dane są źle wypaczone.

ii. Są wolne lub niezależne od niektórych cech rozkładu populacji.

iii. W wielu sytuacjach stosowane są metody rankingowe, w których pomiary ilościowe nie są dostępne.

iv. Mimo że dostępne są pomiary ilościowe, zastępuje się szeregi w celu zmniejszenia pracy arytmetycznej.

v. Takie testy są opisane jako nieparametryczne.

vi. W takich przypadkach dane składają się z zestawów numerów porządkowych, 1., 2., 3. ... .Nth. Są one zastępowane przez kardynalne liczby 1, 2, 3, ........., N dla celów obliczeniowych. Zastąpienie liczb porządkowych liczbami porządkowymi zawsze zakłada równość przedziałów.

I. Obliczanie ρ z wyników testu:

Przykład 1:

Poniższe dane przedstawiają odpowiednio 5 studentów z matematyki i nauk ogólnych:

Oblicz korelację między dwiema seriami wyników testów według metody różnicy rang.

Wartość współczynnika korelacji między wynikami z matematyki i nauk ogólnych jest dodatnia i umiarkowana.

Kroki obliczania współczynnika korelacji Spearmana:

Krok 1:

Wymień uczniów, imiona i ich numery seryjne w kolumnie 1.

Krok 2:

W kolumnie 2 i 3 wpisz wyniki każdego ucznia lub osoby w teście I i II.

Krok 3:

Weź jeden zestaw punktów z kolumny 2 i przypisz 1 pozycję do najwyższego wyniku, który wynosi 9, rangę 2 do następnego najwyższego wyniku, który wynosi 8 i tak dalej, aż najniższy wynik dostanie rangę równą N; czyli 5.

Krok 4:

Wykonaj II zestaw ocen z kolumny 3 i przypisz 1 stopień do najwyższego wyniku. W drugim zestawie najwyższy wynik to 10; uzyskując w ten sposób stopień 1. Kolejny najwyższy wynik studenta B wynosi 8; stąd jego ranga wynosi 2. Ranga studenta C to 3, ranga E to 4, a ranga D to 5.

Krok 5:

Oblicz różnicę rang każdego ucznia (kolumna 6).

Krok 6:

Sprawdź sumę różnic zapisanych w kolumnie 6. Jest to zawsze zero.

Krok 7:

Każda różnica rzędów kolumny 6 jest podniesiona do kwadratu i zapisana w kolumnie 7. Uzyskaj sumę ΣD 2 .

Krok 8:

Wpisz wartość N i 2D 2 we wzorze współczynnika korelacji Spearmana.

2. Obliczanie z danych rankingowych:

Przykład 2:

W konkursie mowy profesor Mehrotra i prof. Shukla ocenili 10 uczniów. Ich wyroki były w rankingach, które przedstawiono poniżej. Określić zakres, w jakim ich wyroki się zgadzają.

Wartość współczynnika korelacji wynosi + 0, 83. To pokazuje wysoki stopień zgodności między dwoma sędziami.

3. Obliczanie ρ (Rho) dla powiązanych rang:

Przykład 3:

Poniższe dane przedstawiają wyniki 10 uczniów z dwóch testów z luką 2 tygodni w Trial I i Trial II.

Oblicz korelację między wynikami dwóch prób według metody różnicy rang:

Korelacja między próbami I i II jest dodatnia i bardzo wysoka. Przyjrzyj się uważnie wynikom uzyskanym przez 10 uczniów w teście I i II testu.

Czy w wynikach uzyskanych przez 10 uczniów znajduje się coś szczególnego? Prawdopodobnie twoja odpowiedź brzmi "tak".

W powyższej tabeli w kolumnie 2 i 3 znajduje się informacja, że ​​więcej niż jeden uczeń otrzymuje te same wyniki. W kolumnie 2 uczniowie A i G uzyskują ten sam wynik oceny. 10. W kolumnie 3 uczniowie A i B, C i F oraz G i J otrzymują te same wyniki, odpowiednio 16, 24 i 14.

Zdecydowanie te pary będą miały te same stopnie; znany jako Tied Ranks. Procedura przypisywania rang do powtarzanych wyników różni się nieco od nie powtarzających się wyników.

Spójrz na kolumnę 4. Uczniowie A i G mają podobne wyniki po 10 i mają 6 i 7 pozycję w grupie. Zamiast przypisywania szóstego i siódmego miejsca, każdemu z nich przypisano średnią z dwóch rang, tj. 6, 5 (6 + 7/2 = 13/2).

Ta sama procedura była stosowana w odniesieniu do wyników w Trial II. W takim przypadku więzi występują w trzech miejscach. Studenci C i F mają taki sam wynik, a tym samym uzyskują średnią rangę (1 + 2/2 = 1, 5). Student A i B mają pozycję 5 i 6 w rankingu; w związku z tym przydzielono każdemu z nich 5, 5 (5 + 6/2). Podobnie studentom G i J przypisano 7, 5 (7 + 8/2).

Jeśli wartości powtarza się więcej niż dwa razy, można wykonać tę samą procedurę, aby przypisać szeregi:

Na przykład:

jeśli trzech uczniów otrzyma ocenę 10, na 5, 6 i 7 stopniu, każdy z nich otrzyma rangę 5 + 6 + 7/3 = 6.

Pozostałe kroki procedury zastosowane do obliczenia ρ (rho) są takie same, jak wyjaśniono wcześniej.

Interpretacja:

Wartość ρ można również interpretować w taki sam sposób, jak współczynnik korelacji Karla Pearsona. Różni się od -1 do 1. Wartość + 1 oznacza idealną pozytywną zgodę lub związek między dwoma zestawami rang, podczas gdy ρ = - 1 oznacza doskonałą negatywną zależność. W przypadku braku związku lub porozumienia między szeregami, wartość ρ = 0.

Zalety metody różnicy rang:

1. Obliczanie współczynnika korelacji rang Spearmana jest szybsze i łatwiejsze niż (r) obliczane metodą Pearson's Moment.

2. Jest to dopuszczalna metoda, jeśli dane są dostępne tylko w postaci porządkowej lub liczba sparowanych zmiennych jest większa niż 5 i nie większa niż 30, z minimalnymi lub kilkoma wiązaniami w szeregach.

3. Łatwo jest interpretować p.

Ograniczenia:

1. Po przekształceniu danych przedziałowych w dane uporządkowane według rang, informacja o wielkości różnic punktów jest tracona; np. w Tabeli 5.10, jeśli D w Trial II uzyska ocenę z 18 do 21, jego ranga pozostaje tylko 4.

2. Jeśli liczba spraw jest większa, ich ranga staje się żmudną pracą.