Określanie wiarygodności testu: 4 metody

Istnieją cztery powszechnie stosowane procedury obliczania współczynnika niezawodności testu (zwanego czasem autokorelacją). Są to: 1. Test-Retest (powtórzenie) 2. Formy zastępcze lub równoległe 3. Technika split-half 4. Równoważność racjonalna.

1. Metoda ponownego testu:

Aby oszacować wiarygodność za pomocą metody test-retest, ten sam test jest podawany dwa razy tej samej grupie uczniów w danym przedziale czasowym między dwoma podaniami testu.

Wynikowe wyniki testu są skorelowane, a ten współczynnik korelacji zapewnia miarę stabilności, to znaczy wskazuje, jak stabilne są wyniki testu w pewnym okresie czasu. Więc jest znany jako miara stabilności.

Oszacowanie wiarygodności w tym przypadku zależy od długości przedziału czasu dozwolonego między dwiema administracjami. Metoda korelacji momentu produktu jest istotną metodą oceny wiarygodności dwóch zestawów wyników.

Zatem wysoka korelacja między dwoma zestawami wyników wskazuje, że test jest wiarygodny. Oznacza to, że wyniki uzyskane w pierwszym podaniu przypominają wyniki uzyskane przy drugim podaniu tego samego testu.

W tej metodzie ważny jest przedział czasowy. Jeśli jest zbyt mały, powiedzmy dzień lub dwa, konsekwencja wyników będzie miała wpływ na spójność wyników, tzn. Uczniowie będą pamiętać niektóre wyniki z pierwszego podania do drugiego.

Jeśli przedział czasowy jest długi, powiedzmy raz w roku, na wyniki wpływać będzie nie tylko nierówność procedur i warunków testowania, ale także rzeczywiste zmiany w uczniach w tym okresie.

Odstęp czasowy ponownego testu nie powinien przekraczać sześciu miesięcy. Odstęp czasu od powtórnego testowania dwa tygodnie (2 tygodnie) daje dokładny wskaźnik niezawodności.

Zalety:

Stosuje się metodę autokorelacji lub test-test, do oszacowania współczynnika niezawodności. Warto go wygodnie używać w różnych sytuacjach. Test o odpowiedniej długości można stosować po kilkudniowej przerwie między kolejnymi testami.

Niedogodności:

1. Jeśli test zostanie powtórzony natychmiast, wielu badaczy przypomni sobie swoje pierwsze odpowiedzi i poświęci czas na nowy materiał, tym samym dążąc do zwiększenia swoich wyników - niekiedy z dobrej strony.

2. Poza natychmiastowymi efektami pamięciowymi, praktyka i zaufanie wywołane znajomością materiału prawie na pewno wpłyną na wyniki, gdy test zostanie podjęty po raz drugi.

3. Tak uzyskany wskaźnik wiarygodności jest mniej dokładny.

4. Jeśli przerwa między testami jest dość długa (ponad sześć miesięcy), współczynnik wzrostu i dojrzałość będą miały wpływ na wyniki i mają tendencję do obniżania wskaźnika wiarygodności.

5. Jeśli test zostanie powtórzony natychmiast lub po krótkiej przerwie czasowej, może wystąpić możliwość efektu przeniesienia / efektu transferu / pamięci / efektu treningu.

6. Po powtórzeniu tego samego testu, po raz drugi w tej samej grupie, uczniowie są bezinteresowni i dlatego nie lubią brać pełnego serca.

7. Czasami nie utrzymuje się jednolitości, która wpływa również na wyniki testu.

8. Szanse na omówienie kilku pytań po pierwszym podaniu, co może zwiększyć wyniki w drugiej administracji wpływające na rzetelność.

2. Metoda alternatywnych lub równoległych formularzy:

Oszacowanie wiarygodności za pomocą metody ekwiwalentnej formy wymaga użycia dwóch różnych, ale równoważnych form testu. Równoległe niezawodność formy jest również znane jako Alternatywna niezawodność formy lub Równoważna niezawodność formy lub Porównywalna niezawodność formy.

W tej metodzie wykorzystywane są dwie równoległe lub równoważne formy testu. Przez równoległe formy rozumiemy, że formy są równoważne pod względem zawartości, celów, formatu, poziomu trudności i wartości odróżniającej przedmiotów, długości testu itp.

Testy równoległe mają równe średnie wyniki, wariancje i interakcje między przedmiotami. Oznacza to, że dwie równoległe formy muszą być jednorodne lub podobne we wszystkich aspektach, ale nie duplikować elementów testowych. Niech dwie formy będą Formą A i Formą B.

Współczynnik wiarygodności może być postrzegany jako korelacja współczynników między wynikami dwóch równoważnych form testu. Dwie równoważne formy mają być prawdopodobnie podobne pod względem zawartości, stopnia, przebadanych procesów psychicznych, poziomu trudności oraz w innych aspektach.

Jedna forma testu jest podawana uczniom, a po zakończeniu natychmiast inna forma testu jest dostarczana do tej samej grupy. Uzyskane w ten sposób wyniki są skorelowane, co daje ocenę wiarygodności. Tak więc znaleziona niezawodność nazywana jest współczynnikiem równoważności.

Gulliksen 1950: zdefiniował testy równoległe jako testy mające równe środki, równe wariancje i równe współzależności.

Guilford: Metoda alternatywnej formy wskazuje zarówno na równoważność treści, jak i stabilność działania.

Zalety:

Ta procedura ma pewne zalety w stosunku do metody test-retest:

1. Tutaj ten sam test nie jest powtarzany.

2. Pamięć, trening, efekty przenoszenia i czynniki przypominające są zminimalizowane i nie wpływają na wyniki.

3. Współczynnik rzetelności uzyskany tą metodą jest miarą zarówno czasowej stabilności, jak i spójności odpowiedzi na różne próbki przedmiotów lub formularze testowe. Tak więc ta metoda łączy dwa rodzaje niezawodności.

4. Przydatne dla wiarygodności testów osiągnięć.

5. Metoda ta jest jedną z właściwych metod określania wiarygodności testów edukacyjnych i psychologicznych.

Ograniczenia:

1. Trudno jest mieć dwie równoległe formy testu. W pewnych sytuacjach (np. W Rorschach) jest to prawie niemożliwe.

2. Gdy testy nie są dokładnie takie same pod względem trudności z treścią, długości, porównanie dwóch zestawów wyników uzyskanych z tych testów może prowadzić do błędnych decyzji.

3. Czynności związane z praktyką i przeniesieniem nie mogą być w pełni kontrolowane.

4. Ponadto podawanie dwóch form jednocześnie powoduje nudę. Dlatego ludzie preferują takie metody, w których wymagane jest tylko jedno podanie testu.

5. Warunki badania podczas podawania Formularza B mogą nie być takie same. Poza tym, jądra mogą nie mieć podobnego stanu fizycznego, umysłowego lub emocjonalnego w obu okresach podawania.

6. Wynik testu drugiej formy testu jest ogólnie wysoki.

Chociaż trudne, ostrożnie i ostrożnie skonstruowane równoległe formy dawałyby nam w miarę satysfakcjonującą miarę niezawodności. W przypadku dobrze wykonanych standaryzowanych testów metoda formy równoległej jest zwykle najbardziej satysfakcjonującym sposobem określenia niezawodności.

3. Metoda połówkowa połówkowa lub podzielona metoda badawcza:

Metoda podzielonej połówki jest ulepszeniem w stosunku do wcześniejszych dwóch metod i obejmuje zarówno cechy stabilności, jak i równoważności. Omówione powyżej dwie metody szacowania niezawodności czasami wydają się trudne.

Może nie być możliwe dwukrotne użycie tego samego testu i uzyskanie równoważnych form testu. Dlatego, aby przezwyciężyć te trudności i zmniejszyć efekt pamięci, a także aby obniżyć koszty testu, pożądane jest oszacowanie niezawodności poprzez jednorazowe podanie testu.

W tej metodzie test jest podawany jednokrotnie na próbkę i jest najbardziej odpowiednią metodą na jednorodne testy. Ta metoda zapewnia wewnętrzną spójność wyników testu.

Wszystkie elementy testu są generalnie ułożone w rosnącej kolejności trudności i podawane jeden raz na próbce. Po podaniu testu dzieli się go na dwie porównywalne lub podobne lub równe części lub połówki.

Wyniki są ułożone lub są tworzone w dwóch zestawach otrzymanych z nieparzystej liczby pozycji i parzystej liczby osobno. Jak na przykład podawany jest test 100 elementów.

Oceny poszczególnych osób w oparciu o 50 pozycji liczb nieparzystych, takich jak 1, 3, 5, ... 99 i wyniki oparte na liczbach parzystych 2, 4, 6 ... 10, są oddzielnie ułożone. W części "A" oddaje się pozycje nieparzyste, a część "B" składa się z parzystej liczby pozycji.

Po uzyskaniu dwóch wyników na nieparzystych i parzystych liczbach elementów testowych obliczany jest współczynnik korelacji. Jest to naprawdę korelacja między dwiema równoważnymi połówkami wyników uzyskanych podczas jednego posiedzenia. Aby oszacować wiarygodność, stosuje się formułę Prearman-Brown Prophecy.

Formułę Spearmana-Browna podaje:

w którym r 11 = wiarygodność całego testu.

r 11/22 = współczynnik korelacji między dwoma testami połowicznymi.

Przykład 1:

Test zawiera 100 przedmiotów. Wszystkie te przedmioty są uporządkowane według stopnia trudności, gdy przechodzimy od pierwszej do setnej. Uczniowie odpowiadają na test, a test jest oceniany.

Punkty są otrzymywane przez uczniów w nieparzystej liczbie przedmiotów, a nawet liczba przedmiotów jest sumowana osobno. Współczynnik korelacji pomiędzy tymi dwoma zestawami wyników wynosi 0, 8.

Wiarygodność całego testu (lub)

Korzystając z tej formuły, należy pamiętać, że wariancja nieparzystych i parzystych połówek powinna być równa, tj

Jeśli nie jest to możliwe, można zastosować formuły Flanagana i Rulona. Te wzory są prostsze i nie wymagają obliczania współczynnika korelacji między dwiema połówkami.

Zalety:

1. W tym przypadku nie powtarzamy testu ani nie używamy jego równoległej formy, a zatem badane nie jest testowane dwukrotnie. Jako taki nie ma efektu przeniesienia ani efektu praktyki.

2. W tej metodzie zmniejsza się fluktuacje zdolności jednostki, ze względu na warunki środowiskowe lub fizyczne.

3. Ze względu na pojedyncze podawanie testu, codzienne funkcje i problemy nie przeszkadzają.

4. Eliminuje się trudności w konstruowaniu równoległych form testu.

Ograniczenia:

1. Test można podzielić na dwie równe połowy na kilka sposobów, a współczynnik korelacji w każdym przypadku może być inny.

2. Ta metoda nie może być stosowana do oszacowania niezawodności testów prędkości.

3. Ponieważ lest podawany jest raz, przypadkowe błędy mogą wpływać na wyniki na dwóch połówkach w ten sam sposób, a zatem skłonność do zwiększania współczynnika niezawodności.

4. Ta metoda nie może być stosowana w testach mocy i testach heterogenicznych.

Pomimo wszystkich tych ograniczeń, metoda split-half jest uważana za najlepszą ze wszystkich metod pomiaru niezawodności testu, ponieważ dane do określenia niezawodności uzyskuje się przy okazji, a tym samym zmniejsza czas, pracę i trudności związane z drugim lub wielokrotne podawanie.

4. Metoda Racjonalnej Równoważności:

Ta metoda jest również znana jako "Niezawodność Kuder-Richardson" lub "Konsystencja międzytystansowa". Jest to metoda oparta na pojedynczej administracji. Opiera się na spójności odpowiedzi na wszystkie elementy.

Najczęstszym sposobem na znalezienie spójności między itemami jest formuła opracowana przez Kudera i Richardsona (1937). Ta metoda umożliwia obliczenie wzajemnej korelacji elementów testu i korelacji każdego elementu ze wszystkimi elementami testu. J. Cronbach nazwał to jako współczynnik wewnętrznej spójności.

W tej metodzie zakłada się, że wszystkie przedmioty mają taką samą lub jednakową wartość trudności, korelacja między przedmiotami jest równa, wszystkie przedmioty mierzą zasadniczo tę samą zdolność, a test ma jednorodny charakter.

Podobnie jak metoda typu split-half metoda ta zapewnia również miarę wewnętrznej spójności.

Najpopularniejszą formułą jest Kuder-Richardson, czyli KR-21, który jest podany poniżej:

q = - p

p = 1 - q

Przykład pomoże nam obliczyć p i q.

Przykład 2:

60 studentów zdało egzamin, a spośród nich 40 studentów udzieliło poprawnej odpowiedzi na konkretną pozycję z testu.

p = 40/60 = 2/3

Oznacza to, że część uczniów podała poprawną odpowiedź na jeden konkretny element testu. W którym 20 uczniów podało nieprawidłową odpowiedź na ten przedmiot.

Zatem q = 20/60 lub 1 - 40/60

Dla każdej pozycji mamy znaleźć wartość p i q, następnie pq jest sumowane dla wszystkich pozycji, aby uzyskać Σpq. Pomnóż p i q dla każdej pozycji i sumy dla wszystkich pozycji. To daje Σpq.

Zalety:

1. Współczynnik ten dostarcza pewnych wskazówek, jak wewnętrznie spójne lub homogeniczne są elementy testów.

2. W niektórych aspektach teoretycznych równoważność racjonalna jest lepsza od techniki dzielonej połowy, ale rzeczywista różnica współczynników niezawodności wykrytych przez te dwie metody jest często nieistotna.

3. Metoda z podziałem na połowę po prostu mierzy równoważność, ale metoda racjonalnej równoważności mierzy zarówno równoważność, jak i homogeniczność.

4. Metoda ekonomiczna, ponieważ test jest wykonywany jednokrotnie.

5. Nie wymaga podawania dwóch równorzędnych form badań, ani nie wymaga dzielenia testów na dwie równe połowy.

Ograniczenia:

1. Współczynnik uzyskany tą metodą jest ogólnie nieco mniejszy niż współczynniki uzyskane innymi metodami.

2. Jeżeli elementy badań nie są wysoce homogeniczne, metoda ta przyniesie niższy współczynnik niezawodności.

3. Metoda Kuder-Richardson i metoda split-half nie są odpowiednie do testu prędkości.

4. Różne wzory KR dają inny wskaźnik niezawodności.