4 Niezbędne kryteria dobrego testu

Ten artykuł rzuca światło na cztery zasadnicze kryteria dobrego testu. Kryteriami tymi są: - 1. Wiarygodność 2. Ważność 3. Obiektywność 4. Użyteczność.

Kryterium nr 1. Wiarygodność:

Słownikowe znaczenie niezawodności to spójność, zależność lub zaufanie. Procedura pomiaru jest wiarygodna w zakresie, w jakim powtarzany pomiar zapewnia spójne wyniki dla osoby.

Test jest uważany za wiarygodny, jeżeli daje konsekwentne wyniki w jego kolejnym administrowaniu. Przez rzetelność testu rozumiemy więc, jak niezawodny lub wierny jest test. Aby wyrazić w sposób ogólny, jeśli przyrząd pomiarowy mierzy konsekwentnie, jest niezawodny.

Gdy test jest wiarygodny, wyniki uzyskane przez członków grupy po ponownym przetestowaniu z tym samym testem lub z alternatywnymi formularzami tego samego testu będą różnić się bardzo niewiele lub wcale od ich pierwotnych wartości.

Przykład 1:

Jeśli świadek przedstawia to samo oświadczenie w sprawie, gdy wielokrotnie go o to pyta adwokat w sądzie, ufamy jego oświadczeniu i bierzemy jego oświadczenie za wiarygodne.

Przykład 2:

Jeśli zegarek pozostaje 10 minut spóźniony każdego dnia w porównaniu do czasu Hindustan, możemy powiedzieć, że zegarek jest niezawodnym instrumentem.

Przykład 3:

Przypuśćmy, że poprosimy Amita o podanie daty urodzenia. Donosi, że jest 13 lipca 1985 r. Po upływie tego czasu zadaliśmy to samo pytanie i on sam zgłosił to samo, tj. 13 lipca 1985 r.

Możemy ciągle zadawać pytanie i jeśli odpowiedź jest taka sama, uważamy, że oświadczenie Amita jest wiarygodne.

Definicje:

1. Thorndike:

Jest to konsystencja testu, z którym mierzy to, co ma być mierzone. Niezawodność testu jest zwykle uważana za stopień, w jakim test jest wolny od błędów kompensacyjnych.

2. Gronlund i Linn:

Wiarygodność odnosi się do spójności pomiaru - czyli tego, w jaki sposób wyniki testów lub inne wyniki oceny są od jednego pomiaru do drugiego.

3. Anastasi:

Wiarygodność odnosi się do spójności ocen uzyskanych przez te same osoby po ponownym zbadaniu z tym samym testem przy różnych okazjach lub z różnymi zestawami równoważnych elementów lub w zmiennych warunkach badania.

4. Davis:

Stopień względnych dokładności pomiaru zestawu punktów testowych określa się jako wiarygodność.

5. Guilford:

Wiarygodność jest proporcją prawdziwej wariancji w uzyskanych wynikach testów.

Z powyższej dyskusji stało się jasne, że wiarygodność testu oznacza zakres, w jakim test daje ten sam wynik przy kolejnym podawaniu tej samej populacji. Pozostałe warunki pozostają niezmienne, jeśli ten sam test jest podawany w tej samej populacji przy dwóch różnych okazjach, a wyniki uzyskane przez osoby przy obu okazjach pozostają mniej więcej takie same, test mówi się, że jest wiarygodny.

Wiarygodność testu próbuje odpowiedzieć na następujące pytania:

(i) Jak podobne byłyby wyniki ucznia, jeśli są one poddawane temu samemu testowi przy dwóch różnych okazjach?

(ii) W jaki sposób wyniki będą się różnić, jeśli wybrana zostanie inna próbka równoważnych elementów?

(iii) W jaki sposób wyniki będą się różnić, jeśli test zostanie oceniony przez innego sekretarza?

(iv) W jaki sposób wyniki będą się różnić, jeśli test zostanie oceniony przez tego samego sekretarza w różnych momentach?

Charakterystyka niezawodności:

Niezawodność ma następujące cechy:

(i) Oszacowanie wiarygodności zawsze odnosi się do konkretnego rodzaju spójności.

(ii) Odnosi się do dokładności lub precyzji przyrządu pomiarowego.

(iii) Niezawodność odnosi się do wyników testu, a nie samego testu.

(iv) Jest to współczynnik wewnętrznej spójności.

(v) Wiarygodność zestawu pomiarów jest logiczna, jako proporcja wariancji, która jest prawdziwą wariancją.

(vi) Jest to miara błędu zmiennego lub błędu przypadkowego lub błędu pomiaru.

(vii) Niezawodność jest kwestią stopnia. Nie istnieje we wszystkich lub nie-podstawie.

(viii) Wiarygodność nie zapewnia trafności ani prawdziwości lub celowości testu.

(ix) Wiarygodność jest koniecznym, ale niewystarczającym warunkiem ważności. Niska niezawodność może ograniczyć uzyskany stopień wiarygodności, ale wysoka niezawodność nie zapewnia żadnego zadowalającego poziomu wiarygodności.

(x) Wiarygodność ma charakter głównie statystyczny w tym sensie, że wyniki uzyskane w dwóch kolejnych okazjach są ze sobą skorelowane. Współczynnik korelacji nazywany jest autokorelacją, a jego wartość nazywana jest "współczynnikiem niezawodności".

Wiarygodność i błędy pomiaru:

Definicje niezawodności można pogrupować pod trzema nagłówkami:

(i) empiryczne,

(ii) logiczne, i

(iii) Teoretyczny.

(i) Empiryczne:

Empiryczne definicje wiarygodności odnoszą się do zakresu korelacji między dwoma zestawami wyników w tym samym teście, którym podawano tę samą osobę przy różnych okazjach.

(ii) Teoretyczne:

Teoretyczne znaczenie odnosi się do spójności lub precyzji wyników testu. Oznacza to niezawodność wyniku testu.

(iii) Logiczne:

Logiczne znaczenie niezawodności odnosi się do błędów pomiaru.

Poniższa ilustracja może nam pomóc w zrozumieniu pojęcia niezawodności i błędów pomiaru:

Na przykład pan Rohit zabezpiecza 52 w teście mentalnym. Co oznacza 52? Czy mówi o jego prawdziwych zdolnościach? Czy to jego prawdziwy wynik? Rohit mógł zabezpieczyć 52 przez zwykły przypadek. Może się tak zdarzyć, że Rohit przez przypadek znał 52 elementy testu i gdyby elementy były nieco inne, nie uzyskałby tego wyniku.

Wszystkie te pytania wiążą się z faktem, że pomiar obejmuje niektóre rodzaje błędów, mianowicie błędy osobiste, stałe, zmienne i interpretacyjne. Ten błąd jest nazywany błędami pomiarowymi. Tak więc przy ustalaniu niezawodności testu, musimy wziąć pod uwagę ilość błędów występujących w pomiarze.

Kiedy współczynnik niezawodności będzie doskonały (tj. 1, 00), pomiar stanie się dokładny i wolny od wszelkiego rodzaju błędów. Ale pomiar w każdej dziedzinie wiąże się z pewnymi błędami. Dlatego niezawodność nigdy nie jest doskonała.

Wynik na teście może być traktowany jako wskaźnik prawdziwego wyniku plus błędy pomiaru.

Łączny wynik lub Rzeczywisty uzyskany wynik = Prawdziwy wynik + Wynik błędu

Jeśli wynik ma duży składnik "prawdziwego wyniku" i małego składnika błędu, jest wysoki; i przeciwnie, jeśli wynik testu ma mały składnik "prawdziwego wyniku" i dużego "błędu", jego niezawodność jest niska.

Relacje rzeczywistego otrzymanego wyniku, prawdziwego wyniku i błędu można wyrazić matematycznie w następujący sposób:

X = X _∞ + e

w którym X = Uzyskany wynik dla osoby w teście.

X _∞ = prawdziwy wynik tej samej osoby

e = błędy zmienne (przypadkowe).

Błędy pomiaru:

Prawdziwy wynik to średnia z uzyskanych wyników na nieskończonej liczbie równoległych form testu. Każdy uzyskany wynik będzie większy lub mniejszy od rzeczywistego wyniku. Odchylenia otrzymanych wyników od prawdziwych wyników są nazywane "Błędy pomiaru".

Czasami błędy pomiaru mogą być mniejsze, a czasem więcej. Inne rzeczy są równe, im mniejsze są błędy pomiaru, tym większa wiarygodność pomiaru.

Standardowy błąd pomiaru:

Błędy pomiaru (tj. Zmienność otrzymanych wyników od rzeczywistego wyniku) będą normalnie dystrybuowane, a standardowe odchylenie tych zmian (lub błędy pomiaru) jest określane jako "standardowe błędy pomiaru".

Możemy znaleźć standardowy błąd pomiaru (SE pomiaru), gdy podany jest współczynnik niezawodności i odchylenie standardowe rozkładu.

Wzór do obliczenia standardowego błędu pomiaru jest następujący:

w którym σ _sc = SE uzyskanego wyniku

σ ₁ = odchylenie standardowe wyników testów

r ₁₁ = współczynnik niezawodności tego samego testu.

Przykład 4:

W grupie 300 studentów, współczynnik rzetelności testu umiejętności w matematyce wynosi 0, 75, test M wynosi 80, a SD rozkładu punktacji to 16. John osiąga wynik 86. Co to jest SE tego wyniku ?

Rozwiązanie:

Z powyższej formuły wynika, że

a szanse wynoszą w przybliżeniu 2: 1, że uzyskany wynik każdej osoby w grupie 300 nie traci swojej prawdziwej wartości o więcej niż ± 8 punktów (tj. ± 1 SE _sc ). Przedział ufności .95 dla prawdziwego wyniku Johna wynosi 86 ± 1, 96 x 8 lub 70 do 102.

Generalizując dla całej grupy 300 uczniów, możemy oczekiwać, że około 1/3 ich wyników będzie błędem o 8 lub więcej punktów, a 2/3 będzie błędem o mniej niż ta kwota.

Kryterium nr 2. Ważność:

Słownikowe znaczenie trafności jest "dobrze oparte", "skuteczne", "dźwiękowe". Odnosi się do "prawdziwości". W związku z tym wszystko, co jest zgodne z prawdą, dobrze oparte i służy właściwym celom, jest ważne.

Każdy test ma określone cele. Jest skonstruowany do określonego celu i jest ważny do tego celu. Jeśli test mierzy to, co zamierza zmierzyć, mówi się, że jest ważny. Ważność zapewnia bezpośrednie sprawdzenie, w jakim stopniu test spełnia swoje funkcje. Ważność jest pierwszym warunkiem uniwersalności testu.

Wiarygodność może być konieczna, ale nie jest wystarczającym warunkiem ważności. Test nie może być ważny, chyba że jest wiarygodny. Może być wiarygodny, ale nie można powiedzieć, że jest ważny. Trafność testu dotyczy środków testowych i procesu pomiarów.

W skrócie, możemy powiedzieć, że test ma służyć funkcji predykcji, a zatem jego wartość lub ważność zależy od stopnia, w jakim udaje mu się oszacować wydajność w niektórych typach sytuacji rzeczywistych.

Przykład 5:

Przypuśćmy, że świadek składa jedno oświadczenie przed sędzią w sądzie. Jeśli podczas kolejnych egzaminów krzyżowych lub przesłuchań krzyżowych wielokrotnie powtarza to samo oświadczenie, wówczas należy go wezwać jako wiarygodnego świadka.

Bez wątpienia jego oświadczenie może być dobre lub złe. Kiedy jego wypowiedź jest prawdziwa, mówi się, że jest ważnym świadkiem. Ale jeśli jego oświadczenie jest konsekwentnie błędne, chociaż jest wiarygodne, ale nieważne.

Przykład 6:

Jeśli zegarek pozostaje 10 minut dalej niż "czas standardowy", jest to niezawodny czasomierz. Ponieważ zapewnia stały wynik każdego dnia z 10-minutowym opóźnieniem. Naszym celem jest prawidłowe poznanie czasu i nie mogliśmy tego wiedzieć. Tak więc sam cel nie jest obsługiwany. W związku z tym nie będzie ona ważna zgodnie z "Standardowym czasem".

Stwierdzono zatem, że test może być wiarygodny, ale może nie być prawidłowy. Jednak ważne środki lub testy są zawsze wiarygodne. Test, który jest ważny dla danego celu, może nie być ważny w innym celu.

Test, który został przygotowany do pomiaru umiejętności obliczeniowych uczniów w zakresie matematyki, może być ważny tylko w tym celu, ale nie do pomiaru matematycznego rozumowania. Tak więc ważność odnosi się do samego celu testu.

Definicje:

Anne Anastasi:

Pisze "ważność testu dotyczy tego, co test mierzy i jak dobrze to robi."

Rummel:

"Ważność urządzenia oceniającego to stopień, w jakim mierzy to, co ma mierzyć."

FS Freeman:

"Indeks ważności pokazuje stopnie, do których test mierzy to, co chce zmierzyć w porównaniu z przyjętym kryterium."

LJ Cronbach:

"Ważność to zakres, w jakim test mierzy to, co może mierzyć."

EF Lindquist:

Ważność to dokładność, z jaką mierzy to, co ma być mierzone, lub stopień, w jakim zbliża się do nieomylności w mierzeniu tego, co ma mierzyć.

Z powyższej dyskusji wynika, że ważność odnosi się do "bardzo celu testu" i jeśli cel jest spełniony, test należy uznać za ważny. Aby test był ważny, należy wykonać zadanie, które chciał wykonać.

Pojęcie ważności testu jest zatem przede wszystkim troską o "podstawową uczciwość" testu. Szczerość w sensie robienia tego, co się obiecuje. Mówiąc dokładniej, trafność odnosi się do tego, jak dobrze narzędzie mierzy to, co zamierza zmierzyć.

Charakter ważności:

1. Ważność odnosi się do prawdziwości lub celowości wyników testów, ale nie do samego instrumentu.

2. Ważność jest kwestią stopnia. Nie istnieje na zasadzie wszystko albo nic. Instrumentu przeznaczonego do mierzenia konkretnej zdolności nie można uznać za całkowicie prawidłową lub nieważną w ogóle. Zasadniczo jest bardziej lub mniej ważny.

3. Jest to miara "stałego błędu", podczas gdy niezawodność jest miarą "błędu zmiennego".

4. Ważność zapewnia niezawodność testu. Jeśli test jest ważny, musi być wiarygodny.

5. Ważność nie jest innego rodzaju. Jest to koncepcja jednostkowa. Opiera się na różnych rodzajach dowodów.

6. Nie ma czegoś takiego jak ogólna ważność. Test jest ważny dla pewnych celów lub sytuacji, ale nie jest ważny do innych celów. Innymi słowy, narzędzie jest ważne dla określonego celu lub konkretnej sytuacji; generalnie nie jest prawidłowy.

Na przykład wyniki testu słownictwa mogą być bardzo ważne do testowania słownictwa, ale mogą nie być tak ważne, aby sprawdzić zdolność kompozycji ucznia.

Kryterium # 3. Obiektywizm:

Obiektywność jest najważniejszą cechą dobrego testu. Jest to warunek wstępny zarówno pod względem ważności, jak i niezawodności. Obiektywność testu oznacza stopień, w jakim różne osoby dają punkty, taki sam wynik.

CV Good (1973):

CV Good (1973) określa obiektywność w testowaniu to "stopień, w jakim instrument jest wolny od osobistego błędu (osobistego nastawienia), który jest subiektywizmem po stronie sekretarza".

Gronlund i Linn (1995):

"Obiektywność testu odnosi się do stopnia, w jakim równie kompetentni strzelcy uzyskują takie same wyniki."

Można więc powiedzieć, że test jest uważany za obiektywny, gdy pozwala na wyeliminowanie osobistej opinii recenzenta i jego uprzedzenia.

Obiektywność testu odnosi się do dwóch aspektów:

(i) Obiektywizm przedmiotów, oraz

(ii) Obiektywizm punktacji.

(i) Obiektywizm przedmiotów:

Obiektywizm elementów oznacza, że przedmiot musi wywołać jednoznaczną pojedynczą odpowiedź. Obiektywne przedmioty nie mogą mieć dwóch lub więcej odpowiedzi. Gdy pytanie zostanie określone inaczej, nastąpi różnica w punktacji.

Na przykład:

"Wyjaśnij pojęcie osobowości".

W tym przypadku wyniki przyznawane przez klasyfikatorów będą się różnić w dużym stopniu, ponieważ pytanie nie wskazuje jednoznacznie na prawidłowość prawidłowej odpowiedzi, która jest oczekiwana.

Tutaj dziecko może napisać coś, co dotyczy pytania. Jeśli odpowiedź zostanie przyznana przez różnych egzaminatorów, oceny zdecydowanie się różnią.

Niejednoznaczne pytania, brak właściwego kierunku, pytania z podwójną beczką, pytania z podwójnymi negatywami, szerokie pytania typu esej, itp. Nie mają obiektywizmu. Tak więc należy zachować ostrożność podczas kadrowania pytań.

(ii) Obiektywizm punktowania:

Narzędzie jest obiektywne, jeśli daje taki sam wynik, nawet jeśli inni strzelcy zdobywają punkty. Obiektywność w punktacji może więc być uważana za spójność w ocenie przez różnych strzelców.

Dość często, w rzeczywistych sytuacjach, stwierdzamy, że kaprys lub uprzedzenia sekretarza wpływają na oznakowanie. Pytania, pytania dotyczące niektórych tematów, w których oceniający ma skłonność, mogą uzyskać więcej punktów niż pozostałe pytania.

Ten typ irracjonalnego temperamentu w stosunku do systemu punktacji jest rodzajem jego / jej subiektywnego traktowania sylabusa, co z kolei wpływa na proces oceny. Dlatego w celu dokładnej oceny należy zapewnić obiektywizm w ocenie.

Jednocześnie podmiotowość nie musi być potępiona i całkowicie wykluczona, ponieważ w ten sposób dokonuje się większości ocen w rzeczywistości. Subiektywna ocena oparta na uważnej obserwacji, bezstronnym i bezstronnym myśleniu oraz logicznej analizie sytuacji i zjawisk może również dać dokładną ocenę. Ten rodzaj zdyscyplinowanej podmiotowości może odgrywać ważną rolę nawet w sytuacji szkolnej.

Kryterium nr 4. Użyteczność:

Stopień użyteczności, do którego narzędzie oceny może być z powodzeniem stosowane przez użytkowników testowych.

Przeczytaliśmy już teraz trzy główne kryteria dobrego testu: Ważność, wiarygodność i obiektywność. Inną ważną cechą narzędzia jest jego użyteczność lub praktyczność. Przy wyborze narzędzi oceny należy zwrócić uwagę na pewne względy praktyczne, takie jak kompleksowość, łatwość administracji i punktacji, łatwość interpretacji, dostępność porównywalnych formularzy i koszt testów.

Wszystkie te rozważania skłaniają nauczyciela do korzystania z narzędzi oceny i takie praktyczne rozważania są określane jako "użyteczność" narzędzia oceny. Innymi słowy użyteczność oznacza stopień, w jakim narzędzie oceny może być z powodzeniem stosowane przez nauczyciela i administratorów szkolnych.

(i) Zrozumiałość:

Elementy testowe muszą być wolne od niejednoznaczności. Kierunek testowania przedmiotów i innych kierunków testu musi być jasny i zrozumiały. Wskazówki dotyczące administracji i wskazówki dotyczące punktowania muszą być jasno określone, aby można je było łatwo zrozumieć i przestrzegać. Ponadto procedura administrowania testem, punktacji i interpretacji wyników musi leżeć w zakresie zrozumienia użytkownika testu.

(ii) Łatwość administrowania:

Odnosi się do łatwości, w której można podawać test. Każdy test ma swoje własne warunki podawania. Przy wyborze testu należy wybrać jeden z zestawu testów, który można podawać bez większego przygotowania i trudności.

za. Łatwość podawania obejmuje jasne i zwięzłe instrukcje dotyczące administracji. Aby więc łatwo przeprowadzić test, wskazówki dla administratora i wskazówki dotyczące gustów powinny być proste, jasne i kompletne.

b. Czas jest również bardzo ważnym czynnikiem. W celu maksymalnego administrowania w szkołach zwyczajowo należy przeprowadzić test w ciągu normalnego okresu w klasie.

(iii) Łatwość zdobywania punktów:

Test w celu lepszego wykorzystania powinien mieć łatwość punktowania. Jego klucz punktacji powinien być gotowy i można go łatwo ocenić. Czasami miejsca są zarezerwowane po prawej stronie pytań, aby udzielić odpowiedzi.

W niektórych przypadkach odpowiedzi są podawane na oddzielnych arkuszach. Idealny test może zostać oceniony przez kogokolwiek, a nawet przez maszynę, która została wyposażona w klawisz punktacji. Równe punkty powinny być przypisane do każdej pozycji w teście, aby zwiększyć punktację.

Zgodnie z wykonalnością mogą być zapewnione urządzenia do ręcznego oceniania lub urządzenia do punktowania maszynowego.

(iv) Łatwość interpretacji:

Jeśli uzyskane wyniki testu można łatwo zrozumieć i zinterpretować, test uznaje się za dobry. W tym celu podręcznik testowy powinien zapewnić pełne normy interpretacji wyników, takie jak normy wieku, normy oceny, normy percentyla i standardowe normy wyników. Normy ułatwiają interpretację wyników testów.

(v) Podsumowanie testu:

Test powinien mieć fajny makijaż. To musi być dobry i atrakcyjny wygląd. Litery nie powinny być niepotrzebnie za małe ani za duże. Należy sprawdzić jakość użytego papieru, typografię i drukowanie, wielkość liter, odstępy, zdjęcia i diagramy, ich oprawienie, miejsce na reakcje uczniów itp.

(vi) Koszt testu:

Test nie powinien być zbyt kosztowny. Koszt powinien zostać zredukowany w możliwym zakresie, aby mógł być szeroko stosowany.