Wymagania wszelkich predyktorów przemysłowych: Ważność i niezawodność

Dwoma najważniejszymi wymaganiami dla każdego predyktora są ważność i niezawodność. W środowisku przemysłowym istnieją różne rodzaje lub typy ważności, chociaż najbardziej preferowana jest ważność predykcyjna. Istnieją również różne rodzaje miar niezawodności. Obawy dotyczące wiarygodności i trafności nie ograniczają się do czynników predykcyjnych, ale dotyczą również kryteriów.

Ważność:

Ważność predyktora można ogólnie zdefiniować jako stopień, w jakim predyktor osiąga określone cele użytkownika, mierząc to, co ma być mierzone. Konkretny rodzaj ważności zależy od konkretnego celu użytkownika w każdej sytuacji.

Predictive Validity:

Celem użytkownika jest wykorzystanie jego przyrządu pomiarowego do przewidywania przyszłych wyników pracowników na podstawie innej zmiennej (kryterium). Predykcyjna trafność jest ustalana statystycznie poprzez korelację i regresję. Ważnym rozróżnieniem trafności prognostycznej jest okres ważności. Wyniki predykcyjne są uzyskiwane od osób w jednym momencie (np. Czas wypożyczenia), a wyniki kryteriów uzyskuje się w późniejszym terminie (np. Pod koniec 6 miesięcy).

Wynikowy związek tak naprawdę reprezentuje "przewidywalną" moc instrumentu. Ważność predykcyjna jest najważniejszym rodzajem ważności w selekcji, ponieważ jest to jedyny typ, który naprawdę powiela sytuację wyboru. Inną nazwą, która jest czasem używana do predykcyjnej trafności, jest ważność następcza.

Ważność równoczesna:

Celem tutaj, przynajmniej teoretycznie, powinno być oszacowanie obecnych wyników pracowników na podstawie pewnej miary kryterium z wyników na predyktorze. Równoległa ważność jest również ustalana za pomocą technik korelacji i regresji, ale bez opóźnień czasowych między uzyskaniem wyniku predykcyjnego i kryterium. Próbka aktualnych pracowników służy do ustalenia relacji między predyktorem a kryterium, a następnie uzyskaną regresję można zastosować, uzyskując wyniki predyktorów dla pozostałych posiadaczy pracy.

Innymi słowy, jesteśmy zainteresowani przewidywaniem obecnego statusu ludzi, a nie ich statusu w przyszłości. Niezwykle ważne jest podkreślenie, że wysoka ważność współbieżna nie zapewnia wysokiej trafności prognostycznej. Niestety, trafność współbieżna jest zbyt często stosowana w przemyśle jako substytut ważności predykcyjnej.

Kierownictwo czasami nie chce czekać na czas wymagany przez metodę predykcyjną i może nie zdawać sobie sprawy, że obecni pracownicy mogą reprezentować zasadniczo inną populację pracowników od osób ubiegających się o pracę. Pracownicy, którzy są obecnie zatrudnieni, przeżyli badania przesiewowe zarówno w zakresie zatrudniania, jak i ciągłości, a biedniejsi pracownicy, którzy zostali zatrudnieni, mogli odejść dobrowolnie lub na żądanie. To sprawia, że ​​bardzo trudno uzasadnić generalizowanie równoczesnych trafności do predykcyjnej sytuacji ważności.

Ważność zawartości:

Kiedy walidator zakłada, że ​​jego predykator jest reprezentatywny dla danej klasy sytuacji, bierze udział w ważności treści. Ma określone pojęcie o rodzaju wiedzy, umiejętności, postawy lub wydajności, które powinny być wykorzystywane przez przyrząd pomiarowy, a on uważa instrument za ważny do tego stopnia, że ​​jego zawartość jest reprezentatywna dla tego, co chce wykorzystać. Ważności treści ogólnie nie da się zmierzyć w sensie statystycznym ani ilościowym.

Największe wykorzystanie trafności treści wśród użytkowników testów osiągnięć, takich jak egzaminy końcowe w kursie kolegialnym. Egzamin końcowy może być uznany za ważny pod względem merytorycznym tylko wtedy, gdy odpowiednio reprezentuje (próbkowane), w zakresie jego przedmiotów, zawartość kursu. Jeśli nie stanowiło to zakresu materiału szkoleniowego, z pewnością nie można go uznać za odpowiedni test do egzaminu końcowego, tj. Nie miałby on ważności merytorycznej.

Zbuduj ważność:

Przy tym typie ważności użytkownik chce wywnioskować, w jakim stopniu oceniane osoby mają jakąś cechę lub jakość (konstrukt), co do których zakłada się, że znajdują odzwierciedlenie w wynikach testu. Ogólna procedura obejmuje podawanie kilku instrumentów testowych, które logicznie wydają się mierzyć ten sam konstrukt, a następnie obserwowanie zależności między tymi miarami. Słuszność konstrukcji nie została w znacznym stopniu wykorzystana przez psychologa przemysłowego; częściej stosuje się go w sytuacjach teoretycznych, a nie pragmatycznych.

Syntetyczna ważność:

Można uważać syntetyczną trafność za "zakładaną" trafność predykcyjną. Załóżmy, że mamy test, który w wielu sytuacjach wykazał wysoki predykcyjny stosunek do różnych kryteriów wydajności dla brygad przemysłowych. Przypuśćmy ponadto, że mały zakład produkcyjny chce użyć testu przy wyborze brygadzistów, ale zbyt mało majstrów pracuje w fabryce, aby przeprowadzić równoczesne badanie ważności. Zakład ten może podjąć decyzję o zastosowaniu testu bez formalnej oceny statystycznej przy założeniu, że wykazano, że odnosi sukcesy w innych, większych zakładach.

Ta procedura może być uważana za ważną, jeżeli:

(1) Praca brygadzisty w tym zakładzie jest podobna do prac brygadzistów zajmujących się statystyczną oceną testu, oraz

(2) Kandydaci na brygadzistów w tym zakładzie są typowi (pochodzą z tej samej populacji), co kandydaci na brygadzistów zatrudnieni w większych zakładach. Poprawność syntetyczną należy zastąpić jedynie wartością predykcyjną z pełną świadomością jej możliwych ograniczeń.

Termin ważności:

Innym rodzajem wiarygodności często używanym do opisania testu jest stopień, w jakim użytkownik jest zainteresowany, aby jego test "wyglądał dobrze" dla osoby wykonującej test. Kandydaci do pracy często denerwują się, jeśli przewidywane instrumenty, które są wymagane, wydają się mieć niewielki lub żaden związek z pracą, o którą się ubiegają. Na przykład, jeśli ktoś wybiera ludzi na stanowisko operatora, a jako czynnik predykcyjny stosuje test umiejętności arytmetycznych, elementy testowe powinny raczej traktować liczby odnoszące się do problemów mechanicznych, niż być sformułowane w bardziej ogólnych kategoriach, takich jak kupowanie jabłek lub pomarańcze.

Jeśli wnioskodawca nie dostrzeże znaczenia predyktora dla pracy, o którą się ubiegał, jak to często bywa w testach osobowości, może ulec poważnej utracie motywacji w sytuacji testowej, stać się szyderczym lub, z drugiej strony, czuć się niepewnie. To nie tylko szkodzi programowi selekcji, ale może również zaszkodzić wizerunkowi firmy i uszkodzić obraz testów w dowolnej branży przemysłowej. Autorzy mogą zaryzykować przypuszczenie, że część złej reklamy otrzymywanej przez użytkowników urządzeń selekcyjnych w przemyśle może wynikać z faktu, że użytkownik nie ma potrzeby, by jego testy miały ważność twarzy.

Klasyfikacja wieku i doświadczenie zawodowe oraz ich wpływ na ważność:

Badanie wydajności pracowników w konkretnej pracy często wykazuje określoną zależność między takimi zmiennymi jak wiek i doświadczenie oraz kryterium. Im bardziej skomplikowana praca, tym więcej rodzajów relacji może istnieć. W przypadku wielu zawodów niezbędna jest znaczna ilość doświadczenia, zanim pracownicy staną się biegli w swojej pracy. Korelacja pomiędzy tymi zmiennymi a kryteriami sukcesu zawodowego stanowi poważny problem przy selekcji. Ostrożność jest niezbędna, szczególnie jeśli używa się procedury równoczesnej ważności jako metody ustalania użyteczności dowolnego urządzenia przewidującego.

Jeśli na przykład istnieje wysoka korelacja między kryterium a długością czasu pracy, jak należy interpretować wysoki współbieżny współczynnik ważności? Czy to oznacza, że ​​predykator rzeczywiście odzwierciedla różnice w umiejętnościach pracowników mierzone "" kryterium, czy też różnice między pracownikami wynikają przede wszystkim z doświadczenia w pracy? Jeśli jest to drugie, to wszystkie predyktory osiągną to rozróżnienie tych pracowników z długim stażem od tych, którzy zostali niedawno zatrudnieni.

Obserwowana trafność jest na ogół zawyżoną efektywnością predykcyjną instrumentu selekcyjnego. W rzeczywistości, o ile nie można jednoznacznie wykazać, że predykator nie jest skorelowany z cechami takimi jak wiek i kadencja, które same w sobie mogą determinować wydajność pracy, wszystkie zbieżne ważności uzyskane z tym predyktorem muszą być wysoce podejrzane.

Aby zilustrować tę kwestię, należy wziąć pod uwagę sytuację, w której osoba posiada kryterium, predyktor i zmienną związaną z kryterium, taką jak staż pracy, który w dużej mierze odpowiada za różnice umiejętności wskazane na kryterium przez pracowników, w następujący sposób:

C + D = Obserwowana równoczesna ważność predyktora

D = Ilość wariancji kryterium "niestabilności" uwzględniana przez predyktor

C = Ilość wariancji kryterium określona przez czas określony przez predyktor

Obserwowana trafność jest zazwyczaj, ale nie zawsze, zawyżona prawdziwą trafnością, ponieważ:

Prawdziwa lub bezstronna zgodna ważność, która reprezentuje korelację między predyktorem a kryterium, która jest całkowicie wolna od wpływu posiadania czasu pracy, wynika z równania:

Korelacja (r prawda ), jak pokazano na wykresie, przedstawia w sposób obrazowy to, co jest znane w statystykach jako "częściowy" współczynnik korelacji. Zgłasza korelację między predyktorem a kryterium po tym, jak efekty pracy zostały usunięte zarówno z oceny predyktorów, jak i wyników kryterialnych obecnych pracowników. Ważne jest, aby efekty kadencji zostały usunięte zarówno z kryterium, jak i z predyktora w sytuacji współbieżnej.

Jeśli te efekty nie zostaną statystycznie usunięte z tego kryterium, w końcu będziemy przewidywać wpływ kadencji, a nie wydajność pracy, z niewielkim lub żadnym odniesieniem do trafności prognostycznej. Jeśli wpływ na czas pracy nie zostanie usunięty z predyktora, możemy również uzyskać współczynnik ważności, który nie może być uznany za istotny w przypadku każdej prawdziwie predykcyjnej sytuacji ważności.

Z pewnością problemy zmiennych skorelowanych z kryteriami i predykcjami w ustawieniach równoległych ilustrują niektóre z poważnych ograniczeń związanych z tą metodą walidacji. Można bezpiecznie stwierdzić, że nie ma absolutnie żadnego równego substytutu dla rodzaju ważności znanej jako trafność predykcyjna podczas konstruowania i korzystania z instrumentu selekcyjnego.

Niezawodność:

Ogólnie rzecz biorąc, koncepcja ważności dotyczy tego, co jest mierzone przez urządzenie pomiarowe. Drugą i być może równie ważną cechą predyktorów jest potrzeba poznania spójności miary, niezależnie od tego, co jest mierzone. Innymi słowy, musimy ustalić stopień stabilności dowolnego urządzenia pomiarowego; pomiar uzyskany z predyktora musi być spójny. Stopień, w jakim jakikolwiek przyrząd pomiarowy jest spójny lub stabilny i dawałby w razie potrzeby te same wyniki, jeśli jest to konieczne, określa się jako wiarygodność tego przyrządu testowego.

Podobnie jak w przypadku wiarygodności, wiarygodność jest zwykle mierzona za pomocą współczynnika korelacji. Ponieważ wiarygodny pomiar oznacza stabilność z jednej sytuacji do drugiej, wiarygodny instrument powinien dawać albo te same wyniki, albo co najmniej podobne rankingi osób w dwóch sytuacjach. Obliczając korelację uzyskujemy matematyczną ekspresję stopnia, w jakim to występuje.

Zatem niezawodny przyrząd pomiarowy to taki, na którym osoby otrzymują ten sam wynik (lub prawie taki sam wynik) w powtarzanych pomiarach. Kiedy współczynnik korelacji jest używany do pomiaru podobieństwa ocen dla grupy osób w dwóch zastosowaniach tego samego miary, nazywany jest współczynnikiem rzetelności.

Rzeczywisty proces, w którym można ocenić wiarygodność środka zależy od wielu czynników. Istnieją trzy główne alternatywne "rodzaje" niezawodności, z których każda ma swoje oddzielne zalety i wady. Są wystarczająco różne w swojej logice, aby uzasadnić szczegółowe zbadanie każdej z nich.

Trzy techniki uzyskiwania niezawodności przyrządu to:

(1) Powtarzające się środki dla tych samych osób z tym samym testem lub przyrządu,

(2) Pomiar na tych samych osobach z dwiema "równoważnymi" postaciami przyrządu pomiarowego, oraz

(3) Rozdzielenie urządzenia pomiarowego na dwie lub więcej równorzędnych części i skorelowanie wyników "części".

Przed rozważeniem każdej metody powinniśmy zbadać w bardziej konkretny sposób pewne rodzaje niezawodności lub stabilności pomiaru, które moglibyśmy ewentualnie zainteresować w różnych okolicznościach.

Załóżmy, że za każdym razem, gdy używamy przyrządu pomiarowego do uzyskania oceny osoby, otrzymany wynik jest funkcją kilku czynników, jak następuje:

X i = X true + X error

Gdzie

X i = Obserwowany wynik dla osoby i na teście

X prawda = Prawdziwy wynik dla osoby i na teście - jest to rzeczywista ilość jakości zmierzona na podstawie testu, którą ja naprawdę posiadam.

Błąd X = Wynik błędu dla osoby i na teście - jest to kwota, na którą osoba jest oceniona, była zależna od działania różnych czynników losowych lub czasowych.

Gdyby wszystkie przyrządy pomiarowe i metody pomiarowe były "wolne od błędów", wówczas zawsze uzyskalibyśmy prawdziwe liczby ludzi, a korelacja pomiędzy dwoma pomiarami na tej samej grupie ludzi zawsze wynosiłaby + 1, 00 lub doskonałą niezawodność (zakładając brak zmian w można oczekiwać prawdziwych wyników). Niestety, taki bezbłędny pomiar nigdy nie jest całkowicie dostępny, ponieważ wiele różnych rzeczy? Przyczyniaj się do wydajności w danym momencie.

Zatem x i może być albo większy albo mniejszy niż X prawdziwy dla dowolnego określonego pomiaru, a korelacje wyliczone między pomiarami są zawsze mniejsze niż jedność. Jeśli chodzi o naszą obrazową reprezentację wariancji wydajności wśród ludzi na jakimkolwiek urządzeniu pomiarowym, niezależnie od tego, czy jest to test, czy wywiad, predyktor lub kryterium, tę całkowitą wariancję można podzielić na dwa główne komponenty prawdziwej wariancji i wariancji błędu.

Gdzie całkowita wariancja = całkowita zmienność obserwowanych wyników testu

Prawdziwa wariancja = zmienność ludzi pod względem ich rzeczywistych wartości mierzonej cechy

Wariancja błędu = zmienność oceny błędów ludzi

Rzetelność można zdefiniować jako stosunek wariancji rzeczywistej do całkowitej wariancji, lub

Im większa proporcja prawdziwej wariancji wyników, lub odwrotnie, tym mniejsza wariancja błędu występująca w procesie pomiarowym, tym większa wiarygodność pomiaru. Krytycznym czynnikiem różnicującym trzy główne procedury ustalania niezawodności jest podejmowanie decyzji o tym, co należy uznać za wariancję błędu i co należy uznać za prawdziwą lub systematyczną wariancję. Nie ma jednej niezawodności dla żadnego testu. Raczej niezawodność zależeć będzie od potrzeb chwili.

Na przykład psycholog może zadać dowolne z następujących pytań dotyczących procesu pomiaru:

1. Jak dokładnie mogę zmierzyć ludzi za pomocą tego testu w danym momencie?

2. Jak dokładnie środki podjęte w tym teście będą dzisiaj reprezentatywne dla tych samych osób w jakimś momencie w przyszłości?

3. Jak dokładnie wyniki w tym teście reprezentują prawdziwą zdolność tych osób do próbkowania przez próbę?

Wszystkie trzy są uzasadnionymi pytaniami dotyczącymi niezawodności. Jednak każdy z nich kładzie nieco inny nacisk na różne źródła błędów w wynikach testów.

Te źródła zmienności błędu zostały wyrażone przez Thorndike i Hagen (1963) jako:

1. Zmienność wynikająca z testu w danym momencie

2. Zmienność indywidualna od czasu do okresu

3. Zmienność wynikająca z konkretnej próbki zadań wybranych do reprezentowania mierzonej jakości

Przejdźmy teraz do zbadania każdej metody wiarygodności, pamiętając o źródłach błędów, abyśmy mogli określić, w jaki sposób każda metoda traktuje każde źródło.

Metoda ponownego testowania:

Jedną z oczywistych metod oceny stabilności jest mierzenie wydajności tej samej osoby dwukrotnie za pomocą tego samego przyrządu pomiarowego. Ten typ niezawodności obejmuje źródła zmienne 1 i 2 jako błąd. Tak więc uzyskana niezawodność to taka, która mierzy stabilność prawdziwego wyniku w czasie. Istnieje wiele problemów związanych z metodą test-ponowne testowanie, które są tworzone przez podwójne pomiary osobników w tym samym teście.

Na przykład, chyba że okres czasu jest dość długi między administracjami, zmienna czynnika pamięci może wpłynąć na reakcje ludzi w drugiej administracji. Kolejna trudność polega na tym, że zmienność wynikająca z konkretnej próbki zadań lub wybranych elementów traktowana jest jako systemowa wariancja, co zwiększa niezawodność.

Tak więc każda osoba, która przypadkiem zdarzyło się, że znała więcej odpowiedzi tylko dlatego, że kilka przedmiotów testowych dotknęło, powiedzmy, hobby tego człowieka, byłaby również faworyzowana w drugiej administracji, ponieważ te same przedmioty, a nie nowa próbka, są używany. Powinien więc uzyskać wysoką ocenę w obu testach, ponieważ źródło zmienności 3 jest traktowane jako prawdziwa wariancja.

Testy równoległe:

Jednym ze sposobów uniknięcia błędu źródła 3 jako prawdziwej wariancji jest użycie dwóch całkowicie porównywalnych lub "równoważnych" postaci przyrządu pomiarowego. Te dwie formy powinny być identyczne, jak to tylko możliwe, z tym wyjątkiem, że konkretne elementy lub pytania dotyczące każdej formy nie byłyby takie same, chociaż każdy z nich reprezentowałby podobną próbkę wybranych elementów. Jedna postać może być podawana bezpośrednio po drugiej lub może być podawana w odstępach czasu, w zależności od tego, czy chodzi o to, czy źródło wariancji 2 jest włączone jako wariancja błędu.

Ten rodzaj niezawodności, gdy stosuje się testowanie w odstępach, reprezentuje najbardziej rygorystyczną ocenę stabilności, jaką można uzyskać. Jednak często niemożliwe lub w najlepszym razie niezwykle trudne jest tworzenie alternatywnych form przyrządu pomiarowego.

W jaki sposób można skonstruować dwie alternatywne, ale równoważne formy miary wydajności pracy lub dwie alternatywne formy osobistej historii? W wielu przypadkach nie bez większych trudności. Ten brak prawdziwie porównywalnego urządzenia pomiarowego spowodował, że psychologowie zaczęli szukać dodatkowych metod oceny wiarygodności, oprócz procedur testowych i równoległych.

Podzielona metoda badawcza:

Trzecia główna metoda wiarygodności jest często określana jako miara wewnętrznej spójności urządzenia pomiarowego. Wskazuje to, w jakim stopniu ludzie oceniają to samo, w stosunku do siebie nawzajem, w różnych poddziałach całego instrumentu. Metoda ta jest prawdopodobnie najszerzej stosowaną metodą pomiaru wiarygodności, ponieważ wymaga ona skonstruowania tylko jednej formy, ale nie wymaga wielokrotnego podawania tej formy.

Jego mechanika jest bardzo prosta. W swojej najbardziej podstawowej formie metoda wewnętrznej spójności jest procedurą formularzy równoległych, w której równoległe formy są dwiema połówkami tego samego testu. Te pół-testy dobierane są tak, aby były jak najbardziej ekwiwalentne, chociaż często test jest po prostu podzielony na dwie połówki, umieszczając wszystkie pozycje o numerach nieparzystych w jedną połowę, a wszystkie pozycje o numerach parzystych na drugą połowę. Nazywa się to dziwną, parzystą wersją techniki dzielonej połowy.

Ważne jest, aby pamiętać, że rozdzielenie całego testu na równoważne połówki występuje tylko podczas oceniania tego testu, a nie podczas jego podawania. Ponieważ oba podtesty są po połowie dłuższe od oryginału, każda reprezentuje próbkę zachowania tylko o połowę większą niż cały test. Tak więc korelacja (niezawodność) między połówkami prawdopodobnie będzie niedoszacowaniem rzetelności wyników w oparciu o cały test.

Aby uzyskać oszacowanie rzetelności całego testu, formuła Prearman-Brown Prophecy może być zastosowana w następujący sposób:

r tt = 2r ½½ / 1 + r ½½

gdzie r tt = wiarygodność całego testu (oszacowany)

r 1/2 1/2 = obserwowana korelacja między dwiema połówkami testu.

Na przykład, jeśli obserwowana korelacja między połówkami wyniosła 0, 40, wówczas wzór proroctwa oszacowałby wiarygodność całego testu jako:

r tt = 2 (0, 40) / 1 + 0, 40 = 0, 80 / 1, 40 = 0, 57

Metoda podzielonej połówki zapewnia zatem metodę szacowania niezawodności za pomocą pojedynczego testu i pojedynczego podawania. Istnieją jednak pewne wady jego stosowania. Gdy ma się test obejmujący głównie czynniki prędkości (takie jak pewne proste testy urzędnicze), procedura zastępcza połowa daje fałszywie wysoki wynik.

Ponieważ testy prędkości zwykle zawierają łatwe elementy, to tylko kwestia, czy na nie odpowiedziano, czy są poprawne czy niepoprawne. W ten sposób, na przykład podział testu na nieparzyste, dałby praktycznie identyczne wyniki dla obu połówek - a więc wysoką dodatnią korelację.

Metoda Kuder-Richardsona:

Inna wersja metody split-half jest często używana do pomiaru niezawodności. W związku z techniką statystyczną znaną jako analiza wariancji, jej najczęstsza forma znana jest jako procedura Kuder-Richardson. Metoda Kuder-Richardson (KR) to także wewnętrzna niezawodność konsystencji, która traktuje każdy test jako podtest, tak że zamiast dwóch połówek, znajduje się n podtestów, gdzie n to całkowita liczba pozycji na przyrządzie pomiarowym. Technika KR jest równoważna obliczaniu wszystkich możliwych korelacji pomiędzy parami elementów testowych (będzie ich n [n - l] / 2), biorąc średnią z nich i dostosowując wynik za pomocą wzoru proroctwa Spearmana-Browna

Gdzie

r tt = szacowana niezawodność całego testu

r ii = średnia korelacja między pozycjami

K = liczba par przedmiotów

Podobnie jak procedura w formach podzielonych na pół, procedura Kuder-Richardson ignoruje źródło zmienności 2 i nie jest odpowiednia do testów prędkości.

Podsumowanie porównawcze przedstawiono w tabeli 2.4. Ta tabela pokazuje różne metody niezawodności i porównuje je pod względem rodzajów zmian, które zawierają jako wariancję błędu.