Systemy wymuszonej selekcji: używane do uzyskiwania ocen wydajności pracy

Jedną z najpopularniejszych metod uzyskiwania ocen wydajności jest technika określana jako "wymuszony wybór". Ta metoda oceny, która była wynikiem zwykłych problemów napotykanych podczas opracowywania instrumentów pomiaru osobowości, została szybko dostosowana do użycia w wydajności. ocena.

Historycznie, metoda wydawała się pochodzić z Horsta na początku lat 40. XX wieku, a także była używana przez Wherry w tym samym czasie. Metoda została zastosowana w wielu różnych sytuacjach i do różnych celów. W znakomitej krytyce metody wymuszonego wyboru Zavala (1965, s. 117) podsumowuje następująco:

Technika FC została wykorzystana do oceny zawodowego personelu, takiego jak oficerowie i żołnierze Sił Powietrznych (Gough, 1958, Wherry, 1959), patroli drogowi i policjanci (Peres, 1959, Stander, 1960), inżynierowie (Lepkowski, 1963), nauczyciele (Leftwich, 1962, Tolle i Murray, 1958) oraz lekarzy (Newman i Howell, 1961, Newman, Howell i Harris, 1957). Koncepcja FC została również wykorzystana do opracowania testów oceny lub pomiaru zainteresowań (Bendig, 1958, Peel, 1961), przywództwa i nadzoru (Izard i Rosenberg, 1958, Wollack, 1959) oraz postaw pracowników (Miller i Gekoski, 1959) .

Gordon (1951), Denton (1954) i Hatch (1962) zastosowali techniki FC do pomiaru osobowości i uzyskania miar empatii. Podejście FC było również wykorzystywane w problemach związanych z wykrywalnością sygnału i progami dźwiękowymi (Lukaszewski i Elliott, 1962, Swets, 1959). Blackwell (1952) użył metody FC do psychofizycznego pomiaru funkcji sensorycznych. Webster (1959) opracował test preferencji figury za pomocą techniki FC.

Budowa skali oceny Forced-Choice:

Guilford (1954, s. 275) bardzo jasno określił odpowiednie kroki, które należy podjąć, aby opracować instrument wymuszonego wyboru - tak wyraźnie, że warto tu powtórzyć.

Sugeruje następujące osiem kroków:

1. Uzyskuje się opisy osób, które są uznane za znajdujące się na najwyższych i najniższych krańcach ciągłości działania dla danej grupy, która ma być oceniona.

2. Opisy są analizowane na proste cechy zachowania, wyrażone w bardzo krótkich zdaniach lub frazach lub według nazw cech, które mogą być nazywane elementami służą do konstruowania przedmiotów.

3. Dwie wartości są określane empirycznie dla każdego elementu: wartości dyskryminacji i wartości preferencji. Wartość dyskryminacji jest wskaźnikiem ważności, a wartość preferencji jest wskaźnikiem stopnia, w jakim jakość jest ceniona przez osoby takie jak osoby oceniające, które będą używać tego instrumentu.

4. Podczas tworzenia elementu elementy są sparowane. Dwie instrukcje lub warunki o tej samej wysokiej wartości preferencji są sparowane, z których jedna jest ważna, a druga nie. Oba powinny mieć "ważność twarzy" dla ratera, tzn. Rater powinien myśleć, że oba są korzystne dla lepszej wydajności w grupie ocenianej. Dwie instrukcje lub terminy o mniej więcej niskiej wartości preferencji są również sparowane, jedna z nich jest ważna, a druga nie.

5. Dwie pary instrukcji, jedna para o wysokiej wartości preferencji i jedna z niską wartością preferencji, są łączone w tetrad, aby utworzyć element. Powodem tego rodzaju kombinacji jest to, że chociaż przeciętny rater nie sprzeciwi się wybraniu jednego z dwóch korzystnych opisów dla osoby, którą zna, czasami nie chce się wybrać jednego z dwóch nieprzychylnych opisów. Czasami dodaje się piąty neutralny opis, by utworzyć pentadę, ale jest to mniej powszechne.

Oto przykład tetradu:

Niedbały

Poważny umysł

Energetyczny

Snobistyczny

Stwierdzono, że cechy "poważnie nastawione" i "energetyczne" mają taką samą wartość preferencji, ponieważ były stosowane równie często, jak korzystne cechy w opisie rodzaju personelu, dla którego opracowano skalę. Stwierdzono jednak, że cecha "poważnie myśląca" jest ważna, ponieważ była stosowana do grupy o wysokim kryterium istotnie częściej niż do grupy o niskim kryterium. Cechy "beztroskie" i "snobistyczne" uznano za równie niepopularne, ale "niedbałe" odróżnia grupę niską od grupy o wysokim kryterium.

6. Instrukcja dla rater jest przygotowana. Rater ma reagować na każdy tetrad jako przedmiot, mówiąc, który z czterech najlepiej pasuje do ratera i który z nich jest najmniej odpowiedni.

7. Eksperymentalna forma instrumentu jest wypróbowywana w próbce, dla której istnieje zewnętrzne kryterium, w celu zatwierdzenia odpowiedzi, gdy opisy zostały utworzone w tym formularzu. Odpowiedzi rozróżniające są określane i, jeśli jest to pożądane, przypisywane są wagi różnicowe.

8. Na podstawie wyników z kroku 7 opracowywany jest klucz scoringowy. Zwykle ważna korzystna cecha oznaczona jako najbardziej opisowa dla danego wskaźnika otrzymuje wagę dodatnią, a także ważną, niekorzystną cechę uznaną za najmniej opisową.

Racjonalne uzasadnienie:

Oczywiście, z powyższego opisu logika nazwy "wymuszony" wybór jest natychmiast widoczna, ponieważ rater jest ciągle zmuszony do wybierania spośród równie korzystnych (lub niekorzystnych) alternatyw. To rzekomo uniemożliwi rycerzowi celowe sprawdzenie tylko najkorzystniejszych cech przy ocenie tych pracowników, którym może okazać się faworyzowaniem.

Jeśli wybierze odpowiedzi ściśle na podstawie tego, jak bardzo wydają się być korzystne, to teoretycznie nie będzie miał żadnego powodu, aby wybrać jedną cechę nad drugą w dowolnej parze, ponieważ zostały one na tej podstawie zrównane. Tak więc jego wybór byłby losowy, a przez przypadek w końcu wybierze cechę dyskryminującą połowę czasu.

Ponieważ każdy tetrad ma jedną korzystną parę (z dodatnim dyskryminatorem) i jedną niekorzystną parę (z ujemnym dyskryminatorem), losowa selekcja w każdej parze oznaczałaby, że rater wybrałby korzystnego dyskryminatora około połowy czas i niekorzystny dyskryminator mniej więcej w połowie przypadków.

W związku z tym wynik losowy lub losowy będzie wynosił zero (zakładając, że daje +1 dla każdego pozytywnego dyskryminatora i -1 dla każdego sprawdzonego negatywnego dyskryminatora). W takim stopniu, w jakim rater naprawdę próbuje dokładnie ocenić pracownika, będzie on wybierał cechy, które dyskryminują w parze pozytywnej, a nie wybiera cechy, które dyskryminują w parze negatywnej (zakładając, że ocenia dobrego pracownika) .

Jeśli ocenia słabego pracownika, jego wzór byłby odwrócony, ponieważ miał tendencję do wybierania cechy dyskryminującej częściej niż przypadkowo pośród pary negatywnej i wybierania cechy niedyskryminacyjnej częściej niż przypadkowo w parze pozytywnej. Dobrzy pracownicy powinni zatem otrzymać wysokie wyniki pozytywne i słabi pracownicy o wysokich wynikach negatywnych.

Wskaźniki wyboru:

Kluczem do udanej skali wymuszonego wyboru jest kilka typów wskaźników, które są uzyskiwane dla każdej cechy przed skonstruowaniem ostatecznej wersji skali ratingowej.

Różne wskaźniki są następujące:

A. Wskaźniki dyskryminacyjne

B. Porównywanie wskaźników

1. Indeks preferencji

2. Wskaźnik faworyzowania

3. Wskaźnik ważności

4. Wskaźnik pożądalności

Wskaźniki dyskryminacyjne:

Indeks dyskryminacyjny jest po prostu miarą stopnia, w jakim cecha odróżnia pracowników dobrych od złych. Wszystkie indeksy zwykle używane do analizy przedmiotów są potencjalnie odpowiednie do zastosowania jako mierniki dysfunkcjonalności cech, ponieważ dotyczy wyłącznie tego, jak ważna jest każda z cech w przewidywaniu, jak dobry może być pracownik. Aby omówić metody analizy przedmiotów, zapoznaj się z podstawowym tekstem z testów psychologicznych.

Porównywanie indeksów:

Uzasadnienie systemu wymuszonego wyboru wymaga, aby cechy były sparowane w taki sposób, aby były równie "atrakcyjne" dla ratera. Innymi słowy, jedna cecha nie może posiadać więcej cech, które prowadziłyby do jej zerwania z innej cechy przez ratera mającego pragnienie, by uprzedzić jego odpowiedzi. Wybór cech w dowolnej parze opiera się wyłącznie na ich dyskryminującej mocy, a nie na stereotypie populacji na temat samych cech.

Natychmiast zostajemy doprowadzeni do problemu, jakim jest próba ustalenia, jakie cechy cech mają skłonność do wpływania na reakcję osoby, która chce złagodzić swoje odpowiedzi.

Cztery takie cechy można uznać za potencjalnie ważne:

1. Preferencja dla cechy:

Najlepiej można to zdefiniować jako ogólną tendencję ratowników do wykorzystania tej cechy u wszystkich ludzi, niezależnie od tego, czy są dobrymi czy biednymi pracownikami. Sisson (1948) zdefiniował tę cechę jako "stopień, w jakim ludzie na ogół używają go w opisywaniu innych ludzi". W pewnym sensie preferencja cech jest miarą powszechności cechy w deskryptywnym słownictwie oceniających. Równoważenie par cech w kategoriach ich ogólnych preferencji z pewnością wydaje się logicznym krokiem, jeśli próbujemy usunąć zewnętrzne cechy przedmiotów, które prawdopodobnie wpłynęłyby na wybór ratera.

2. Faworyzacja cechy:

Cechy wyraźnie różnią się pod względem ich pozornej przydatności, gdy są używane jako deskryptor ludzi. Jak już wspomniano, format wymuszonego wyboru zazwyczaj łączy dwie korzystne cechy z dwiema niekorzystnymi cechami. Ważne jest również, aby dwie korzystne cechy okazały się równie korzystne, a dwie niekorzystne cechy były równie niekorzystne, lub można pokusić się o wybór najkorzystniejszej w każdej parze, aby wynik był jak najlepszy.

Korzystna cecha jest prawdopodobnie najczęściej stosowanym wskaźnikiem do porównywania par wymuszonego wyboru. Jest to wskaźnik, który jest względnie łatwy do uzyskania, ponieważ liczba sędziów ocenia każdą cechę pod względem jej faworyzowania do osoby, która będzie używana do opisania i użycia średniej wartości skali jako wskaźnika faworytowości.

3. Wskaźnik ważności:

Indeks ten został wymieniony przez Zavala (1965) i jest miarą "znaczenia tego stwierdzenia jako kwalifikacji do danego stanowiska" (Zavala, 1965, s. 118). Indeks ten uznaje, że osoba z tendencją tendencyjną jest bardziej skłonna do używania określonej sytuacji jako ramy odniesienia niż bardziej ogólne odniesienie. Oznacza to, że rater, który chce dobrze wyglądać, może być bardziej skłonny do wybrania tej specyficznej cechy, która jego zdaniem jest najważniejsza dla danego zadania, niż do wybrania tej cechy, która jest najkorzystniejszym ogólnym deskryptorem.

Wybór ratera, którego cecha najlepiej nadaje się do użycia, jest więc prawdopodobnie specyficzny dla danej pracy. Aby z powodzeniem zrównać cechy ze względu na ich znaczenie, konieczne jest uzyskanie wartości skali ważności (zwykle w taki sam ogólny sposób, w jaki uzyskuje się wartości skali faworyzowania) dla każdej różnej sytuacji ratingowej - zadanie, które czasami może być trudne ukończyć.

4. Wskaźnik pożądalności:

Pojęcie społecznego pożądania zostało omówione jako wpływ na określenie reakcji jednostek na inwentaryzacje osobowości. Efekt tej cechy jest prawdopodobnie równie ważny w sytuacjach ratingowych. Rozróżnienie między favourability a społecznym pożądaniem nie zawsze jest łatwe.

Oczywiście, cechy, które są uznawane za korzystne, również mogą być uważane za społecznie pożądane. Rozróżnienie to można zilustrować, biorąc pod uwagę faworyzowanie cechy, takiej jak inteligencja, która może być dość wysoka, podczas gdy jej społeczna potrzeba może być nieco niższa ze względu na ogólną kulturową reakcję przeciwko "jajogłom" itp.

Ramy referencyjne:

Nie tylko istnieje wiele różnych wskaźników, które można wykorzystać do zrównania par cech w formacie wymuszonego wyboru, ale istnieje również kilka zestawów lub ramek instrukcji, które mogą zostać przekazane sędziom podczas uzyskiwania wartości skali dla celów zrównywania . W rezultacie różne instrukcje mogą być dość krytyczne.

Na przykład, jeśli ktoś jest zainteresowany uzyskaniem wskaźników ważności, może dać sędziom jeden z następujących zestawów instrukcji:

(I) Daje każdej z cech wynik w oparciu o to, jak ważna jest dla ciebie cecha skutecznego wykonywania pracy, lub

(2) Każdej z cech należy przyznać ocenę opartą na tym, jak ważne jest, aby użytkownik ostatecznie wykorzystujący skalę uznał tę cechę za udaną pracę.

W pierwszym przypadku uzyskuje się wartości skali w oparciu o własne ramy odniesienia sędziów. W drugiej instancji sędziowie są proszeni o umieszczenie się w "butach" osoby, która ostatecznie zostanie poproszona o skorzystanie z instrumentu oceny wyników i wydanie orzeczeń tak, jakby były tą osobą. Wartości skali ważności uzyskane w tych dwóch zestawach warunków mogą się znacznie różnić.

Strategia "Ideal-Man":

Powiązanym problemem z ramowym pytaniem referencyjnym jest strategia raterowa określana jako strategia "idealnego człowieka". Jednym z typowych sposobów promowania odpowiedzi na skalę ocen z wymuszonym wyborem jest wybranie najlepszego pracownika i psychiczne zastąpienie jego cech charakterystycznych dla pracownika, którego faktycznie ocenia i kogo chce uzyskać dobry wynik.

Jeśli nie ma on na tyle dobrego pracownika, aby mógł zostać użyty jako przewodnik w rankingu, może on narysować mentalny wizerunek idealnego pracownika i wykorzystać go jako swój punkt odniesienia przy tworzeniu ocen. Tego typu celowe promowanie jest niezwykle trudne, ponieważ w pewnym sensie rater nie zwraca uwagi na rodzaje cech charakterystycznych, na które skala wymuszonego wyboru ma tendencję do ochrony.

Oznacza to, że rater ma tendencję do wykonywania "uczciwej" pracy z oceną, z wyjątkiem tego, że "mężczyzna", którego ocenia, kiedy kończy skale, jest zupełnie inną osobą niż ta, którą powinien oceniać. Kiedy rater jest na tyle sprytny, aby przyjąć tę strategię ratingową jako metodę podnoszenia wyników swoich przyjaciół itp., Niewiele można zrobić, aby uniknąć wynikowego nastawienia, nawet przy wymuszonym wyborze.

Badania nad metodą wymuszonego wyboru:

Metoda wymuszonego wyboru była przedmiotem wielu badań odkąd została wprowadzona w latach czterdziestych. Tak jak w przypadku wielu nowszych metod, okazało się, że jest to trochę mniej wyleczenia, niż się spodziewano, ale nadal wydaje się być jednym z najbardziej skutecznych sposobów zmniejszenia rażącego nastawienia dostępnego psychologowi przemysłowemu. Krótki przegląd niektórych ustaleń dotyczących różnych aspektów metody wymuszonego wyboru da wyobrażenie o ogólnym stanie metody.

Format pozycji wymuszonego wyboru:

W tym, co zostało uznane za jedno z klasycznych badań nad metodą wymuszonego wyboru, Highland i Berkshire (1951) porównali sześć różnych typów formatów przedmiotów pod względem (1) ich dziwnej, a nawet rzetelności, (2) ich podatności na stronniczość, gdy oceniający zostali poinstruowani, aby zapewnić wysoki wynik, (3) ich ważność w stosunku do kryterium złożonego z zaleceń uczniów w rankingu oraz (4) ich ogólnej popularności, określonej przez oceniających.

Sześć różnych rodzajów używanych formatów przedmiotów to:

1. Dwa stwierdzenia na pozycję, zarówno korzystne, jak i oba niekorzystne. Rater został poproszony o wybranie najbardziej opisowej pary instrukcji.

2. Trzy stwierdzenia na przedmiot, wszystkie korzystne lub wszystkie niekorzystne. Rater został poproszony o wybranie najbardziej i najmniej opisowego stwierdzenia.

3. Cztery stwierdzenia na przedmiot, wszystkie korzystne. Rater został poproszony o wybranie dwóch najbardziej opisowych stwierdzeń.

4. Cztery stwierdzenia na przedmiot, wszystkie korzystne. Rater został poproszony o wybranie najbardziej opisowego i najmniej opisowego.

5. Cztery stwierdzenia na przedmiot, dwa korzystne i dwa niekorzystne. Rater został poproszony o wybranie zarówno najbardziej jak i najmniej opisowych stwierdzeń.

6. Pięć stwierdzeń na przedmiot, dwa korzystne, dwa niekorzystne i jeden neutralny. Rater został poproszony o wybranie zarówno najbardziej jak i najmniej opisowych stwierdzeń.

Wyniki badania doprowadziły Highland i Berkshire do następujących wniosków:

Niezawodność:

Wszystkie formaty doprowadziły do ​​uzyskania współczynników wysokiej niezawodności, chociaż formaty 5 i 6 mogą być uważane za najlepsze wyniki tego kryterium.

Ważność:

Ogólnie uznano, że format 4 jest najbardziej prawidłowy, a format 3 działa z mocną sekundą. Oznacza to, że wykorzystanie jedynie korzystnych alternatyw wydaje się mieć wpływ na ważność.

Preferowane ustawienia:

Preferencje oceniających dla sześciu formatów jako (od większości do najmniej preferowanych) 3, 1, 6, 5, 4 i 2.

Podatność na błędy:

Formy różniły się znacznie pod względem stopnia, w jakim były odporne na celowe próby odchylenia. Kolejność odporności na obciążenie (od najmniej do najmniejszej) wynosiła 3, 2, 1, 4, 5 i 6.

Highland i Berkshire sugerują, że format 3 jest najlepszy z sześciu badanych, gdy rozważane są cztery kryteria wymienione powyżej.

Porównawcza ważność wymuszonego wyboru:

W badaniu Highland i Berkshire zbadano różne formaty wymuszonego wyboru między sobą. Równie ważne pytanie dotyczy trafności i wiarygodności metody w porównaniu z innymi procedurami oceny wyników.

Podczas przeglądu badań, które miały na celu zbadanie przewagi przymusowego wyboru pod względem ważności, Zavala (1965) podaje następujące punkty:

1. Zbyt wiele badań dotyczących ważności wymuszonego wyboru miało skłonność do stosowania innych form oceny jako kryterium. Jest to prawdopodobnie bardziej miara wiarygodności niż miara ważności.

2. Większość badań porównawczych wydaje się wykazywać niewielką przewagę pod względem wymuszonego wyboru w porównaniu z konwencjonalnymi metodami oceny.

3. Im dłużej ocena się skaluje, tym bardziej trafna jest metoda wymuszonego wyboru.

4. Ważność skali wymuszonego wyboru również może być funkcją rodzaju indeksu zrównującego używanego do konstruowania przedmiotów.

Podatność na błędy:

Chociaż kwestia ważności jest prawdopodobnie najważniejsza, którą można wykorzystać do oceny metody wymuszonego wyboru, kwestia stopnia, w jakim metoda podlega odchyleniom lub celowe zniekształcenie, jest również krytyczna. Rzeczywiście, metoda została specjalnie zaprojektowana w celu zmniejszenia błędu odpowiedzi, ponieważ nastawienie reakcji ma tendencję do zmniejszania trafności.

Dowody na skuteczność procedury przymusowego wyboru jako reduktora obciążenia są nieco niejednoznaczne. Wydaje się, że nie ma wątpliwości, że fałszowanie pozostaje możliwe w formacie siły wyboru, jak wskazali Sisson (1948), Howe (1960) oraz Howe i Silverstein (1960).

Wydaje się jednak, że istnieją znaczące dowody na to, że stopień sfałszowania jest zredukowany przez elementy wymuszonego wyboru. Karr (1959), Taylor i Wherry (1951) oraz Izard i Rosenberg (1958) podają trzy przykłady badań, które wskazują na odporność na fałszowanie poprzez wymuszony wybór, który przewyższa inne rodzaje skal.

Waters (1965) zasugerował ostatnio, że jedną z głównych trudności w badaniach nad fałszowaniem wymuszonego wyboru jest to, że "zestaw" do sfałszowania testu, który został ustalony, zazwyczaj różni się od "zestawu", w którym wskaźniki zrównywania były pierwotnie uzyskane. W związku z tym indeksy nigdy nie są w pełni odpowiednie dla faktycznej sytuacji oceny. Sugeruje, że istnieją trzy różne zestawy odpowiedzi, pod którymi można uzyskać wskaźniki zrównania (niezależnie od tego, który indeks jest używany).

1. Uczciwa ocena:

Udzielanie odpowiedzi, ponieważ respondent naprawdę wierzy, że oświadczenie dotyczy osoby podlegającej ocenie

2. Społeczna akceptowalność:

Odpowiadając, aby wyglądać na akceptowalnego dla siebie i dla innych ogólnie

3. Sukces:

Odpowiadając, aby wydawać się, że osoba posiada cechy niezbędne lub pożądane w odniesieniu do określonej pracy lub czynności

Ponadto Waters sugeruje, że badania podatności na uszkodzenia można podzielić na trzy ogólne klasy, w zależności od tego, jak zestaw odpowiedzi i skład grupy są zróżnicowane.

Cytując z Waters (1965, s. 189) mamy:

1. Badania podatności

Zestawy i grupy co najmniej podobne w sytuacjach, w których uzyskiwane są wskaźniki atrakcyjności, a skala jest podawana.

2. Badania dotyczące uogólnień:

Zestawy lub grupy, ale nie obie, zmieniły się z sytuacji, w której uzyskiwane są wskaźniki atrakcyjności do sytuacji, w której podawana jest skala.

3. Badania rozszerzające:

Zarówno zestawy, jak i grupy zmieniły się z sytuacji, w której uzyskiwane są wskaźniki atrakcyjności do sytuacji, w której podawana jest skala.

Nie należy mylić badań wrażliwości z tymi ostatnimi rodzajami badań. Są to jedyne typy, które bezpośrednio dostarczają testu na to, jak adekwatne są indeksy zrównujące w wykonywaniu swojej pracy. Te ostatnie dwa po prostu oceniają ogólność indeksu do innych sytuacji. Niestety, według Watersa większość badań podatności na falsyfikację do tej pory było albo badaniami uogólniającymi, albo rozszerzającymi; istnieje silna potrzeba niektórych badań, które bezpośrednio atakują kwestię podatności na fakcjonowanie.

Norman Study:

Jednym z ciekawszych badań nad problemem wymuszonego wyboru fałszowania i wykrywania jest badanie Normana (1963). Zajmował się dynamiką popularności przedmiotów i wskaźnikami dyskryminacji przedmiotów w normalnych warunkach iw warunkach falsyfikacji. Ponadto był zainteresowany określeniem, w jakim stopniu udawanie, jeśli miało miejsce, może być kontrolowane i / lub wykrywane.

Najważniejsze wnioski z badania dotyczące zachowania wskaźników popularności i dyskryminacji podano poniżej:

1. Wskaźniki dyskryminacji w normalnych i fałszywych warunkach były w przybliżeniu skorelowane

2. Wskaźniki popularności w normalnych i fałszywych warunkach były skorelowane nisko (0, 24 i 0, 23).

3. Wiarygodność wskaźników dyskryminacji w fałszywych warunkach wynosiła zero.

4. Wiarygodność wskaźników dyskryminacji w normalnych warunkach była umiarkowanie wysoka.

5. Wiarygodność wskaźników popularności była prawie idealna zarówno w warunkach normalnych, jak i fałszywych (0, 97 i 0, 98).

Ostatni z tych wyników (stwierdzenie 5) sugeruje, że różnica w popularności pomiędzy normalnym i fałszywym stanem musi być również bardzo wiarygodna (że znalezienie liczby 2, która mówi, że istnieją zasadnicze różnice, można zmodyfikować, aby sugerować, że takie różnice są wiarygodne i zgodny). Jednak nie zostało to bezpośrednio ocenione w badaniu.

Norman sugeruje następnie procedurę opracowania instrumentu z przymusowym wyborem, który będzie miał tę samą średnią w fałszywych warunkach, jak będzie w normalnych warunkach, ma mniejszą zmienność w fałszywych warunkach i ma bardzo wrażliwą skalę detekcji do identyfikacji fakerów.

Aby to osiągnąć, przedstawia następujące kroki:

1. Wybierz pozycje z wysokimi wskaźnikami dyskryminacji w normalnych warunkach (wybierz więcej, niż ostatecznie będzie wymagane).

2. Kolejność rangowa wybranych pozycji pod względem wielkości ich różnic w popularności w normalnych i fałszywych warunkach (patrz punkt 2 na powyższej liście).

3. Wybierz elementy po obu stronach zera (tyle, ile chcesz), upewniając się, że suma algebraiczna różnic popularności jest równa zero po zakończeniu.

Krok 3 zapewni (ponieważ wiemy, że różnice w popularności są wiarygodne), że średni wynik testu ludzi w normalnych warunkach będzie taki sam jak w przypadku fałszywych warunków. Dzieje się tak, ponieważ średnia z rozkładu wyników testów jest równa sumie popu- lacji przedmiotów. Zatem średnie wyniki w normalnych i fałszywych warunkach są zrównane. Testy skonstruowane za pomocą tej procedury będą również miały tendencję do różnic w ich wynikach punktacji testów, jeśli zostaną podjęte w zestawie do sfałszowania. Jest to wynik, który zmniejsza prawdopodobieństwo, że ludzie, którzy są skłonni udawać, otrzymają wystarczająco wysokie wyniki, aby zostać zaakceptowanymi.

Aby to zilustrować, należy wziąć pod uwagę schemat pokazany poniżej (rycina 7.4), w którym mamy rozkład wyników testów wykonanych w normalnych warunkach. (7.4a), rozkład wyników testów podjętych w zestawie do sfałszowania (7.4b), oraz rozkład złożony składający się z twórców i niefachowców (7, 4c).

Badanie na Rysunku 7.4c stanowi wskazówkę o kontrolującym wpływie, jaki metoda ta wywiera na celowych fakerów. W zwykłym ustawieniu oceny wydajności jesteśmy zainteresowani nagradzaniem tych, którzy osiągają wysokie wyniki w formie wymuszonego wyboru. Ponieważ wariancja fałszywej dystrybucji jest zmniejszona, można wybrać osoby, które uzyskały najwyższą punktację (te z prawej strony linii odcięcia w 7, 4c) bez ryzyka, że ​​wśród wybranej lub nagrodzonej grupy znajdzie się zbyt wielu zawodników.

Rysunek 7.5 pokazuje pięć różnych empirycznych demonstracji tego ograniczenia w wariancji uzyskanych w badaniu Normana.

Ostatnią cechą metody Normana jest to, że bardzo łatwo jest skonstruować skalę "wykrywania" w celu określenia, kto fałszuje, a kto nie.

Po prostu na skali umieszcza się kilka pozycji, które spełniają następujące wymagania:

1. Muszą mieć wartości bliskie zeru dla zmiennych kryterialnych.

2. Musieli wykazać dużą zmianę popularności od normalnej do fałszywej.

3. Ich popularność w normalnych warunkach musi być bardzo wysoka lub bardzo niska.

Następnie konstruuje się klucz, który ocenia rzadką odpowiedź w normalnych warunkach dla każdego elementu (to znaczy częstą odpowiedź w przypadku fałszywego stanu), ponieważ jedna odpowiedź wykazuje tendencję do udawania, a druga odpowiedź wskazuje na normalną odpowiedź.

Innym sposobem opisywania tych elementów wykrywania jest to, że ich popularność jest skorelowana z tendencją do fałszowania. Rysunek 7.6 pokazuje rozkład wyników w skali detektora uzyskanej przez Normana w warunkach normalnych i pod fałszywymi. Zauważ duże przesunięcie wyników, gdy ludzie zostali poproszeni o podróbkę. Punkt odcięcia około 20 miałby tendencję do identyfikowania większości oszustów bez fałszywego oskarżania wielu normalnych.