5 Studiów teoretycznych dotyczących testów przemysłowych

Kilka z wielu badań, które zostały przeprowadzone, zostanie zgłoszonych raczej całkowicie, aby zilustrować systematyczną dyscyplinę wymaganą przy używaniu testów do celów przemysłowych. Żadne z tych badań nie może być uznane za ilustrujące idealną "sytuację testową; każdy był prowadzony w granicach narzuconych przez konkretną sytuację przemysłową, ale każdy próbował, w możliwym stopniu, dostosować się do sztywnych standardów badań.

1. Badanie Bluma:

Badanie dotyczące wykorzystania testów zręcznościowych do wyboru pracowników fabryki zegarmistrzowskiej zostało przeprowadzone przez Bluma (1940 r.). Pierwszy etap badań wymagał analizy pracy różnych rodzajów prac wykonywanych w fabryce. To ujawniło następujące ważne wymagania: delikatne ruchy palców, manipulowanie pincetą i zdolność do wykonywania delikatnych, a czasami skomplikowanych zadań przez długi okres czasu bez żadnego wzrostu napięcia lub niedopasowania.

Przegląd dostępnych materiałów testowych wskazał, że ze względu na wymagania fabryki dotyczące krótkiego okresu testowania, zręczność palca Johnson O'Connor i test zręczności na pęsety byłyby prawdopodobnie najlepsze. Przed przystąpieniem do programu testów, zbadano różne dostępne kryteria sukcesu i uzyskano trzy środki: długość zatrudnienia, wskaźnik wynagrodzeń i oceny brygadzistów.

Kryterium długości zatrudnienia zostało podzielone na cztery kategorie. Pierwszą była grupa "krótsza niż tydzień". Większość pracowników w tej kategorii wyjechała lub została zwolniona w ciągu tygodnia z powodu słabej zdolności do wykonywania pracy. Z punktu widzenia tego kryterium grupa ta była najbiedniejsza.

Drugą kategorią była grupa "jeden tydzień do czterech miesięcy". Kierownictwo uważało, że praca można nauczyć się odpowiednio w ciągu czterech miesięcy. Ci, którzy nie mogli się tego nauczyć w tym czasie, albo zostali zwolnieni, albo zrezygnowali. Z punktu widzenia kierownictwa taki pracownik był nieefektywny; według pracownika nie mógł zarobić wystarczająco. W każdym razie stosunek pracy został zerwany.

Trzecią kategorią była grupa "cztery miesiące do roku". Pracownicy ci zostali uznani przez kierownictwo za umiarkowanie odnoszące sukcesy. Czwartą i ostatnią kategorią była grupa "rok lub dłużej". Pracownicy ci zostali uznani za najbardziej udanych; koszty szkoleń dla nich były najniższe, a grupa miała najwyższą produkcję.

Drugim kryterium był wskaźnik płac. Ponieważ wszyscy pracownicy pracowali na akord, zarobki były bezpośrednim odzwierciedleniem produkcji. Zastosowana wartość była średnią tygodniowych zarobków w okresie trzech miesięcy. Czas ten uznano za wystarczająco długi, aby uśrednić drobne piki lub luki w biznesie i niewielkie trudności w produkcji. Rzeczywiste kryterium zostało wyrażone w formie indeksu, przy zarobkach X dolara tygodniowo równych 100.

Trzecim kryterium była ocena pracowników przez brygadzistów. Każdy brygadzista został poproszony o przedstawienie ogólnej oceny na podstawie swojej opinii na temat przydatności i wydajności pracownika. Zgodnie z tą oceną każdy pracownik został sklasyfikowany jako doskonały, dobry, średni, ubogi lub niezadowalający.

Określono pięć miar wydajności testu. Dwa opierały się na prędkości (całkowity czas wymagany do wykonania każdego testu). Kolejnym miernikiem była ocena jakości, jakości każdego testu. Ponieważ to nadaje znaczenie dowolnemu obiektywnemu wynikowi, na przykład całkowitemu czasowi lub ukończonym przedmiotom, zostanie szczegółowo opisane w nadziei, że zachęci to do zastosowania takiej techniki pomiarowej.

Ocena jakościowa to ogólne oszacowanie przez egzaminatora wydajności testu. Obejmuje to, jak dobrze przedmiot podąża za wskazówkami, napięcie podczas testu i metodę użytą do ukończenia spektaklu. Skala ocen "dobry", "średni" i "słaby" została wykorzystana dla następujących cech: dokładność selekcji, chwytanie szpilek, pozycjonowanie szpilek, umieszczanie szpilek, drżenie ręki, warunki deski, tempo, pozycja i ruchy ramienia i postawy ciała.

Fakt, że występuje wyraźny rozkład jakościowych ocen wydajności, ilustrują wyniki tego szczególnego badania, przedstawione w tabeli 4.4.

Ta miara wyników testu powoduje ogólną ocenę przez eksperta sposobu podmiotu podczas testu. Większość testów wydajności i wiele testów ołówkiem i papierem łatwo nadaje się do takiej oceny. Oceny te są przydatne przy rozważaniu osoby do zatrudnienia. Piąta miara była porównaniem czasu potrzebnego do wykonania drugiej połowy testu zręczności palca i czasu wykonanego w pierwszej połowie. Założono, że różnica między łącznymi czasami w każdej połowie może mierzyć zdolność do poprawy prędkości, a zatem może być przydatna jako wskaźnik szybkości poprawy w miejscu pracy.

W tym badaniu wykorzystano 258 osób. Z tej liczby 137 było badanych osobników, 84 skierowano bez testów i stanowiły grupę kontrolną, a 37 zastosowano w badaniu pilotażowym poprzedzającym główne badanie. Ta ostatnia grupa była również uważana za grupę uzupełniającą. Wszystkie testy przeprowadzono w sprzyjających warunkach środowiskowych, to jest w pokoju testowym; a wszyscy badani wiedzieli, że biorą udział w teście, który ma być wykorzystany przez konkretną fabrykę zegarków do celów związanych z zatrudnieniem.

Dane zostały intensywnie przeanalizowane na trzy sposoby. Najpierw zbadano charakterystykę różnych kryteriów, a także ich wzajemne zależności. Po drugie, badano charakterystykę różnych wskaźników i ich wzajemnych zależności. Po trzecie, przeanalizowano związek między kryteriami sukcesu i wynikami testu; to był kluczowy krok.

Korelacje między kryteriami wskazywały, że każdy mierzył względnie inny aspekt sukcesu w pracy. Na przykład korelacja między ratingami brygadzistów a wskaźnikiem płac wynosiła +0, 13. Korelacja między długością zatrudnienia i ocenami brygadzistów wynosiła + 0, 25. Korelacja między wskaźnikiem płac a czasem zatrudnienia była najwyższa + 0, 44.

Cztery z pięciu miar wydajności testu - wyniki czasowe i jakość wykonania obu testów - zostały ustalone jako wiarygodne; ale jeden środek, ulepszenie, nie został ustanowiony jako wiarygodny. Porównanie każdej wzajemnej korelacji każdego z pięciu mierników wykazało, że wszystkie były niskie. Osiem było mniej niż +0, 2, a jedno było tylko nieznacznie wyższe.

Jedyna wysoka korelacja między oceną jakości i całkowitym czasem testu zręczności pincet; było to +0, 71. Jednak oceny jakości generalnie nie mogą być uważane za ściśle powiązane z prędkością, ponieważ korelacja między oceną jakości testu na palność zręczności a całkowitym czasem w teście wynosiła tylko + 0, 13. Niskie korelacje pomiędzy miarami testowymi i niskimi współzależnościami pomiędzy kryteriami pracy są w rzeczywistości bardziej korzystne niż wysokie wzajemne korelacje. Kiedy takie korelacje są wysokie, ich wartość predykcyjna jest ograniczona, ponieważ wszyscy będą przewidywać to samo. Z tego samego powodu, jeśli wszystkie kryteria pracy są silnie skorelowane, wszystkie będą mierzyć to samo, a nie różne aspekty sukcesu.

Łączny wynik czasowy testu palca i testu zręcznościowego na ogół miał najwyższą wartość prognostyczną kryteriów sukcesu zadania. Oceny jakości dotyczące wyników testu były cenne w niektórych przypadkach, ale poprawa w drugiej połowie testu zręczności palca nie była czynnikiem predykcyjnym dla żadnego z kryteriów.

Niektóre z konkretnych ustaleń są następujące (Blum, 1940):

1. Oceny jakości podczas testów pod kątem zręczności palców nie wskazywały na długość zatrudnienia. Jednak osoby z oceną "średnia lub niższa" w teście na zręczność pincet znalazły się w krótszych kategoriach zatrudnienia. Sześćdziesiąt jeden procent grupy, która otrzymała takie oceny, nie było już zatrudnionych po czterech miesiącach, a tylko 27 procent tych, którzy otrzymali oceny "powyżej średniej", zostało lub zostało zwolnionych w tym okresie. Różnica była statystycznie istotna. Kiedy oceny jakości obu testów zostały połączone i rozdzielone zgodnie z długością zatrudnienia, nie było statystycznie istotnych różnic między tymi ocenionymi wysoko i tymi ocenianymi nisko w testach.

2. Niskie korelacje odnotowano między ocenami jakości zarówno testu na sprawność, jak i wskaźników wynagrodzeń. Korelacje wyniosły +0, 17 ą 0, 11 dla testu zręczności palca i współczynników płac, +0, 15 ą 0, 11 dla testu zręczności pincetowej i współczynników płac, i +0, 05 ą 0, 12 dla połączonych ocen jakości i wskaźników wynagrodzeń.

3. Oceny jakości w teście palca były związane z oceną zawodników z oceną wydajności pracy przy współczynniku ryzyka wynoszącym + 0, 50. Wartości C dla oceny jakości pincet i oceny brygadzistów wynosiły + 0, 24. Współczynnik przygodności wynoszący + 0, 30 uzyskano, gdy oceny brygad były skorelowane z połączonymi ocenami jakości obu testów. (Maksymalne C = +0, 86.)

4. Poprawa w drugiej połowie testu zręczności palców nie była przewidywalna dla długości zatrudnienia.

5. Poprawa skorelowana ze wskaźnikiem płac - 0, 06 ± 0, 13. Jest to jedyne porównanie całego badania, które wykazało negatywny, choć niewiarygodny związek między wskaźnikami testowymi a kryteriami biegłości.

6. Spośród pracowników, którzy otrzymali oceny "A" od brygadzistów, 100 procent wykazało poprawę w drugiej połowie testu zręczności palca. Z pracowników, którzy otrzymali oceny "D", tylko 50 procent poprawiło się. Osiemdziesiąt cztery procent osób, które otrzymały oceny "B", poprawiło się, a 61% osób, które otrzymały oceny "C", poprawiło się. Różnica w procentach między tymi, którzy otrzymali oceny "A" i "D" nie jest statystycznie wiarygodna, prawdopodobnie ze względu na ograniczoną liczbę podmiotów.

7. Wyniki czasowe na testach zręczności palców i pincet były średnio szybsze, ponieważ wzrastał czas pracy. Różnica w stosunku do średniego czasu w teście zręczności palców pomiędzy grupami "mniej niż 7 dni" i "więcej niż 1 rok" była statystycznie znacząca. W tym samym porównaniu w teście na zręczność pincety różnica D / σ wynosiła 2, 5. Łączenie wyników czasowych zręczności palca i tweezera nie zwiększyło statystycznej wiarygodności różnicy, a różnica D / σ między grupami "mniej niż 7 dni" i "więcej niż 1 rok" wynosiła 2, 3.

8. Korelacja między czasem zręczności palca a wskaźnikiem płac wynosiła + 0, 26 ± 0, 10; pomiędzy czasem zręczności pincety a wskaźnikiem płac wynosi +0, 32 ± 0, 10; a pomiędzy połączonymi czasami testu i wskaźnikiem wynagrodzeń wynosił on + 0, 39 ± 0, 09.

9. Grupa "ponadprzeciętna" według ocen brygadzistów była o 5 sekund szybsza w teście zręczności palców i o 9 sekund szybciej w teście na zręczność pincety niż grupa "średnia i poniżej". Różnica w połączonych wynikach testu pomiędzy dwiema grupami wyniosła 12 sekund na korzyść osób otrzymujących powyżej średniej oceny. Różnice te nie były statystycznie wiarygodne.

10. Praktyczna wartość krytycznych wyników (ocena czasu 5 minut, 30 sekund lub więcej w teście na zręczność pincety i 7 minut, 30 sekund w teście na zręczność palców), które zostały zasugerowane w badaniu pilotażowym (Candee i Blum, 1937 ) jest wyraźnie wskazane w niniejszym dochodzeniu. Te wyniki dyskryminują pracowników fabryki zegarków ze znacznym stopniem dokładności zgodnie z kryteriami biegłości.

11. Porównanie według długości zatrudnienia wykazało, że 7 procent grupy, która "przeszła oba testy", pozostało w ciągu jednego tygodnia, podczas gdy 23 procent grupy "bez testu" i 24 procent grupy pracowników, którzy "zawiedli albo oba testy "były bezrobotne po tygodniu. Różnice w wartościach procentowych między pierwszą a ostatnią dwójką były statystycznie znaczące przy krytycznych wskaźnikach 3, 2 i 3, 4. Największą możliwość przedłużonego zatrudnienia stwierdzono w grupie, która "przeszła oba testy". Z tej grupy 72 procent pozostało cztery miesiące lub dłużej. Odsetek ten istotnie różnił się od udziału grupy "bez testu" (różnica D / σ o wartości 3, 1), a także od grupy, która "nie zdała jednego lub obu testów" (różnica D / σ od 4+).

12. Porównanie według wskaźników płac wskazało, że grupa, która "przeszła oba testy", zarobiła najwięcej pieniędzy. Zarobki tej grupy były statystycznie różne od zarobków grupy, która "nie zdała jednego lub obu testów". Grupa "bez testu" miała wyższą stawkę wynagrodzenia niż grupa, która "nie wykonała jednego lub obu testów". przeszedł oba testy "nie był znacząco lepszy od grupy" bez testu ".

13. Porównanie według rankingów brygadzistów wykazało tylko pewną tendencję. Grupa, która "zdała oba testy" została oceniona przez majstrów jako "lepsza niż przeciętna" w 34 procentach przypadków. Grupa, która "nie zaliczyła jednego lub obu testów" została oceniona jako "ponadprzeciętna" w 25 procentach przypadków. Różnica ta nie była statystycznie wiarygodna. Brak rozróżnienia między grupą "bez testu" a grupą "zdanych dwóch egzaminów" jest możliwe zgodnie z ocenami brygadzistów.

14. Obserwacja uczestników badania pilotażowego potwierdza wyniki obecnego badania, że wyniki w czasie na testach są wskaźnikami biegłości. Dwa lata przed "kontynuacją" 20 robotników zostało wybranych przez przełożonych jako przełożonych, a 17 jako przeciętni pracownicy w fabryce zegarków. Grupy te początkowo znacząco różniły się pod względem wyników testu zarówno w teście palca, jak i testu na tweezer.

Istotne różnice zostały później uzyskane między tymi grupami a priori pod względem:

(a) Procent rozładowania i

(b) Wskaźnik wynagrodzeń.

Przed przedstawieniem przeglądu innych badań pożądane jest zbadanie i rozważenie implikacji takich badań. Powyższe badanie nie było "idealne". Ze względu na warunki fabryczne niemożliwe było zastosowanie pożądanych kontroli naukowych. Na przykład grupy o równej wielkości w różnych kategoriach mogłyby być zorganizowane w laboratorium łatwiej niż w fabryce.

Wymagania badań często muszą odpowiadać panującym warunkom, ale tylko w zakresie planowania i metodologii. Oświadczenie nie zawiera wniosków z badań, ponieważ muszą one być zgłaszane niezależnie od warunków zakładu i muszą ściśle odpowiadać uzyskanym danym.

Psycholog przemysłowy jest uzasadniony w prowadzeniu badań laboratoryjnych jedynie jako wstęp do badań, w których sytuacja przemysłowa staje się koniecznie "laboratorium". Wnioski laboratoryjne nie mogą być uogólnione i stosowane na scenie przemysłowej bez sprawdzania ich w każdy możliwy sposób.

Niezależnie od tego, czy problem dotyczy testów do wyboru czy jakiegokolwiek innego celu, psycholog przemysłowy często musi zmodyfikować procedury i wykazać elastyczność w sposób, który może być niekonwencjonalny z naukowego punktu widzenia. Jeśli, na przykład, nie zaprzestanie sztywnych kontroli w niektórych przypadkach, może być zmuszony do rezygnacji z całego problemu. Dla psychologa przemysłowego, mniejszym z tych dwóch złych jest prowadzenie badań w przemyśle w najlepszych warunkach, jakie przemysł może zapewnić.

Dalsza ilustracja tego punktu dotyczy celowości posiadania dużej liczby osób do eksperymentu. Jednak organizacja przemysłowa często nie jest w stanie zatrudnić na dużą skalę. W takim przypadku lepiej poświęcić liczbę podmiotów niż całe badanie.

Zasada ta nie oznacza, że należy tolerować formę badań nazwaną eufemistycznie "badaniami ukierunkowanymi". Raporty z badań muszą zgadzać się z wnioskami opartymi na uzyskanych faktach. Psycholog przemysłowy, który nie zgłasza negatywnych wyników, ponieważ spowodowałoby to brak szacunku i może doprowadzić do jego zwolnienia, jest tak samo zły, jak dyrektor wykonawczy, który chce, aby badania wspierały jego pomysły sprzedaży, a zatem "kierowały" badaniami i ich odkryciami.

Przedyskutowane kwestie są ważne i powinny służyć jako narzędzie oceny nie tylko badań testowych, ale także innych rodzajów badań w tej dziedzinie. W tym celu zostanie opisanych kilka dodatkowych badań dotyczących wyboru testu.

2. Badanie Ghiselli:

W swoim studium testów do wyboru inspektorów pakujących, Ghiselli (1942) użył baterii kilku testów na grupie 26 kobiet pracujących jako inspektor-pakujący w koncernie farmaceutycznym. Na tym stanowisku było pięć głównych obowiązków: napełnianie pojemników, wstawianie korków, badanie zawartości za pomocą oczu, etykietowanie pojemników i pakowanie.

Praca, choć rutynowa, jest niezwykle ważna, ponieważ obecność obcej substancji lub niewłaściwe etykietowanie może spowodować poważną chorobę, a nawet śmierć każdego, komu przypadkowo sprzedano niewłaściwy produkt. Kryterium efektywności pracy było połączenie ocen przez forelady i przełożonego.

Analiza pracy wykazała, że ważne umiejętności, które powinny zostać zmierzone we wstępnej baterii testów, to:

1. Zręczność palców, dłoni i arras

2. Koordynacja ręka-oko

3. Oszacowanie wielkości i formy przedmiotów

4. Umiejętność obserwowania różnic w szczegółach

W tym celu pracownikom przekazano baterię sześciu testów. Stwierdzono, że średnia wydajność inspektorów-pakujących była znacznie wyższa niż średnia dla populacji dorosłych w testach Placing and Toczenie Minnesota i test Paper Form Board. Chociaż informacje te są przydatne, wybór jest uzasadniony tylko wtedy, gdy istnieje związek między wydajnością testu a wydajnością pracy.

Taki związek nazywany jest współczynnikiem ważności. Stwierdzono, że test płyty papierowej w stanie Minnesota jest ściślej skorelowany z kryterium niż jakikolwiek inny test w baterii; ten test był skorelowany z zakresem +0, 57. Test Pegboard korelował z kryterium w zakresie -0, 50, a test Toczenie w zakresie -0, 40. Pozostałe testy miały niższe korelacje z kryterium.

To badanie, podobnie jak poprzednio, ma braki. Kryterium biegłości stanowiła ocena przełożonych; ale ponieważ było to jedyne dostępne kryterium, musiało zostać użyte lub nie można było ocenić żadnych testów. Zbyt często w branży takie oceny stanowią jedyne dostępne kryterium.

Liczba osób, 26, jest mała; ale gdy pamiętamy, że stanowi to dużą liczbę osób wykonujących to samo zadanie, można je uznać za zadowalającą próbkę. W badaniu nie ma dowodów na powodzenie jego zaleceń, które zostały przyjęte do przyszłego wykorzystania; takie informacje, jak również zalecane wyniki krytyczne, są często pomocne w ocenie wykorzystania testów.

3. Badanie Hay:

Edwin N. Hay (1943), korzystając z zestawu testów, był w stanie przewidzieć 91 procent lepszych operatorów maszyn księgujących i 72 procent mniej zadowolonych operatorów. Przed ustaleniem tych wyników przestrzegano wszystkich procedur związanych z badaniami badawczymi i rozwojem. Obejmowały one analizy stanowisk ustalenie odpowiednich kryteriów pracy, wstępny wybór akumulatora testowego i badania statystyczne. Dopiero po wielu latach można było zalecić, aby konkretna bateria testowa okazała się skuteczna do celów prognozowania.

Analizy prac ujawniły, że wyjątkowym wymogiem prowadzenia księgowości maszynowej jest zdolność bimanualna. Szczegółowa analiza zleceń czasowych i ruchowych wykazała, że było 5 różnych operacji, które można podzielić na 18 ruchów. Średni czas dla pięciu operacji - wybranie karty księgi, wstawienie karty księgi, pobranie poprzedniego salda, kwota po sprawdzeniu i zwrócenie karty - wynosił 6, 8 sekundy.

W większości tych operacji używano oczu i obu rąk. Szybkość i dokładność były wymagane do pomyślnego wykonania tej pracy. Różnica między zdolnością najlepszych i najbiedniejszych operatorów była większa niż 2 do 1; to znaczy, najlepsi operatorzy wykonali ponad dwukrotnie więcej pracy niż najbiedniejsi operatorzy.

Zastosowane testy obejmowały test Otis Intelligence, test Minnesota Clerical, testy Zieglera Rate of Manipulation oraz inne testy umiejętności pisarskich, takie jak segregowanie i wyszukiwanie nazw. Podsumowując, podano 22 testy. Chociaż sześć z nich dotyczyło ręki, ręki i palców zręczności, żadna z tych sześciu nie wykazała istotnego związku z kryterium "szybkość oddelegowania".

Jednak test Otisa to Minnesota Clerical Test-Numbers, a seria wartości Alfa korelowała o +0, 50 lub więcej z tym kryterium. Technika wielokrotnej korelacji wskazała, że test Otisa i Minnesota Clerical miały korelację + 0-65 z kryterium. Najwyższa wielokrotna korelacja między baterią testową a kryterium wyniosła +0, 71 i obejmowała numery Otis, Minnesota, serię numerów alfa i wyszukiwanie nazw Fryer.

Badania Hay'a są cenne z wielu punktów widzenia. Dowody przedstawione w dalszym ciągu wskazują, że w tym przypadku testy zadziałały. Tabela 4.5 pokazuje stałą poprawę średniej produkcji księgowych, ponieważ wprowadzono selekcję opartą na testach.

4. Badanie Sartaina:

AQ Sartain (1945) przeprowadził próbę siedmiu testów w grupie 47 pracowników w dziale inspekcji fabryki samolotów. Kryterium zostało ustalone na podstawie ocen instruktorów w ramach kursu doskonalącego dla inspektorów. Instruktorzy byli również zaznajomieni z wynikami tych pracowników wbrew ich ocenom niewątpliwie odzwierciedlały tę wiedzę.

Testowa bateria zawierała MacQuarrie, Otis, Cardall Test of Practical Judgement, Minnesota Paper Form Board, Industrial Training Training Test, Bennett Test Mechanicznego Zrozumienia i O'Rourke Test Mechanicznej Aptitude. Różna korelacja całej tej baterii z kryterium wyniosła +0, 787.

Jednak trzy testy - MacQuarrie, Cardall i Minnesota Paper Form Board - przyniosły równie dobre wyniki, a korelacja wielokrotna wyniosła +0, 780. Ponieważ różnica między tymi dwiema korelacjami jest znikoma, wskazane byłoby użycie tych trzech testów, a nie wszystkich siedmiu.

5. Badanie Shumana:

John T. Shuman (1945) przeprowadził szereg testów dla grupy pracowników i kandydatów do różnych zadań w Lycoming Division korporacji lotniczej. Testy obejmowały: Otis, Minnesota Paper Form Board, Bennett Test Mechanicznego Rozumienia, O'Rourke Test Mechanicznej Umiejętności oraz Minnesota Vocational Test for Clerical Workers.

Badani pracownicy obejmowali m.in. inspektorów, testerów silników, operatorów maszyn, brygadzistów i pośredników pracy. Shuman informuje, że średnia poprawa w selekcji doskonałych pracowników wyniosła 18 procent w teście Bennetta, 15 procent w przypadku Otisa i 13 procent w przypadku Minnesota Paper Form Board. Krytyczne wyniki, które umożliwiły tę poprawę, oznaczały eliminację jednej na cztery badanych osób.

Stwierdzono, że test Bennetta w porównaniu z kryterium (ocenami) jest wysoce skorelowany z zadaniem ustawodawcy, którego korelacja wynosi +0, 73. Rada Minnesota Paper Form Board skorelowała +0, 59 z tą samą pracą. Test Otisa miał najwyższą korelację z zadaniem testera silnika, +0, 57. Shuman odkrył, że testy w jego baterii korelowały lepiej z zadaniami, które wymagają umiejętności, takich jak praca przy precyzyjnych częściach maszyn lub testowanie silników lotniczych, a nie czysto ręcznych.

Uważał, że testy mogą być bardziej przydatne przy przypisywaniu pracowników do poziomów kategorii stanowisk niż do konkretnych zadań. Innym przypadkiem, który zasługuje na wzmiankę, jest fakt, że jeden test musiał zostać odrzucony z powodu niezadowolenia ze strony badanych. To był Test Zdolności Mechanicznych O'Rourke, który był zbyt długi i okazał się prawie bezużyteczny w przypadku kandydatek kobiet, z których wielu nawet nie próbowało go przyjąć. Podkreśla to, że testowa bateria musi być pozytywnie odebrana przez wnioskodawców, jeśli do wyników mają zostać dołączone jakiekolwiek wartości.

Podsumowanie przykładów:

Wiele innych badań było tak samo skutecznych jak te opisane powyżej. Jednak dalsze przykłady będą jedynie podkreślać ten punkt. Zastosowanie testów psychologicznych w przemyśle wymaga badań i rozwoju w świetle konkretnego problemu i określonej rośliny. Fakt, że ta praca została wykonana wcześniej, nie czyni tego zbędnym. Oznacza to raczej, że szanse na sukces są poprawiane za każdym razem. Istotne jest to, że wyniki testów muszą być skorelowane z sukcesem zawodowym; nigdy nie można ich przyjąć za pewnik.