4 Powszechnie stosowane miary dyspersji

Istnieją cztery powszechnie stosowane miary wskazujące na zmienność (lub rozproszenie) w ramach zestawu miar. Są to: 1. Zasięg 2. Odchylenie kwartylowe 3. Odchylenie średnie 4. Odchylenie standardowe.

Środek # 1. Zakres:

Zakres to interwał między najwyższym a najniższym wynikiem. Zakres jest miarą zmienności lub rozproszenia zmienności lub obserwacji między sobą i nie daje wyobrażenia o rozprzestrzenianiu się obserwacji wokół jakiejś centralnej wartości.

Symbolicznie R = Hs - Ls. Gdzie R = zasięg;

Hs to "najwyższy wynik", a Ls to najniższy wynik.

Obliczanie zasięgu (dane niezgrupowane):

Przykład 1:

Wyniki dziesięciu chłopców w teście to:

17, 23, 30, 36, 45, 51, 58, 66, 72, 77.

Przykład 2:

Wyniki dziesięciu dziewczyn w teście to:

48, 49, 51, 52, 55, 57, 50, 59, 61, 62.

W przykładzie I najwyższy wynik to 77, a najniższy wynik to 17.

Więc zasięg jest różnicą między tymi dwoma wynikami:

. . . Zakres = 77 - 17 = 60

W podobny sposób, w przykładzie II

Zakres = 62 - 48 = 14

Tutaj stwierdzamy, że dziesiątki chłopców są szeroko rozproszone. Zatem liczba chłopców jest bardzo różna, ale wyniki dziewcząt niewiele się różnią (oczywiście różnią się one mniej). Zatem zmienność wyników chłopców jest większa niż zmienność wyników dziewcząt.

Obliczanie zasięgu (zgrupowane dane):

Przykład 3:

Znajdź zakres danych w następującej dystrybucji:

Rozwiązanie:

W tym przypadku górna wartość graniczna najwyższej klasy 70-79 wynosi Hs = 79, 5, a najniższy rzeczywisty limit najniższej klasy 20-29 wynosi Ls = 19, 5

Dlatego zakres R = Hs - Ls

= 79, 5 - 19, 5 = 60, 00

Zakres jest wskaźnikiem zmienności. Gdy zasięg jest większy, grupa jest bardziej zmienna. Im mniejszy zakres, tym bardziej jednorodna jest grupa. Zakres jest najbardziej ogólną miarą "rozrzutu" lub "rozproszenia" wyników (lub miar). Gdy chcemy z grubsza porównać zmienność dwóch lub więcej grup, możemy obliczyć zakres.

Zakres w porównaniu z powyższym jest w surowej postaci lub jest bezwzględną miarą dyspersji i nie nadaje się do celów porównawczych, szczególnie gdy serie są w dwóch różnych jednostkach. Dla celów porównania, współczynnik zasięgu oblicza się, dzieląc zakres przez sumę największych i najmniejszych pozycji.

Zalety:

1. Zasięg można obliczyć dość łatwo.

2. Jest to najprostsza miara rozproszenia.

3. Oblicza się je, gdy chcemy z grubsza porównać dwa lub więcej wykresów zmienności.

Ograniczenia:

1. Zasięg nie opiera się na wszystkich obserwacjach serii. Bierze pod uwagę tylko najbardziej ekstremalne przypadki.

2. Pomaga nam dokonać jedynie przybliżonego porównania dwóch lub więcej grup zmienności.

3. Zakres uwzględnia dwa skrajne wyniki w serii.

Zatem kiedy N jest małe lub gdy występują duże przerwy w rozkładzie częstotliwości, zakres jako miara zmienności jest dość niewiarygodny.

Przykład 4:

Wyniki z grupy A - 3, 5, 8, 11, 20, 22, 27, 33

Tutaj zakres = 33 - 3 = 30

Wyniki z grupy B - 3, 5, 8, 11, 20, 22, 27, 93

Tutaj zakres = 93 - 3 = 90.

Wystarczy porównać serię wyników w grupie A i grupie B. W grupie A, jeśli pojedynczy wynik 33 (ostatni wynik) zostanie zmieniony na 93, zakres jest szeroko zmieniany. Zatem pojedynczy wysoki wynik może zwiększyć zakres od niskiego do wysokiego. Właśnie dlatego zasięg nie jest wiarygodną miarą zmienności.

4. Bardzo duży wpływ ma wahanie pobierania próbek. Jego wartość nigdy nie jest stabilna. W klasie, w której normalnie wysokość uczniów waha się od 150 cm do 180 cm, jeśli zostanie dopuszczony krasnolud, którego wysokość wynosi 90 cm, zasięg strzeliłby od 90 cm do 180 cm.

5. Zasięg nie przedstawia serii i rozproszenia naprawdę. Rozkład asymetryczny i symetryczny może mieć ten sam zakres, ale nie takie samo rozproszenie. Ma on ograniczoną celność i powinien być używany z ostrożnością.

Nie powinniśmy jednak pomijać faktu, że zakres jest prostą miarą dyspersji i całkowicie nie nadaje się do precyzyjnych i dokładnych badań.

Środek # 2. Odchylenie ćwiartkowe:

Zakres to odległość lub odległość w skali pomiaru, która obejmuje 100 procent przypadków. Ograniczenia zakresu wynikają z jego zależności tylko od dwóch ekstremalnych wartości.

Istnieją pewne miary dyspersji, które są niezależne od tych dwóch ekstremalnych wartości. Najczęściej spotykane z nich jest odchylenie kwartyli, które opiera się na przedziale zawierającym środkowe 50 procent przypadków w danym rozkładzie.

Odchylenie ćwiartkowe jest o połowę odległością skali między trzecim kwartylem a pierwszym kwartylem. Jest to rozkład półkartylowy rozkładu:

Przed przyjęciem odchylenia kwartylowego musimy znać znaczenie ćwiartek i kwartetów.

Na przykład wyniki testu 20 punktów i te wyniki są ułożone w porządku malejącym. Podzielmy podział wyników na cztery równe części. Każda część będzie prezentować "kwartał". W każdym kwartale będzie 25% (lub 1/4 z N) przypadków.

Ponieważ wyniki są uporządkowane w malejącej kolejności,

Najlepsze 5 punktów będzie w pierwszym kwartale,

Następne 5 punktów będzie w drugim kwartale,

Następne 5 punktów będzie w trzecim kwartale, a

A najniższe 5 punktów będzie w czwartym kwartale.

Mając na celu lepsze przestudiowanie składu serii, konieczne może być podzielenie go na trzy, cztery, sześć, siedem, osiem, dziewięć, dziesięć lub sto części.

Zwykle seria jest podzielona na cztery, dziesięć lub sto części. Jedna pozycja dzieli serię na dwie części, trzy pozycje na cztery części (kwartyle), dziewięć na dziesięć części (decyle) i dziewięćdziesiąt dziewięć na sto części (percentyle).

Istnieją zatem trzy kwartyle, dziewięć decylów i dziewięćdziesiąt dziewięć percentylów w serii. Drugi kwartyl, piąty decyl lub 50. percentyl jest medianą (patrz rysunek).

Wartość elementu, który dzieli pierwszą połowę serii (z wartościami mniejszymi od wartości mediany) na dwie równe części, nazywana jest pierwszym kwartylem (Q 1 ) lub dolnym kwartylem. Innymi słowy, Q 1 jest punktem, poniżej którego leży 25% przypadków. Q 1 to 25 percentyl.

Drugi kwartyl (Mdn) lub środkowy kwartyl jest medianą. Innymi słowy, jest to punkt, poniżej którego znajduje się 50% wyników. Mediana to 50. percentyl.

Wartość przedmiotu, który dzieli drugą połowę serii (z wartościami większymi od wartości mediany) na dwie równe części, nazywa się trzecim kwartylem (Q 3 ) lub górnym kwartylem. Innymi słowy, Q 3 jest punktem, poniżej którego znajduje się 75% wyników. Q 3 to 75. percentyl.

Uwaga:

Uczeń musi wyraźnie rozróżnić ćwierć i kwartyl. Kwartał to zakres; ale kwartyle to punkt na skali. Ćwiartki są ponumerowane od góry do dołu (lub od najwyższego wyniku do najniższego wyniku), ale kwartyle są ponumerowane od dołu do góry.

Odchylenie ćwiartkowe (Q) jest o połowę odległością skali między trzecim kwartylem (Q 3 ) a pierwszym kwartylem (Q 1 ):

L = Dolna granica wartości ci, w której znajduje się Q 3,

3N / 4 = 3/4 ani 75% N.

F = suma wszystkich częstotliwości poniżej "L",

fq = Częstotliwość ci, na której znajduje się Q 3, i i = wielkość lub długość ci

L = Dolna granica wartości ci, w której znajduje się wartość Q 1,

N / 4 = Jedna czwarta (lub 25%) N,

F = suma wszystkich częstotliwości poniżej "L",

fq = częstotliwość ci, na której znajduje się Q 1,

i i = rozmiar lub długość ci

Zakres międzykwartylowy:

Zakres między trzecim kwartylem a pierwszym kwartylem jest znany jako zakres między kwartylami. Symbolicznie zakres kwartylny = Q 3 - Q 1 .

Zakres półkartylowy:

Jest to połowa odległości między trzecim kwartylem a pierwszym kwartylem.

Zatem SI R. = Q 3 - Q 1/4

Odchylenie Q lub Quartile jest inaczej określane jako zakres półokresylowy (lub SIR)

Zatem Q = Q 3 - Q 1/2

Jeśli porównamy formułę Q 3 i Q 1 ze wzorem median, następujące obserwacje będą jasne:

ja. W przypadku Mediana używamy N / 2, podczas gdy dla Q 1 używamy N / 4, a dla Q 3 używamy 3N / 4.

ii. W przypadku mediany używamy fm do oznaczenia częstotliwości ci, na której opiera się mediana; ale w przypadku Q 1 i Q 3 używamy fq do oznaczenia częstotliwości ci, na której znajduje się Q 1 lub Q 3 .

Obliczanie Q (dane niezgrupowane):

Aby obliczyć Q, musimy najpierw obliczyć Q 3 i Q 1 . Q 1 i Q 3 są obliczane w ten sam sposób, w jaki obliczaliśmy medianę.

Jedyna różnica to:

(i) w przypadku mediany liczyliśmy 50% przypadków (N / 2) od dołu, ale

(ii) w przypadku Q 1 musimy liczyć 25% przypadków (lub N / 4) od dołu i

(iii) w przypadku Q 3 musimy liczyć 75% przypadków (lub 3N / 4) od dołu.

Przykład 5:

Dowiedz się Q następujących wyników 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39.

Jest 20 punktów.

25% z N = 20/4 = 5

Q 1 jest punktem, poniżej którego leży 25% przypadków. W tym przykładzie Q 1 jest punktem, poniżej którego znajduje się 5 przypadków. Z samej kontroli uporządkowanych danych wynika, że ​​poniżej 24, 5 jest 5 przypadków. Zatem Q 1 = 24, 5

Podobnie Q 3 jest punktem, poniżej którego leży 75% easing.

75% z N = 3/4 x 20 = 15

Uważamy, że poniżej 35, 5, 15 przypadków kłamie

W ten sposób Q 3 = 34, 5.

W symetrycznym rozkładzie mediana leży w połowie skali Q1 i Q3. Dlatego wartość Q 1 + Q lub Q 3 - Q daje wartość mediany. Ogólnie jednak rozkłady nie są symetryczne, a więc Q 1 + Q lub Q 3 - Q nie dawałyby wartości mediany.

Obliczanie Q (dane zgrupowane):

Przykład 6:

Wyniki uzyskane przez 36 uczniów w teście przedstawiono w tabeli. Znajdź odchylenie kwartyli wyników.

W kolumnie 1 wzięliśmy klasę Interval, w kolumnie 2 wzięliśmy częstotliwość, aw kolumnie 3 zapisano skumulowane częstotliwości zaczynające się od dołu.

Tutaj N = 36, więc dla Q 1 musimy wziąć N / 4 = 36/4 = 9 przypadków, a dla Q 3 musimy wziąć 3BA / 4 = 3 x 36/4 = 27 przypadków. Patrząc na kolumnę 3, cf = 9 będzie uwzględnione w ci 55 - 59, którego aktualny limit wynosi 54, 5 - 59, 5. Q1 leżałby w przedziale 54, 5 - 59, 5.

Wartość Q 1 należy obliczyć w następujący sposób:

Do obliczenia Q 3 cf = 27 zostanie uwzględnione w ci 65-69, którego rzeczywiste ograniczenia wynoszą 64.5 - 69.5. Zatem Q 3 będzie leżał w przedziale 64, 5 - 69, 5, a jego wartość będzie obliczana w następujący sposób:

Interpretacja odchylenia kwartylowego:

Interpretując wartość odchylenia kwartylowego lepiej jest mieć wartości Median, Q 1 i Q 3, wraz z Q. Jeśli wartość Q jest większa, to dyspersja będzie większa, ale znowu wartość zależy od skali pomiaru. Dwie wartości Q należy porównywać tylko wtedy, gdy zastosowana skala jest taka sama. Q zmierzone dla wyników z 20 nie można bezpośrednio porównywać z Q dla wyników z 50.

Jeśli znane są mediana i Q, można powiedzieć, że 50% przypadków leży między "Median - Q" i "Median + Q". Są to środkowe 50% przypadków. Tutaj dowiedzieliśmy się o zakresie jedynie połowy 50% przypadków. To, w jaki sposób niższe 25% spraw i górne 25% spraw jest rozdzielane, nie jest znane za pomocą tego środka.

Czasami skrajne przypadki lub wartości nie są znane, w takim przypadku jedyną dostępną dla nas alternatywą jest obliczenie mediany i kwartylnego odchylenia jako miary centralnej, tendencji i dyspersji. Poprzez medianę i kwartyle możemy wywnioskować o symetrii lub skośności rozkładu. Daj nam zatem pojęcie o symetrycznych i wypaczonych rozkładach.

Symetryczne i wypaczone rozkłady:

Rozkład mówi się, że jest symetryczny, gdy częstotliwości są symetrycznie rozmieszczone wokół miary tendencji centralnej. Innymi słowy, możemy powiedzieć, że rozkład jest symetryczny, jeśli wartości w równej odległości po dwóch stronach miary tendencji centralnej mają równe częstotliwości.

Przykład 7:

Znajdź, czy dany rozkład jest symetryczny czy nie.

Tutaj miarą tendencji centralnej, średniej i mediany jest 5. Jeśli zaczniemy porównywać częstotliwości wartości po obu stronach 5, stwierdzimy, że wartości 4 i 6, 3 i 7, 2 i 8, 1 a 9, 0 i 10 mają tę samą liczbę częstotliwości. Więc rozkład jest idealnie symetryczny.

W rozkładzie symetrycznym średnia i mediana są równe, a mediana leży w równej odległości od dwóch kwartyli, tj. Q 3 - Mediana = Mediana-Q 1 .

Jeżeli rozkład nie jest symetryczny, to odejście od symetrii odnosi się do jej pochylenia. Pochylenie wskazuje, że krzywa jest skierowana bardziej w stronę jednej strony niż drugiej. Krzywa będzie miała dłuższy ogon po jednej stronie.

Uważa się, że skośność jest dodatnia, jeśli dłuższy ogon znajduje się po prawej stronie, a ujemny, jeśli dłuższy ogon znajduje się po lewej stronie.

Poniższe rysunki pokazują wygląd krzywej wypukłej i negatywnie wypaczonej:

Q 3 - Mdn> Mdn - Q 1 oznacza + ve skewness

Q 3 - Mdn <Mdn - Q 1 wskazuje - ve skewness

Q 3 - Mdn = Mdn - Q 1 wskazuje zerowe pochylenie

Merits of Q:

1. Jest to bardziej reprezentatywna i godna zaufania miara zmienności niż ogólny zakres.

2. Jest to dobry wskaźnik gęstości punktów w środku dystrybucji.

3. Kwartyle są użyteczne przy wskazywaniu skośności rozkładu.

4. Podobnie jak mediana, Q ma zastosowanie do dystrybucji otwartych.

5. Gdziekolwiek mediana jest preferowana jako miara tendencji centralnej, jako miara dyspersji preferowane jest odchylenie kwartyli.

Ograniczenia Q:

1. Jednakże, podobnie jak mediana, odchylenie kwartylu nie jest możliwe do traktowania algebraicznego, ponieważ nie bierze pod uwagę wszystkich wartości rozkładu.

2. Oblicza tylko trzeci i pierwszy kwartyl i mówi nam o zakresie. Od Q 'nie możemy uzyskać prawdziwego obrazu o tym, jak wyniki są rozproszone od wartości centralnej. To znaczy, że "Q" nie daje nam żadnego pojęcia o składzie wyników. "Q" z dwóch serii może być równe, ale seria może być dość odmienna pod względem składu.

3. Z grubsza daje pomysł rozproszenia.

4. Ignoruje wyniki powyżej trzeciego kwartyla i wyniki poniżej pierwszego kwartylu. Po prostu mówi nam o środkowych 50% dystrybucji.

Zastosowania Q:

1. Kiedy mediana jest miarą centralnej tendencji;

2. Kiedy dystrybucja jest niekompletna na obu końcach;

3. Gdy istnieje rozproszony lub skrajny wynik, który nieproporcjonalnie wpływałby na SD;

4. Kiedy koncentracja wokół mediany - środkowe 50% przypadków jest przedmiotem zainteresowania.

Współczynnik odchylenia kwartylowego:

Odchylenie kwartylowe jest bezwzględną miarą dyspersji i aby uczynić ją względną, obliczamy "współczynnik odchylenia kwartylowego". Współczynnik oblicza się, dzieląc odchylenie kwartyli przez średnią kwartli.

Jest on podany przez:

Współczynnik odchylenia kwartylowego = Q 3 - Q 1 / Q 3 + Q 1

Gdzie Q 3 i Q 1 odnoszą się odpowiednio do górnego i dolnego kwartyla.

Środek # 3. Średnie odchylenie (AD) lub średnie odchylenie (MD):

Jak już omówiliśmy zakres, a "Q" z grubsza daje nam pewne pojęcie o zmienności. Zakres dwóch serii może być taki sam lub odchylenie kwartyli dwóch serii może być takie samo, ale dwie serie mogą być odmienne. Ani zakres, ani "Q" nie mówią o składzie serii. Te dwa środki nie uwzględniają indywidualnych wyników.

Metoda średniego odchylenia lub "średnie odchylenie", jak to się czasami nazywa, ma tendencję do usuwania poważnego niedoboru obu metod (Range i "Q"). Średnie odchylenie jest również nazywane pierwszym momentem rozproszenia i jest oparte na wszystkich elementach w serii.

Średnie odchylenie jest średnią arytmetyczną odchyleń szeregu obliczonych z pewnej miary tendencji centralnej (średnia, mediana lub mod), wszystkie odchylenia uważane są za dodatnie. Innymi słowy, średnia odchyleń wszystkich wartości od średniej arytmetycznej jest znana jako średnie odchylenie lub średnie odchylenie. (Zwykle odchylenie pochodzi od średniej rozkładu).

Gdzie Σ jest sumą całkowitą;

X jest wynikiem; M jest średnią; N to całkowita liczba punktów.

A "d" oznacza odchylenie indywidualnych wyników od średniej.

Obliczanie średniej odchylenia (dane niezgrupowane):

Przykład 8:

Znajdź średnie odchylenie dla następującego zestawu zmienności:

X = 55, 45, 39, 41, 40, 48, 42, 53, 41, 56

Rozwiązanie:

Aby znaleźć średnie odchylenie, najpierw obliczamy średnią dla danego zestawu obserwacji.

Odchylenia i bezwzględne odchylenia podano w tabeli 4.2:

Przykład 9:

Znajdź średnie odchylenie dla wyników podanych poniżej:

25, 36, 18, 29, 30, 41, 49, 26, 16, 27

Średnia z powyższych wyników wyniosła 29, 7.

Aby obliczyć średnie odchylenie:

Uwaga:

Jeśli zastosujesz jakąś algebrę, zobaczysz, że Σ (X - M) wynosi zero

Obliczanie średniej odchylenia (dane zgrupowane):

Przykład 10:

Znajdź średnie odchylenie dla następującego rozkładu częstotliwości:

Tutaj, w kolumnie 1, zapisujemy ci, w kolumnie 2, zapisujemy odpowiednie częstotliwości, w kolumnie 3 zapisujemy punkty środkowe ci, które są oznaczone w kolumnie 4 jako "X", piszemy iloczyn częstotliwości i punktów środkowych ci oznaczonych przez X, w kolumnie 5 zapisujemy bezwzględne odchylenia średnich punktów ci od średniej, która jest oznaczona przez | d | aw kolumnie 6 zapisujemy iloczyn bezwzględnych odchyleń i częstotliwości, oznaczonych przez | fd |.

Merity of Mean Deviation:

1. Średnie odchylenie jest najprostszą miarą rozproszenia uwzględniającą wszystkie wartości w danym rozkładzie.

2. Jest to łatwo zrozumiałe nawet dla osoby niezbyt dobrze zorientowanej w statystykach.

3. Nie ma to dużego wpływu na wartość przedmiotów ekstremalnych.

4. Jest to średnia odchyleń poszczególnych ocen od średniej.

Ograniczenia:

1. Średnie odchylenie ignoruje algebraiczne znaki odchyleń i jako takie nie jest zdolne do dalszego matematycznego traktowania. Jest więc używany tylko jako opisowa miara zmienności.

2. W rzeczywistości MD nie jest powszechnie używany. Jest on rzadko stosowany we współczesnych statystykach, a ogólnie dyspersję bada się za pomocą odchylenia standardowego.

Zastosowania MD:

1. Kiedy trzeba zważyć wszystkie odchylenia w zależności od ich wielkości.

2. Kiedy wymagane jest poznanie stopnia, w jakim środki są rozłożone po obu stronach średniej.

3. Gdy skrajne odchylenia mają niewłaściwy wpływ na odchylenie standardowe.

Interpretacja odchylenia od średniej:

Aby zinterpretować średnie odchylenie, zawsze lepiej jest spojrzeć na to wraz ze średnią i liczbą przypadków. Średnia jest wymagana, ponieważ średnia i średnia odchyłka są odpowiednio punktem i odległością w tej samej skali pomiaru.

Bez średniej nie można interpretować średniej odchyłki, ponieważ nie ma żadnej wskazówki co do skali pomiaru lub jednostki miary. Liczba przypadków jest ważna, ponieważ miara rozproszenia zależy od tego. W przypadku mniejszej liczby przypadków środek prawdopodobnie będzie większy.

W dwóch przykładach mamy:

W pierwszym przypadku średnie odchylenie wynosi prawie 25% średniej, natomiast w drugim przypadku jest mniejsze. Ale średnie odchylenie może być większe w pierwszym przypadku z powodu mniejszej liczby przypadków. Zatem dwa średnie odchylenia obliczone powyżej wskazują na prawie podobne rozproszenie.

Środek # 4. Odchylenie standardowe lub SD i wariancja:

Spośród wielu miar dyspersji najczęściej stosowaną miarą jest "odchylenie standardowe". Jest także najważniejsza ze względu na bycie jedyną miarą dyspersji nadającej się do leczenia algebraicznego.

Tutaj również rozważane są odchylenia wszystkich wartości od średniej rozkładu. Ten środek ma najmniej wad i zapewnia dokładne wyniki.

Usuwa wady ignorowania znaków algebraicznych podczas obliczania odchyleń pozycji od średniej. Zamiast lekceważyć znaki, wyrównujemy odchylenia, czyniąc je pozytywnymi.

Różni się od AD w kilku aspektach:

ja. W obliczeniach AD lub MD pomijamy znaki, podczas gdy w ustalaniu SD unikamy trudności z znakami poprzez wyrównanie poszczególnych odchyleń;

ii. Odchylenia kwadratowe stosowane w obliczaniu SD są zawsze pobierane ze średniej, nigdy z mediany lub trybu.

"Odchylenie standardowe lub odchylenie standardowe to pierwiastek kwadratowy średniej kwadratów odchyleń poszczególnych wyników od średniej rozkładu."

Aby być bardziej zrozumiałym, należy tutaj zauważyć, że obliczając SD, dzielimy wszystkie odchylenia osobno. Znajdź ich sumę, podziel sumę przez całkowitą liczbę punktów, a następnie znajdź pierwiastek kwadratowy średniej odchyłek do kwadratu.

Tak więc SD jest również nazywane "odchyleniami średnimi od średniej" i na ogół jest oznaczone małą grecką literą σ (sigma).

Symbolicznie, odchylenie standardowe dla niezgrupowanych danych jest zdefiniowane jako:

Gdzie d = odchylenie indywidualnych ocen od średniej;

(Niektórzy autorzy używają "x" jako odchylenia poszczególnych ocen od średniej)

Σ = suma całkowita; N = całkowita liczba przypadków.

Średnie odchylenia kwadratowe określa się jako wariancję. Lub w prostych słowach kwadrat o standardowym odchyleniu nazywany jest Drugim momentem dyspersji lub wariancji.

Obliczanie SD (dane niezgrupowane):

Istnieją dwa sposoby obliczania SD dla niezgrupowanych danych:

(a) Metoda bezpośrednia.

(b) Metoda skrócona.

(a) Metoda bezpośrednia:

Znajdź odchylenie standardowe dla wyników podanych poniżej:

X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9

Ta metoda wykorzystuje formułę (18) do wyszukiwania SD, która obejmuje następujące kroki:

Krok 1:

Oblicz średnią arytmetyczną danych:

Krok 2:

Napisz wartość odchylenia d, tj. X - M, dla każdego wyniku w kolumnie 2. Tutaj odchylenia punktów będą przyjmowane od 12. Teraz odkryjesz, że Σd lub Σ (X - M) jest równe zeru. Pomyśl, dlaczego tak jest? Sprawdź to. Jeśli tak nie jest, znajdź błąd w obliczeniach i popraw go.

Krok 3:

Wyrównaj odchylenia i zapisz wartość d 2 dla każdego wyniku w kolumnie 3. Znajdź sumę kwadratów odchyleń. Σd 2 = 84.

Tabela 4.5 Obliczanie SD:

Wymagane odchylenie standardowe wynosi 2, 9.

Krok 4:

Obliczyć średnią kwadratów odchyleń, a następnie znaleźć dodatni pierwiastek kwadratowy dla uzyskania wartości odchylenia standardowego, tj. Σ.

Używając wzoru (19), Wariancja będzie σ2 = Σd2 / N = 84/10 = 8.4

(b) Metoda skrócona:

W większości przypadków średnia arytmetyczna podanych danych jest wartością ułamkową, a następnie proces przyjmowania odchyleń i ich uśredniania staje się uciążliwy i zajmuje wapno przy obliczaniu SD

Aby ułatwić obliczenia w takich sytuacjach, odchylenia mogą być przyjmowane od przyjętej średniej. Skorygowana skrócona formuła obliczania SD będzie wtedy,

gdzie,

d = Odchylenie wyniku od przyjętej średniej, np. AM; tj. d = (X - AM).

d 2 = Kwadrat odchylenia.

Σd = Suma odchyleń.

Σd 2 = Suma kwadratów odchyleń.

N = liczba wyników lub odmian.

Procedura obliczania została wyjaśniona w następującym przykładzie:

Przykład 11:

Znajdź SD dla wyników podanych w tabeli 4.5 z X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9. Użyj metody skróconej.

Rozwiązanie:

Przyjmijmy założoną średnią AM = 11.

Odchylenia i kwadraty odchyleń wymaganych we wzorze podano w poniższej tabeli:

Umieszczenie wartości z tabeli we wzorze, SD

Metoda skrócona daje taki sam rezultat, jaki uzyskaliśmy przy użyciu metody bezpośredniej w poprzednim przykładzie. Jednak metoda skrócona redukuje pracę obliczeniową w sytuacjach, gdy średnia arytmetyczna nie jest liczbą całkowitą.

Obliczanie SD (dane zgrupowane):

(a) Metoda długa / metoda bezpośrednia:

Przykład 12:

Znajdź SD dla następującej dystrybucji:

Tutaj również pierwszym krokiem jest znalezienie średniej M, dla której musimy wziąć punkty środkowe c.i oznaczonych przez X 'i znaleźć produkt f X. ". Średnia jest podana przez Σ f x '/ N. Drugim krokiem jest znalezienie odchyleń środkowych punktów odstępów klasowych X 'od średniej tj. X'-M oznaczonej jako d.

Trzecim krokiem jest skorygowanie odchyleń i znalezienie iloczynu kwadratowych odchyleń i odpowiedniej częstotliwości.

Aby rozwiązać powyższy problem, ci są zapisywane w kolumnie 1, częstotliwości są zapisywane w kolumnie 2, punkty środkowe c.i, tj. X 'są zapisane w kolumnie 3, iloczyn f X' jest zapisany w kolumnie 4, odchylenie X 'ze średniej jest napisane w kolumnie 5, kwadratowe odchylenie d 2 jest zapisane w kolumnie 6, a produkt f d 2 jest zapisany w kolumnie 7,

Jak pokazano niżej:

Tak więc odchylenia punktów środkowych należy zaczerpnąć z 11.1.

Zatem wymagane odchylenie standardowe wynosi 4, 74.

(b) Metoda skrócona:

Czasami w metodzie bezpośredniej obserwuje się, że odchylenia od rzeczywistej średniej dają dziesiętne wartości, a wartości d 2 i fd 2 są trudne do obliczenia. Aby uniknąć tego problemu, stosujemy krótką metodę obliczania odchylenia standardowego.

W tej metodzie, zamiast przyjmować odchylenia od rzeczywistej średniej, przyjmujemy odchylenia od odpowiednio dobranej założonej średniej, np. AM

Następująca formuła jest następnie używana do obliczania SD:

gdzie d oznacza odchylenie od przyjętej średniej.

Następujące etapy są następnie zaangażowane w obliczanie odchylenia standardowego:

(i) Uzyskanie odchyleń wariacji od założonej średniej AM jako d = (X-AM)

(ii) Pomnożyć te odchylenia przez odpowiednie częstotliwości, aby uzyskać kolumnę fd . Suma tej kolumny daje Σ fd.

fd z odpowiednim odchyleniem (d)

(iii) Pomnóż, aby uzyskać kolumnę fd 2 . Suma tej kolumny będzie Σ fd 2 .

(iv) Użyj wzoru (22), aby znaleźć SD

Przykład 13:

Za pomocą metody skróconej znajdź SD danych w tabeli 4.7.

Rozwiązanie:

Przyjmijmy założoną średnią AM = 10. Inne obliczenia potrzebne do obliczenia SD są podane w tabeli 4.8.

Wprowadzanie wartości z tabeli

Używając wzoru (19), wariancja

(c) Metoda odchylenia od góry:

W tej metodzie w kolumnie 1 piszemy ci; w kolumnie 2 zapisujemy częstotliwości; w kolumnie 3 zapisujemy wartości d, gdzie d = X'-AM / i; w kolumnie 4 zapisujemy iloczyn fd, aw kolumnie 5 zapisujemy wartości fd 2, jak pokazano poniżej:

Tutaj przyjęta Średnia jest środkowym punktem ci 9-11, czyli 10, więc odchylenia d zostały wzięte z 10 i podzielone przez 3, długość ci Formuła dla SD w metodzie odchyłki stopniowej jest

gdzie i = długość c.i,

f = częstotliwość;

d = odchylenia średnich punktów ci od założonej średniej (AM) w przedziale klasy (i) jednostek, które można stwierdzić:

Wprowadzanie wartości z tabeli

Procedury obliczania można również określić w następujący sposób:

Połączone odchylenie standardowe ( σ com b ):

Gdy dwa zestawy wyników zostały połączone w jedną partię, możliwe jest obliczenie σ całkowitego rozkładu z σ dwóch rozkładów składników.

Formuła to:

gdzie σ 1, = SD rozkładu 1

σ 2 = SD rozkładu 2

d 1 = (M 1 - M grzebień )

d 2 = ( grzebień M 2 - M)

N 1 = Liczba przypadków w dystrybucji 1.

N 2 = Liczba przypadków w dystrybucji 2.

Przykład ilustruje użycie formuły.

Przykład 14:

Załóżmy, że otrzymaliśmy środki i SD na test wydajności dla dwóch klas różniących się wielkością i proszono o znalezienie o połączonej grupy.

Dane są następujące:

Po pierwsze, znajdujemy to

Wzór (24) można rozszerzyć na dowolną liczbę dystrybucji. Na przykład w przypadku trzech dystrybucji będzie

Właściwości SD:

1. Jeśli każda wartość zmiennej zostanie zwiększona o tę samą stałą wartość, wartość SD rozkładu pozostanie niezmieniona:

Omówimy ten efekt na SD, biorąc pod uwagę ilustrację. Tabela (4.10) pokazuje oryginalne wyniki 5 uczniów w teście z arytmetyczną średnią oceną 20.

Nowe wyniki (X ') są również podane w tej samej tabeli, którą otrzymujemy, dodając stałą 5 do każdego oryginalnego wyniku. Używając wzoru dla niezgrupowanych danych, zauważamy, że SD wyników pozostaje taki sam w obu sytuacjach.

Zatem wartość SD w obu sytuacjach pozostaje taka sama.

2. Po odjęciu wartości stałej od każdej zmiennej, wartość SD nowej dystrybucji pozostaje niezmieniona:

Uczniowie mogą również zbadać, że gdy odejmujemy stałą od każdego wyniku, średnia jest zmniejszana o stałą, ale SD jest taka sama. Wynika to z tego, że " d " pozostaje niezmienione.

3. Jeśli każda zaobserwowana wartość zostanie pomnożona przez stałą wartość, SD nowych obserwacji również zostanie przemnożone przez tę samą stałą:

Powielmy każdy wynik oryginalnej dystrybucji (tabela 4.10) przez 5.

W ten sposób SD nowej dystrybucji będzie mnożone przez tę samą stałą (tutaj jest 5).

4. Jeżeli każda obserwowana wartość jest dzielona przez stałą wartość, SD nowych obserwacji będzie również dzielone przez tę samą stałą. Uczniowie mogą zbadać na przykładzie:

Podsumowując, SD jest niezależny od zmiany pochodzenia (dodawanie, odejmowanie), ale zależy od zmiany skali (mnożenia, dzielenia).

Pomiary względnej dyspersji (współczynnik zmienności):

Miary dyspersji dają nam wyobrażenie o tym, w jakim stopniu wyniki są rozproszone wokół ich centralnej wartości. Dlatego dwa rozkłady częstotliwości o tych samych wartościach centralnych można porównać bezpośrednio za pomocą różnych miar dyspersji.

Jeśli, na przykład, na teście w klasie, chłopcy mają średnią punktację M1 = 60 z SD σ 1 = 15, a dziewczęta średnią z punktów to M 2 = 60 z SD σ 2 = 10. Najwyraźniej dziewczęta, które mają mniejsze SD, są bardziej konsekwentne w punktacji wokół średniej wyników niż chłopcy.

Mamy sytuacje, w których porównujemy dwa lub więcej rozkładów o nierównych środkach lub różnych jednostkach miary pod względem ich rozproszenia lub zmienności. Do dokonywania takich porównań używamy współczynników względnej dyspersji lub współczynnika zmienności (CV).

Formuła to:

(Współczynnik zmienności lub współczynnik względnej zmienności)

V podaje wartość procentową, którą σ stanowi średnia testowa. Jest to więc stosunek niezależny od jednostek miary.

V jest ograniczone w użyciu ze względu na pewne niejasności w jego interpretacji. Jest to możliwe do obrony, gdy jest używane z skalami skali proporcji, w których jednostki są równe i istnieje prawdziwe zero lub punkt odniesienia.

Na przykład V może być używany bez wahania za pomocą fizycznych skal - dotyczy to wielkości liniowych, masy i czasu.

Dwa przypadki pojawiają się przy stosowaniu V ze skalą proporcji:

(1) Gdy jednostki są różne, oraz

(2) gdy wartości M są nierównomierne, jednostki skali są takie same.

1. Gdy jednostki nie są podobne:

Przykład 15:

Grupa 10-letnich chłopców ma średnią wysokość 137 cm. o o 6, 2 cm. Ta sama grupa chłopców ma średnią wagę 30 kg. przy 3, 5 kg. W której cechie grupa jest bardziej zmienna?

Rozwiązanie:

Oczywiście nie możemy bezpośrednio porównywać centymetrów i kilogramów, ale możemy porównać względną zmienność dwóch rozkładów pod względem V.

W niniejszym przykładzie dwie grupy różnią się nie tylko średnią, ale także jednostkami miary, która wynosi cm. w pierwszym przypadku i kg. w sekundę. Współczynnik zmienności może być użyty do porównania zmienności grup w takiej sytuacji.

W ten sposób obliczamy:

Z powyższych obliczeń wynika, że ​​ci chłopcy są około dwukrotnie bardziej zmienni (11, 67 / 4, 53 = 2, 58), co do wagi, co do wzrostu.

2. Kiedy środki są nierówne, ale jednostki skali są takie same :

Załóżmy, że mamy następujące dane na temat testu dla grupy chłopców i grupy mężczyzn:

Następnie porównaj:

(i) Wyniki dwóch grup w teście.

(ii) Zmienność wyników w dwóch grupach.

Rozwiązanie:

(i) Ponieważ średni wynik grupy chłopców jest większy niż u mężczyzn, dlatego grupa chłopców dała lepsze wyniki testu.

(ii) W celu porównania dwóch grup pod względem zmienności wyników, współczynnik zmienności obliczono jako V chłopców = 26, 67, a V mężczyzn = 38, 46.

Dlatego zmienność wyników jest większa w grupie mężczyzn. Uczniowie z grupy chłopców, posiadający mniejsze CV, są bardziej konsekwentni w punktacji wokół średniej w porównaniu do grupy mężczyzn.

SD i rozpowszechnianie obserwacji:

W symetrycznym (normalnym) rozkładzie

(i) Średnia ± 1 SD obejmuje 68, 26% wyników.

Średnia ± 2 SD obejmuje 95, 44% wyników.

Średnia ± 3 SD pokrywa 99, 73% wyników.

(ii) W dużych próbkach (N = 500) zasięg wynosi około 6 razy SD.

Jeśli N wynosi około 100, zasięg wynosi około 5 razy SD.

Jeśli N wynosi około 50, zasięg wynosi około 4, 5 razy SD.

Jeśli N wynosi około 20, zasięg wynosi około 3, 7 razy SD

Interpretacja odchylenia standardowego:

Odchylenie standardowe charakteryzuje naturę rozkładu wyników. Gdy wyniki są szerzej rozłożone, SD jest większe, a gdy wyniki są mniej rozproszone, SD jest mniejsze. Aby zinterpretować wartość miary rozproszenia, musimy zrozumieć, że im większa wartość " σ " tym bardziej rozproszone są wyniki średniej.

Podobnie jak w przypadku średniego odchylenia, interpretacja odchylenia standardowego wymaga wartości M i N do rozważenia.

W poniższych przykładach wymagane wartości σ, mean i N są podane jak:

Tutaj dyspersja jest bardziej w przykładzie 2 w porównaniu z przykładem 1. Oznacza to, że wartości są bardziej rozproszone w przykładzie 2, w porównaniu do wartości z przykładu 1.

Zalety SD:

1. SD jest sztywno określone, a jego wartość jest zawsze określona.

2. Jest to najczęściej stosowana i ważna miara dyspersji. Zajmuje centralne miejsce w statystykach.

3. Podobnie jak średnie odchylenie, opiera się na wszystkich wartościach rozkładu.

4. Tutaj znaki odstępstw nie są ignorowane, zamiast tego są eliminowane przez kwadraturowanie każdego z odchyleń.

5. Jest to podstawowa miara zmienności, ponieważ można ją leczyć algebraicznie i stosuje się ją w pracy korelacyjnej oraz w dalszej analizie statystycznej.

6. Jest mniej podatny na fluktuacje pobierania próbek.

7. Jest to wiarygodny i najdokładniejszy miernik zmienności. SD zawsze idzie ze średnią, która jest najbardziej wiarygodną miarą tendencji centralnej.

8. Zapewnia standardową jednostkę miary, która ma porównywalne znaczenie z jednego testu do drugiego. Co więcej, krzywa normalna jest bezpośrednio związana z SD

Ograniczenia:

1. Nie jest łatwo obliczyć i nie jest to łatwe do zrozumienia.

2. Daje więcej ciężarów ekstremalnym przedmiotom, a mniej tym, które są bliskie średniej. Kiedy odchylenie od skrajnego wyniku jest podniesione do kwadratu, zwiększa się jego wartość.

Zastosowania SD:

Standardowe odchylenie jest używane:

(i) Gdy pożądany jest najbardziej dokładny, niezawodny i stabilny miernik zmienności.

(ii) Kiedy należy nadać większą masę ekstremalnym odchyleniom od średniej.

(iii) Po obliczeniu współczynnika korelacji i innych statystyk.

(iv) Po obliczeniu miar niezawodności.

(v) Gdy wyniki mają być prawidłowo interpretowane w odniesieniu do krzywej normalnej.

(vi) Kiedy obliczane są standardowe wyniki.

(vii) Kiedy chcemy przetestować istotność różnicy między dwiema statystykami.

(viii) Kiedy oblicza się współczynnik zmienności, wariancję itp.