Sturges Rule Forklaring, applikationer og eksempler
den Sturges regel er et kriterium, der bruges til at bestemme antallet af klasser eller intervaller, der er nødvendige for grafisk at repræsentere et sæt statistiske data. Denne regel blev udtalt i 1926 af den tyske matematiker Herbert Sturges.
Sturges foreslog en simpel metode, baseret på antallet af prøver x, der tillod at finde antallet af klasser og deres rækkevidde amplitude. Sturges-reglen anvendes i vid udstrækning især inden for statistik, specielt til at bygge frekvenshistogrammer.
indeks
- 1 Forklaring
- 2 applikationer
- 3 Eksempel
- 4 referencer
forklaring
Sturges-reglen er en empirisk metode, der i vid udstrækning anvendes i beskrivende statistikker til bestemmelse af antallet af klasser, der skal eksistere i et frekvenshistogram, for at klassificere et sæt data, der repræsenterer en prøve eller population.
Grundlæggende bestemmer denne regel bredden af de grafiske beholdere, frekvenshistogrammerne.
For at fastlægge sin regel betragtede Herbert Sturges et ideelt frekvensdiagram, som består af K-intervaller, hvor ithintervallet indeholder et vist antal prøver (i = 0, ... k - 1), repræsenteret som:
Antallet af prøver er angivet ved antallet af måder, hvorpå en delmængde af et sæt kan udvindes; det vil sige ved binomialkoefficienten udtrykt som følger:
For at forenkle udtrykket anvendte han egenskaberne af logaritmerne i begge dele af ligningen:
Sturges fastslog således, at det optimale antal intervaller k er givet ved udtrykket:
Det kan også udtrykkes som:
I dette udtryk:
- k er antallet af klasser.
- N er det samlede antal observationer af prøven.
- Log er den fælles logaritme af base 10.
For eksempel, for at lave et frekvenshistogram, der udtrykker en tilfældig stikprøve af højden på 142 børn, vil antallet af intervaller eller klasser, som fordelingen har, være:
k = 1 + 3,322 * log10 (N)
k = 1 + 3,322* log (142)
k = 1 + 3,322* 2,1523
k = 8,14 ≈ 8
Distributionen er således i 8 intervaller.
Antallet af intervaller skal altid være repræsenteret af heltal. I tilfælde hvor værdien er decimalt, skal der foretages en tilnærmelse til nærmeste hele tal.
applikationer
Sturges-reglen anvendes hovedsageligt i statistikker, da det gør det muligt at foretage en fordeling af frekvenser ved beregning af antallet af klasser (k) såvel som længden af hver af disse, også kendt som amplitude.
Amplituden er forskellen mellem klassens øvre og nedre grænser divideret med antallet af klasser og udtrykkes:
Der er mange empiriske regler, der gør det muligt at foretage en frekvensfordeling. Sturges-reglen bruges dog almindeligvis fordi den nærmer sig antallet af klasser, som generelt varierer fra 5 til 15.
På denne måde overveje en værdi, der tilstrækkeligt repræsenterer en prøve eller befolkning; det vil sige, at tilnærmelsen ikke repræsenterer ekstreme grupperinger, og det virker heller ikke med et for stort antal klasser, der ikke tillader opsummering af prøven.
eksempel
Det er nødvendigt at udføre et frekvenshistogram ifølge de givne data, svarende til aldre opnået i en undersøgelse af mænd, der udøver i et lokalt gym.
For at bestemme intervallerne skal du vide, hvad der er størrelsen af prøven eller antallet af observationer; i dette tilfælde har du 30.
Så gælder Sturges-reglen:
k = 1 + 3,322 * log10 (N)
k = 1 + 3,322* log (30)
k = 1 + 3,322* 1,4771
k = 5,90 ≈ 6 intervaller.
Fra antallet af intervaller kan den amplitude, som disse har, beregnes; det vil sige bredden af hver stang, der er repræsenteret i frekvenshistogrammet:
Den nederste grænse betragtes som den laveste værdi af dataene, og den øvre grænse er den højeste værdi. Forskellen mellem den øvre og den nederste grænse kaldes variablenes rækkevidde eller sti (R).
Fra bordet har vi, at den øvre grænse er 46 og den nederste grænse 13; på den måde vil amplituden af hver klasse være:
Intervallerne vil bestå af en øvre og en nedre grænse. For at bestemme disse intervaller starter du med at tælle fra den nederste grænse og tilføjer den amplitude bestemt ved regel (6) som følger:
Derefter beregnes den absolutte frekvens for at bestemme antallet af mænd svarende til hvert interval; i dette tilfælde er det:
- Interval 1: 13-18 = 9
- Interval 2: 19 - 24 = 9
- Interval 3: 25 - 30 = 5
- Interval 4: 31 - 36 = 2
- Interval 5: 37 - 42 = 2
- Interval 6: 43 - 48 = 3
Når man tilføjer den absolutte frekvens af hver klasse, skal dette være lig med det samlede antal af prøven; i dette tilfælde 30.
Efterfølgende beregnes den relative frekvens af hvert interval, idet den absolutte frekvens af dette interval divideres med det samlede antal observationer:
- Interval 1: fi = 9 ÷ 30 = 0,30
- Interval 2: fi = 9 ÷ 30 = 0,30
- Interval 3: fi = 5 ÷ 30 = 0,1666
- Interval 4: fi = 2 ÷ 30 = 0,0666
- Interval 5: fi = 2 ÷ 30 = 0,0666
- Interval 4: fi = 3 ÷ 30 = 0,10
Derefter kan du lave et bord, der afspejler dataene, og også diagrammet fra den relative frekvens i forhold til de opnåede intervaller, som det kan ses i følgende billeder:
På denne måde tillader Sturges-reglen at bestemme antallet af klasser eller intervaller, i hvilke en prøve kan opdeles, for at opsummere en stikprøve af data ved udarbejdelse af tabeller og grafer.
referencer
- Alfonso Urquía, M. V. (2013). Modellering og simulering af diskrete begivenheder. UNED,.
- Altman Naomi, M. K. (2015). "Enkel lineær regression." Naturmetoder .
- Antúnez, R.J. (2014). Statistik i uddannelsen. Digital UNID.
- Fox, J. (1997.). Anvendt regressionsanalyse, lineære modeller og beslægtede metoder. SAGE Publikationer.
- Humberto Llinás Solano, C.R. (2005). Beskrivende statistikker og sandsynlighedsfordelinger. University of the North.
- Panteleeva, O. V. (2005). Grundlag for sandsynlighed og statistik.
- O. Kuehl, M. O. (2001). Design af eksperimenter: Statistiske principper for design og forskningsanalyse. Thomson Redaktører.