i i “731-Pisanski-test-naslov” — 2009/6/23 — 8:18 — page 1 — #1 i i i i i i List za mlade matematike, fizike, astronome in računalnikarje ISSN 0351-6652 Letnik 12 (1984/1985) Številka 4 Strani 204–208 Tomaž Pisanski: TEST HI KVADRAT Ključne besede: matematika. Elektronska verzija: http://www.presek.si/12/731-Pisanski-test.pdf c© 1985 Društvo matematikov, fizikov in astronomov Slovenije c© 2009 DMFA – založništvo Vse pravice pridržane. Razmnoževanje ali reproduciranje celote ali posameznih delov brez poprejšnjega dovoljenja založnika ni dovo- ljeno. TEST HI KVADRAT Pri mnogih družabnih igrah uporabljamo kocko. Ce je kocka poštena, pade šestica z verjetnostjo 1/6. To pomeni, da lahko v povprecJu pričakujemo na vsakih šest metov eno šestico. Ce vržemo kocko 60 krat, lahko pričakujemo približno 10 šestic. Včasih se nam zazdi, da šesti ca noče pasti. Ali je kocka morda obtežena, torej nepoštena? Statistika pozna metodo, s katero lahko dokaj zanesljivo preverimo, ali je kocka obtežena ali ne. Metodi rečemo test hi kvadrat. Ceprav je ozadje te metode precej zamotano in ga na tem mestu ne moremo razloži ti, pa je sama uporaba testa hi kvadrat zelo preprosta in uporabna. Za pomoč sem prosil svoja sinova. Pobrskali smo malo in našli tri kocke. Vsako smo vrgli 60 krat. Rezultate smo zabeležili v preglednici 1. ŠTEVILO PIK 1 1 2 3 4 5 6 1 SKUPAJ -----------------1-----------------------------------1---------- RDEČA KOCKA 1 5 16 8 14 12 5 1 60 -----------------1-----------------------------------1---------- ČRNA KOCKA 1 7 8 8 11 10 16 1 60 -----------------1-----------------------------------1---------- BELA KOCKA 1 6 10 10 9 14 11 1 60 -----------------1-----------------------------------1---------- TEORETIČNO 1 10 10 10 10 10 10 1 60 PREGLEDNICA 1 Rezultati metov treh kock. Prikazane so absolutne frekvence (število pojavitev posameznih izidov}. Najbolj sumljivo se vede rdeča kocka, ker dejanske frekvence najbolj odstopajo od teoretičnih. Ali je obtežena? Dodali smo vrstico s teoretičnimi absolutnimi frekvencami. Ker je pri pošteni kocki verjetnost, da pade na katerokoli od svojih šestih ploskev enaka, so verjetnosti posameznih .izidov vse enake 1/6. Ker so te verjetnosti (pravimo jim tudi relativne frekvence) vse med seboj enake, bi po 60 metih teoretično pričakovali za vsak izid 60 1/6 10 pojavitev. Zato smo postavili v zadnjo vrstico preglednice 1 same desetke, teoretične absolutne frekvence. Dejanske absolutne frekvence odstopajo od teoretičnih , kar je popolnoma razumljivo, četudi so kocke 205 poštene. Ce dejanske frekvence malo odstopajo od t e or-e t L čru.n , lahko z veliko verjetnostjo sklepamo , da je kocka 204 poštena. Če pa dejanske frekvence teoretičnih, tedaj je malo verjetno, neobteženo kocko. močno odstopajo od da gre za pošteno, Test hi kvadrat napravi dvoje. Dejanskim in teoretičnim frekvencam pr i r e d i število, s katerim me r i mo odstopanje frekvenc • . Č i m ve č je je dobljeno število, tem v e c j e j e odstopanje . Za odstopanje dopuščamo dve razlagi. Lahko, da g r e z a slučajno odstopanje ali pa gre (p oleg s I u čajn ega) š e z a sistematično odstopanje, torej teoretične frekvence ne ustrezajo dejanski po razdelitvi. V našem primeru pomeni prva hipoteza, da gre z a slučajno odstopanje poštene kocke , druga pa , da imamo opravka z obteženo kocko. Čas j e, da s i po gledamo vso stvar č i s to splošno , potem pa se bomo vrnili k našim kockam. Denimo, da ima poskus n izidov. Denimo , da poskus ponovimo N krat. Naj bodo E" E2 , ••• , En teoreti čne absolutne f rekvence, O, , °2 , ••• , On dejan s ke absolu tne fr e kvence. To pomeni, da se je pri N ponov i t vah poskusa i zid i d og od i l 0i-kr a t, medtem ko smo pri čakovali, da se zgodi Ei-kr at. Izraz i menujemo hi kvadrat z s tat isti čni h priročni kih kvadra t. Za naše na me ne bo (n 1) prostostnimi stopnjami. lahko najdemo preglednice z a z a d os t ova l a pregled nica 2 . V hi Preden s i po gledamo, kaj pravi h i kvad rat z a naše k oc k e , še pomembno opozorilo. Če je teoretična absolutna frekve nca kakega dogodka prema jhna, je tudi zanesljivost testa hi kvadrat vprašljiva. Običajno z a h t evamo, da je vrednost vsa kega Ei vs aj 5 . Kaj pa, če vr e d no s t ka kega Ei ni tako vel i ka ? Teda j pa im amo dv e mož no sti. Za po r e d j e po sku sov lahko pov ečamo (v naš em pr im er u : k o ck o ve č kra t vr že mo) in t ako dose ž e mo, d a je teoret i čna abs o l u t na fr ekvenca vsakeg a i zida vsaj 5 . Dr uga, preprostejša možnost pa je , da zdru žimo mal o verjetne i zide v nove, bolj v e r j e t ne . To mož no s t si bomo ogledali kasn ej e . 205 ŠTEVILO PROSTOSTNIH P = 10% P = 5% P = 1% P = 0.1% STOPENJ ----------------------------------------------------- 2 I 4.6 6.0 9.2 13.8 3 I 6.3 7.8 11.3 16.3 4 I 7.8 9.5 13.3 18.5 5 I 9.2 11.1 15.1 20.5 6 I 10.6 12.6 16.8 22.5 7 I 12.0 14.1 18.5 24.3 8 I 13.4 15.5 20.1 26.1 9 I 14.7 16.9 21.7 27.9 10 I 16.0 18.3 23.2 29.6 12 I 18.6 21.0 26.2 32.9 14 I 21.1 23.7 29.1 36.1 16 I 23.5 26.3 32.0 39.3 18 I 26.0 28.9 34.8 42.3 20 I 28 .4 31. 4 37.6 45.3 25 I 34.4 37.6 44.3 52.6 30 I 40.3 43.8 50.9 59.7 40 I 51.8 55.8 63.7 73.4 60 I 74.4 79.1 88.4 99.6 80 I 96.6 101. 9 112.3 124.8 100 I 118.5 124.3 135.8 149.5 ----------------------------------------------------- PREGLEDNICA 2 Vrednosti hi kvadrat. Denimo, da ima poskus 6 izidov in je vrednost hi kvadrat enaka 12.7. Število prostostnih stopenj je 5. Pogledamo v vrstico s petimi prostostnimi stopnjami in vidimo, da leži 12.7 med 11.1 in 15.1. Verjetnost, da so odstopanja med dejanskimi in teoretičnimi frekvencami zgolj slučajna, je manj kot 5% in več kot 1%. Pesimist bo verjetno hipotezo o slučajnem odstopanju zavrnil. Če bi bila vrednost hi kvadrat pri istih pogojih 18.5, pa lahko hipotezo mirno zavrnemo, saj je verjetnost manjša od enega odstotka. Zelo verjetno gre za resnično neujemanje med teoretičnimi in dejanskimi frekvencami. Običajno se vnapre j dogovorimo, katero mejo vzamemo za ločilo med sprejetjem oziroma zavrnitvijo hipoteze. Ta meja je običajno bodisi 5% bodisi 1%. Če pa je število prostostnih stopenj tako, da ga ni v naši preglednici, si pri oceni pomagamo z dvema vrsticama, tisto, ki je neposredno pred, in tisto, ki je za manjkajočo vrstico. Najbolje je, da se vrnemo k našim trem kockam. Pokazali bomo, kako lahko uporabimo preglednico 2. Najbolj sumljiva je rdeča kocka, saj sta pri 60 metih padli enica in šestica samo po 5 krat. (10 - 5)2 / 10 + (10 - 16)2 / 10 + (10 - 8)2 110 + (10 - 14)2 11 0 + (10 - 12)2 / 10 + (10 - 5)2 11 0 = 11 Iz preglednice 2 razberemo, da je vsaj v petih odstotkih mogoče pričakovati tako odstopanje, če gre zgolj za slučajnost. 206 Zato ne moremo sklepati, da je kocka nepoštena. (Ko smo kasneje še ne ka j k r a t ponov i li poskus z i s t o kocko, smo vsakič do bili mnog o bo l j preprič I ji vo po t rdite v, da gr e za poš ten o ko cko , ) Vrednost hi kvadrat za črno ko cko je 5.4, z a be lo pa je še man jša , o č em er se lahko zdaj bralec prepriča kar sam. V resni ci s mo met a l i č r n o in belo kocko skupaj in smo si v pregl edni ci 3 zabe ležili vse izide. Če bi že leli neposredno up orabiti test hi k vadrat, bi morali z a vsakega od 36 e na k o verjetn ih iz idov dob i ti abso l utno teoretično fr e kvenco vsaj 5. To pa pomeni vsaj 180 metov parov ko c k. Ke r sta šl a sinova na dvoriš če i g r a t no gomet, sam pa nisem i mel d ovolj č a s a , sem se odl očil , da bi bilo bolje šteti vsoto pi k na o beh kockah. Vsoto 2 dobimo na en sam n a čin: 2 = 1 + 1. Vsoto 3 dobimo na dva načina: 3 2 + 1 1 + 2 . Vso to š t i r i do b i mo že na tr i načine 4 = 3 + 1 2 + 2 = 1 + 3 in t a k o dalje. BELA KOCKA 1 2 3 4 5 6 1 SKUPAJ 1 11033 10017 Č 1----------------------------------------------- RI2 110103318 N 1------------------- ------------------------ ---- AI3 1 1 1 1 1 3 1 1 8 1--- -- ---------------- ---------- -- -- ---- ------ -- K 1 4 1 1 O 2 2 3 3 1 11 O 1----- -------------------------- ---------------- C 1 5 1 2 3 1 2 1 1 1 10 K I-----------~----------------------------------- A 1 6 1 1 3 2 3 4 3 1 16 1------------ ------ ----------------------------- 1 SKUPAJ 1 6 10 10 9 14 11 1 60 PREGLEDNI CA 3 Še s t d es e t metov pa rov kock. Ima mo 36 enako verjetnih i z i dov . Ker je teoretična absolutna f rekvenca vs a kega izida le 60 /36, ka r je ma nj kot 5, ne moremo uporabiti testa hi kvadr at . V pregledni ci 3 mora mo seštevati š t e v i l a po diagonalah od levo spodaj, do desn o zgoraj . Ta ko dobimo preglednico 4 . 20 7 VSOTA PIK ČRNE IN BELE KOCKE 2 3 4 5 6 7 8 9 10 11 12 SKUPAJ DEJANSKA ABSOLUTNA O 4 4 4 3 10 12 8 7 5 3 60 FREKVENCA ----------------------------------------------------------------- TEORETIČNA 10 20 30 40 50 60 50 40 30 20 10 ABSOLUTNA FREKVENCA 6 6 6 6 6 6 6 6 6 6 6 60 PREGLEDNICA 4 Vsota pik na dveh kockah po 60 metih. Izidi niso med seboj enako verjetni. Št i r i vsote (2, 3,11,12) so premalo verjetne za neposredno uporabo testa hi kvadrat. Ce združimo prva dva izida (vsoti 2 in 3 ) ter izida (vsoti 11 i n 12) porazdelitve s preglednice končno porazdelitev pregledni ce 5 z devetimi izidi, pa lahko uporabimo test hi kvadrat. zadnja dva 4, dobimo na kateri POPRAVLJENA VSOTA PIK (2, 3) 4 ČRNE IN BELE KOCKE 5 6 7 8 9 10 ( 11, 12) SKUPAJ DEJANSKA ABSOLUTNA 4 4 4 3 10 12 8 7 8 60 FREKVENCA ----------------------------------------------------------------- TEORETIČNA 30 30 40 50 60 50 40 30 30 ABSOLUTNA 60 FREKVENCA 6 6 6 6 6 6 6 6 6 PREGLEDNICA 5 Popravljena vsota pik na dveh kockah po 60 metih. Vse teoretične frekvence so dovolj velike. Test hi kvadrat z osmimi prostostnimi stopnjami pokaže, da statistično ne moremo ovreči predpostavke, da gre za pošteni kocki. Ker je računanje vrednosti hi k va d r a t z amu dno , bomo v naslednjem prispevku po kazali , kako si pr i tem lahko pomagamo z računalnik om . Glej č l anek na str. 163. 208 Tomaž Pisanski