Acta agriculturae slovenica, 83 - 2, november 2004 str. 341 - 352 Agrovoc descriptors: statistical methods, methods, experimentation, design, testing, education, agriculture, biology Agris category code: U10, A01 COBISS koda 1.02 Osnove analize kovariance Katarina KOŠMELJ1 Delo je prispelo 30. julija 2004; sprejeto 15. oktobra 2004 Received July 30, 2004; accepted October 15, 2004 POVZETEK V članku predstavljamo osnove analize kovariance, standardne statistične metodologije, ki je v našem biološkem in tehniškem okolju premalo poznana. Ključne besede: analiza variance, analiza kovariance, prilagojena povprečja ABSTRACT BASIS OF ANALYSIS OF COVARIANCE The paper presents the basis for analysis of covariance, a standard statistical methodology which could be used more often in our biological and technical setting. Key words: analysis of variance, analysis of covariance, adjusted means 1. MOTEČE SPREMENLJIVKE IN PRILAGOJENA POVPREČJA Poglejmo primer, kjer bi bilo smiselno uporabiti analizo kovariance. Sadjarji uporabljajo določene postopke za redčenje plodičev. Namen poskusa je preučevati vpliv izbranih postopkov (to so obravnavanja) na število plodov na drevesu, to je preučevana lastnost (Y). Poskus izvedejo v bločni zasnovi. Drevesa znotraj blokov so izenačena glede rastnih pogojev (lege, kakovosti tal), lahko pa se razlikujejo v številu socvetij, kar tudi vpliva na končno število plodov na drevo. Če bi bilo neko obravnavanje aplicirano na drevesih z nizkim številom socvetij, bi to dejstvo zaznamovalo pripadajoče obravnavanje in bi bilo povprečje za število plodov jeseni pri tem obravnavanju podcenjeno. Podobna lastnost, ki tudi vpliva na končni pridelek oz. število plodov, je npr. bujnost drevesa, ki jo najlažje ocenimo z meritvijo obsega debla. Lastnosti, ki opisujejo stanje pred poskusom in nimajo povezave z obravnavanji, iz vidika poskusne zasnove pa 'motijo' relacijo med obravnavanji in preučevano lastnostjo, imenujemo moteče spremenljivke (sospremenljivke, kovariable). Podatke 1 red. prof., dr. znan., SI-1111 Ljubljana, Jamnikarjeva 101, p.p 2995 Ac 342 ta agriculturae slovenica, 83 - 2, november 2004 o njihovih vrednostih je smiselno vključiti v statistično analizo, sicer so zaključki lahko pristranski. V nadaljevanju se bomo omejili le na eno motečo spremenljivko X, ki je številska. Poglejmo si enostaven izmišljen primer (Tabela 1, Slika 1a). Primerjati želimo obravnavanji A in B glede na izid Y. Za vsako obravnavanje imamo po 5 podatkov, njuni povprečji in standardna odklona sta skoraj enaka ( yA =50,0; yB =50,2; sA =2,8; sB =2,8). Upoštevajmo, da je Y linearno odvisen od X in da so vrednosti za X pri obravnavanju A bistveno nižje kot pri obravnavanju B (Slika 1b). Vrednosti moteče spremenljivke X pri obravnavanju A so med 17 in 22, povprečje je 20,1; vrednosti moteče spremenljivke X za obravnavanje B pa med 23 in 27, povprečje je 25,2. Tabela 1. Podatki in osnovne statistike (povprečje, standardni odklon, prilagojeno povprečje ) Table 1. Data and descriptive statistics (mean, standard deviation, adjusted mean) Obravnavanje Treatment Y X A 49,4 19,8 A 50,5 20,1 A 52,4 21,8 A 45,6 17,3 A 52,2 21,4 Povprečje Mean 50,02 20,08 St. odklon St.deviation 2,76 1,77 Prilagojeno povprečje Adjusted mean 54,14 Obravnavanje Treatment Y X B 47,4 23,4 B 52,6 26,7 B 53,5 27,1 B 49,5 24,9 B 47,8 23,9 Povprečje Mean 50,16 25,20 St. odklon St.deviation 2,77 1,65 Prilagojeno povprečje Adjusted mean 46,04 Da dobimo relevantno primerjavo obravnavanj A in B, moramo povprečji za A in B 'prilagoditi' na isto vrednost za X in primerjati t.i. prilagojeni povprečji yA(X ) in yB(X ) . Prilagojeno povprečje za določeno obravnavanje je povprečna vrednost, ki bi veljala, če bi bila vrednost za X pri obeh obravnavanjih enaka vrednosti x0 . Vrednost x0 , na katero prilagajamo, je poljubna, saj je ne glede na njeno izbiro razlika yA( X ) - yB(X ) enaka; običajno pa izberemo globalno povprečje x , to je povprečje vseh vrednosti neodvisne spremenljivke X. Izračun prilagojenega povprečja temelji na predpostavki, da sta premici za obravnavanji A in B vzporedni (če ta predpostavka ni veljavna, je predstavljeno prilagajanje neustrezno). Izračun prilagojenih povprečij lahko predstavimo grafično (Slika 1b). Povprečje za Y pri določenem obravnavanju spremenimo za vpliv sospremenljivke X na Y ob upoštevanju povprečja moteče spremenljivke pri tem obravnavanju; za vrednost moteče spremenljivke x0 pa izberemo poljubno vrednost: yA(X )=yA = yA -b(xA -x0 ) yB(X )=yB = yB -b(xB -x0 ) (1) KOŠMELJ, K.: Osnove analize kovariance 343 b) Y Y 15 ¦ ¦ I Za naše podatke je naklonski kot premice enak 1,611; ta rezultat je iz regresijske analize in temelji na statistični ugotovitvi, da smemo šteti premici za vzporedni, za vrednost x0 pa smo upoštevali globalno povprečje x =22,64. Prilagojeno povprečje za obravnavanje A je 54,1; za obravnavanje B pa 46,0. Upoštevanje sospremenljivke je povzročilo, da je prilagojeno povprečje za A višje, za B pa nižje od izhodiščnega povprečja. a) 55 50 45 40 55 50 45 40 AB obravnavanja xA xB 30 X Slika 1. a) Podatki za preučevano spremenljivko Y za obravnavanji A in B. b) Relacija med X in Y. 'Kara' predstavlja izhodiščno povprečje, 'križec' pa prilagojeno povprečje.Vrednost, na katero sta povprečji prilagojeni, je x =22,64. Figure 1. a) Data for Y for treatments A and B. b) Dependence of Y on X. Diamonds represent the original means, crosses the adjusted means. The adjustment was made on the value x =22,64. x 344 Ac ta agriculturae slovenica, 83 - 2, november 2004 2. ANALIZA KOVARIANCE 2.1 Model za analizo kovariance Zapišimo najprej model analize variance za enosmerno analizo variance (ANOVA): Yij=M + ai+sij Indeks i, i = 1,2,… K, označuje obravnavanje, indeks j, j = 1,2,…n označuje ponovitev. (Zaradi enostavnosti bomo predpostavili, da je število ponovitev po vseh obravnavanjih enako). Naj bo N skupno število enot v poskusu. Izid pri j-ti ponovitvi i-tega obravnavanja je vsota treh členov: splošne ravni izida M, vpliva obravnavanja at =Mi-M (vpliv fiksnega dejavnika) in slučajnega vpliva sy. Model je veljaven, če so ostanki s med seboj neodvisni in porazdeljeni po normalni porazdelitvi N(0,<7). Model analize variance z upoštevanjem sospremenljivke X (model analize kovariance ANCOVA) je nadgradnja modela analize variance: Yij=M + ai + ß.( Xij-Mx)+Sij (2) Dodatni člen ß-(Xij-Mx) opisuje vpliv sospremenljivke X na Y, ß je regresijski koeficient, neodvisna spremenljivka X pa je zmanjšana za pripadajoče povprečje Mx. Model (2) je mešanica analize variance in enostavne linearne regresije, saj ga lahko zapišemo na dva načina: Yi-H( Xi-M)=M+a+L Yij-ai=M + ß.(Xij-Mx)+sy Predpostavke, ki morajo veljati, da lahko uporabimo ANCOVA, so relativno zahtevne. Poleg predpostavk, ki jih ima ANOVA za Y, so še naslednje: . Obravnavanja ne vplivajo na X. . Zveza med X in Y je linearna. . Naklonski kot premice je pri vseh obravnavanjih enak. 2.2 Izračuni Izračuni so sestavljeni iz treh delov: ANOVA za Y, enostavne linearne regresije in ANOVA za X . KOŠMELJ, K.: Osnove analize kovariance 345 Tabela 2. Oznake za vsote kvadriranih odklonov in vsote produktov, ki so potrebni za izračun analize kovariance. Table 2. Notation for the sum of squares and products used in analysis of covariance. Vir variabilnosti Source of variation Stopinje prostosti Degrees of freedom ANOVA za Y ANOVA for Y [1] Regresija Regression [2] ANOVA za X ANOVA for X [3] Obravnavanja Treatments K-1 Tyy Txy Txx Ostanek Residual SPost Oyy Oxy Oxx Skupaj Total N-1 VKOYY VKOXY VKOXX Iz ANOVA za Y (glej [1] v Tabeli 2) izračunamo oceno variance za Y , če sospremenljivke ne upoštevamo: s 2=OYY/SPo Post ANCOVA temelji na ideji, da variabilnost za Y, ki se izraža z vsoto kvadriranih odklonov za obravnavanja in za ostanek, 'očistimo' vpliva sospremenljivke X. Iz regresijske analize in ANOVA za X (glej [2] in [3] v Tabeli 2) izračunamo vsoto kvadriranih odklonov za sospremenljivko X VKO( (X) Oxx SP = 1 Izločanje začnemo pri ostanku. Iz ostanka izločimo del, ki pripada sospremenljivki X, preostanek pa predstavlja 'očiščeni ostanek': OY yy ( x ) =O- Oxx = OY SP = SPost-1 Ta ostanek je osnova za izračun ocene variance za Y ob upoštevanju sospremenljivke X, imenujemo jo 'očiščena varianca' in jo označimo s(2 X ): s(2 X ) = Oxx j OYY-OXY /( SPost-1). Moteča spremenljivka X pojasni del variabilnosti za Y, s tem pa se zmanjša ostanek za Y. Potrebujemo še očiščeno vsoto kvadriranih odklonov za obravnavanja TYY(X). Da dobimo to vrednost, iz vsote TYY + OYY izločimo del, ki pripada sospremenljivki, to je Ac 346 ta agriculturae slovenica, 83 - 2, november 2004 () Txy +Oxy 2 Txx +O XX in del, ki pripada očiščenemu ostanku, in dobimo Tyy(x) = (Tyy +Oyy ) (Txy +Oxy ) O 2 T XX XX O OYY - XY Ox2 Oxx Vse rezultate uredimo v tabelo ANCOVA (Tabela 3). Tabela 3. Tabela ANCOVA. Table 3. ANCOVA table. Vir variabilnosti Source of variation Stopinje prostosti SP Degrees of freedom Vsota kvadriranih odklonov VKO Sum of squares Srednji kvadrirani odklon SKO=VKO/SP Mean squares F-statistika F-statistics Sospremeljivka X Covariate X 1 VKO(X ) (3) Obravnavanja Treatments K -1 Tyy(x ) (4) Ostanek Residual SPost -1 Oyy(x ) s(2X ) Skupaj Total N -1 VKOYY 2.3 Preverjanje domnev 2.3.1 Predpostavke Za analizo kovariance je ključna veljavnost že navedenih predpostavk. Predstavljamo statistične teste, ki jih uporabljamo pri preverjanju njihove veljavnosti. • Obravnavanja ne vplivajo na sospremenljivko X. Statistični test izhaja iz ANOVA za X, ničelno domnevo o enakih povprečnih vrednostih sospremenljivke X po obravnavanjih naj bi obdržali. Bolj kot ta test pa je pomemben vsebinski premislek o možni povezavi sospremenljivke in obravnavanj. • Zveza med X in Y je linearna. O linearnosti se prepričamo na osnovi ustreznega grafičnega prikaza. • Naklonski kot premice je pri vseh obravnavanjih enak. Preverjanje te domneve temelji na uporabi regresijske analize. Z delnim F-testom primerjamo vsoto kvadriranih odklonov za različne premice po obravnavanjih in vsoto kvadriranih odklonov za vzporedne premice po obravnavanjih. Uporabo bomo prikazali na primeru. KOŠMELJ, K.: Osnove analize kovariance 347 2.3.2 Domneve pri analizi kovariance Pri analizi kovariance sta ključni dve domnevi, pripadajoči testni statistiki sta predstavljeni v tabeli ANCOVA (izraz (3) in (4 ), Tabela 3)). • Vpliv sospremenljivke X na Y. Ničelna domneva trdi, da X nima vpliva na Y, kar pomeni, da je v izrazu (2) vrednost ß enaka nič. H0:ß = 0 VKO( Testna statistika: F = 1 /s(2 X) (3) Ničelna porazdelitev testne statistike je F(1, SPost -1). Zadovoljimo se z ohlapno statistično značilnostjo, navadno p < 0,20, saj je bolj kot ta statistična značilnost pomembna velikost zmanjšanja izhodiščne variance s2 na očiščeno varianco ( X) • Vpliv obravnavanj na preučevano spremenljivko Y. Izhodiščna ničelna domneva o obravnavanjih pravi, da so povprečja po obravnavanjih enaka, to pomeni, da so v izrazu (2) vse količine ? ,i=1,...,K, ničelne: Testna statistika: F = [YY X\/ s(2 X ) (4) H0:? 1=?2=... = ?K=0 f Ničelna porazdelitev testne statistike je f(k -1, SPost -1). Če ničelno domnevo zavrnemo, izvedemo primerjavo prilagojenih povprečij obravnavanj. Njihov izračun smo predstavili v prvem razdelku. Matematična izpeljava pokaže, da je standardna napaka razlike dveh prilagojenih povprečij za vsak par obravnavanj drugačna, saj je odvisna tudi od povprečja sospremenljivke po obravnavanjih. Za obravnavanji A in B se standardna napaka razlike izraža takole: sd = s(X) f2 + (xA-xB)2\ (5) \n O_ XX Razlike v standardnih napakah po parih obravnavanj so običajno majhne, zato se v praksi včasih uporablja povprečje teh standardnih napak (Snedecor, Cohran str. 423): sd = n 2t XX OXX-J (6) Ac 348 ta agriculturae slovenica, 83 - 2, november 2004 Člen v oklepaju v izrazu (6) predstavlja doprinos sospremenljivke X. Na osnovi tega izraza dobimo efektivni srednji kvadrirani odklon, to je korigirana varianca varY(X ) varY Y(X ) = (X ) TXX /(K - 1) O XX Uspešnost analize kovariance temelji na zmanjšanju izhodiščne variance primerjavi s korigirano varianco varY(X ) . Razmerje s2 varY Y(X ) (7) s2 v (8) vrednoti koristnost upoštevanja sospremenljivke X v analizi kovariance. 3. PRIMER Za ilustracijo analizirajmo enostaven primer povzet po literaturi (Hadživuković, str. 428). Raziskovalci so izvedli poljski poskus na pšenici. V poskus so bile vključene 4 lokacije, na posamezni so bile po tri enako velike parcele. Lokacija v tem poskusu predstavlja blok. Poskus je bil izveden v dveh zaporednih letih. V prvem letu je bilo obdelovanje na vseh lokacijah in parcelah znotraj lokacij enako, beležili so pridelek na parcelo. V naslednjem letu so na vsaki parceli znotraj lokacije uporabili po eno od obravnavanj (A, B in C) in zopet beležili pridelek. Namen analize je primerjava vpliva obravnavanj A, B in C na pridelek v drugem letu. Pridelek v prvem letu vrednoti stanje pred poskusom in predstavlja mero za kakovost posamezne parcele; štejemo ga za sospremenljivko X. V Tabeli 4 so podatki za pridelek za prvo leto (X) in za drugo leto (Y). Tabela 4. Pridelek na parcelo za prvo leto (X) in za drugo leto (Y) glede na blok (lokacijo) in obravnavanje (A, B, C). Table 4. Yield per plot according to block (location) and treatment. X presents the yield before the experiment, Y the yield of interest. Blok Block 1 Povprečje/mean A B X 54 51 Y 64 65 X 62 64 Y 68 69 X 51 47 Y 54 60 X 53 50 Y 62 66 X 55,0 53,0 Y 62,0 65,0 C 57 72 60 70 46 57 41 61 51,0 65,0 4 KOŠMELJ, K.: Osnove analize kovariance 349 Rezultati izhodiščne statistične analize so v tabelah 5a-5d. Tabela 5a. ANOVA za Y. Table 5a. ANOVA for Y. Vir variabilnosti Source of variability VKO SS SP Df SKO MS F p Bloki/Blocks Obravnavanja/Treatments Ostanek/Residual 252,0 24,0 48,0 3 2 6 84,0 12,0 8,0 1,50 0,2963 Skupaj/Total 324,0 11 Med obravnavanji A, B in C ni statistično značilnih razlik v pridelku (p = 0,2963). Ocena za varianco pridelka je 8,0. Tabela 5b. ANOVA za X. Table 5b. ANOVA for X. Vir variabilnosti Source of variability VKO SS SP Df SKO MS F p Bloki/Blocks Obravnavanja/Treatments Ostanek/Residual 396,0 32,0 86,0 3 2 6 132,0 16,0 14,3 1,12 0,3871 Skupaj/Total 514,0 11 Glede na dejstvo, da je X pridelek iz prvega leta, ko še ni bilo obravnavanj, je statistično neznačilen rezultat (p = 0,3871) tudi vsebinsko pričakovan. Grafični prikaz (Slika 2a) nakazuje, da je zveza med Y in X linearna. Tabela ANOVA za regresijski model, ki opisuje 3 različne premice (Tabela 5c), to je t. i. polni model, kaže, da je vsota kvadriranih odklonov za ta model 242,954 pri 5 stopinjah prostosti, pripadajoča varianca pa 13,508. Regresijski model, ki opisuje 3 vzporedne premice, pa ima vsoto kvadriranih odklonov 223,378 pri 3 stopinjah prostosti (Tabela 5d). Razlika vsote kvadriranih odklonov za model je 19,5763 pri 2 stopinjah prostosti, pripadajoči srednji kvadrirani odklon 9,788 je v primerjavi z varianco polnega modela 13,508 statistično neznačilen (F = 9,788/13,509 = 0,72, p = 0,5255). To pomeni, da je model s tremi vzporednimi premicami statistično enakovreden modelu s tremi različnimi premicami (Slika 2b). Predpostavke analize kovariance so izpolnjene. Tabela 5c. Regresija Y na X. ANOVA za model treh različnih premic. Table 5c. Regression Y on X. ANOVA for the model of three different lines. Vir variabilnosti Source of variability VKO SS SP Df SKO MS F p Model/Model Ostanek/Residual 242,954 81,046 5 6 48,5908 13,5077 3,60 0,0753 Skupaj/Total 324,0 11 Ac 350 ta agriculturae slovenica, 83 - 2, november 2004 Tabela 5d. Regresija Y na X. ANOVA za model treh vzporednih premic. Table 5d. Regression Y on X. ANOVA for the model of three parallel lines. Vir variabilnosti Source of variability VKO SS SP Df SKO MS F p Model/Model Ostanek/Residual 223,378 100,622 3 8 74,4292 12,5778 5,92 0,0198 Skupaj/Total 324,0 11 Poglejmo še rezultate analize kovariance v tabeli 6. Tabela 6. Tabela ANCOVA Table 6. ANCOVA table. Vir variabilnosti Source of variability VKO SS SP Df SKO MS F p Sospremenljivka/Covariate Bloki/Blocks Obravnavanja/Treatments Ostanek/Residual 24,6047 77,2271 44,503 23,3953 1 3 2 5 24,6047 25,7424 22,2515 4,67907 5,26 4,76 0,0704 0,0697 Skupaj/Total 324,0 11 Vpliv sospremenljivke je mejno statistično značilen (p = 0,0704). Ob upoštevanju kovariable zaznamo mejno statistično značilne razlike med obravnavanji (p = 0,0697). Izhodiščna in prilagojena povprečja so v Tabeli 7. Tabela 7. Povprečja in prilagojena povprečja za Y za obravnavanja A, B in C. Table 7. Means and adjusted means for Y for treatments A, B and C. A B C Povprečje/Mean Pril. povp./Adjusted mean 62,0 60,9 65,0 65,0 65,0 66,1 Upoštevanje sospremenljivke X je povzročilo, da je prilagojeno povprečje za A manjše od izhodiščnega povprečja, za B je enako, za C pa večje od izhodiščnega. LSD test ugotovi, da se obravnavanje A statistično značilno loči od obravnavanja C (p = 0,035), razlika med A in B pa je mejno statistično značilna (p = 0,052). Najbolj bistveno pa je zmanjšanje variance iz 8,0 (Tabela 5a) na 4,68 (Tabela 6), vrednost korigirane variance je 5,55. Razmerje 8/5,55 pove, da je upoštevanje sospremenljivke povečalo učinkovitost analize skoraj 1,5-krat. To pomeni, da uporaba sospremenljivke v tem poskusu odtehta 2 bloka: z 4 bloki in upoštevanjem kovariable dosežemo pri primerjavi povprečij enako natančnost kot bi z 6 bloki brez upoštevanja kovariable. a) KOŠMELJ, K.: Osnove analize kovariance 351 b) 75 70 65 60 55 50 Obravnavanje A B C 40 45 50 55 60 65 X 75 70 65 60 55 50 40 45 50 55 X 60 Obravnavanje A B C 65 Slika 2. a) Odvisnost Y od X. b) Vzporedne premice za obravnavanja A, B in C. Figure 2. a) Dependence of Y on X. b) Parallel lines for the treatments A, B and C. Ac 352 ta agriculturae slovenica, 83 - 2, november 2004 ZAHVALA Zahvaljujem se dr. Mojci Viršček Marn in dr. Mateju Stoparju za vzpodbudo in komentarje. REFERENCE Box, G. E. P., Hunter, W. G., Hunter, J. S. 1978. Statistics for Experimenters. Wiley. Hadživuković S. 1991. Statistički metodi. 2. izd. Novi Sad. Poljoprivredni fakultet. Kirk, R. E. 1982. Experimental Design: Procedures for Behavioral Sciences. Brooks/Cole Publishing Company. Kuehl R. O. 2000. Design of Experiments: Statistical Principles of Research Design and Analysis. Second Editon. Brooks/Cole Publishing Company. Mead, R. 1990. The Design of Experiments, Statistical Principles for Practical Application. Cambridge University Press. Mead, R., Curnow, R. N. 1990. Statistical Methods in Agriculture and Experimental Biology. Chapman & Hall. Pearce S.C. et al. 1988. Manual of crop experimentation. Charles Griffin& co, Oxford University press. Snedecor, G. W., Cochran,W. G. 1967. Statistical Methods. The Iowa State University Press. Steel R.G.D., Torrie J.H., Dickey D. 1997. Principles and Procedures of Statistics. A Biometrical Approach. McGraw-Hill.