Agrovoc descriptors: statistical methods, classification, hazelnuts, corylus avellana, weight, height, diameter Agris category codes: F01, U10 Univerza v Ljubljani Biotehniška fakulteta Oddelek za agronomijo COBISS koda 1.02 Diskriminantna analiza in klasifikacija: osnove in primer Damijana KASTELEC1, Katarina KOŠMELJ2 Delo je prispelo 15. januar 2008, sprejeto 28. april 2008. Received January 15, 2008; accepted April 28, 2008. POVZETEK V članku so predstavljene osnove diskriminantne analize in klasifikacije. Njuna uporabnost je predstavljena na preprostem primeru analize treh sort leske na podlagi treh morfoloških lastnosti ploda: mase, višine in premera. Izračuni so narejeni s programom SPSS. Ključne besede: diskriminantna analiza, klasifikacija ABSTRACT DISCRIMINANT ANALYSIS AND CLASSIFICATION: THEORY AND ILLUSTRATION Discriminant analysis and classification are presented in the paper. Their applicability is illustrated on an example of three hazel cultivars described by hazelnut mass, height and diameter. The calculations were made with the SPSS programme. Key words: discriminant analysis, classification 1 UVOD Proučujemo k populacij (skupin), iz katerih vzorčimo dovolj velike vzorce; za vsako enoto imamo podatke za večje število številskih spremenljivk. Diskriminantno analizo naredimo, kadar želimo ugotoviti, po katerih spremenljivkah se populacije (skupine) najbolj razlikujejo med seboj. V kmetijstvu so populacije npr. sorte (kultivarji, genotipi), za vsako sorto imamo vzorec enot, za 1 Asis. Ph. D., Jamnikarjeva 101, SI-1111 Ljubljana, P. O. Box 2995, e-mail: damijana.kastelec@bf.uni-lj.si 2 Prof. Ph. D., Jamnikarjeva 101, SI-1111 Ljubljana, P. O. Box 2995, e-mail: katarina.kosmelj@bf.uni-lj.si katere so izmerjene številne lastnosti (npr. morfološke, genetske, kemijske,.). Želimo ugotoviti, po katerih lastnostih se sorte najbolj razlikujejo med seboj. Na podlagi rezultatov diskriminantne analize lahko nadaljujemo s t. i. klasifikacijo (uvrščanje enot) v populacije (skupine). Klasificiramo enote, za katere ne vemo, v katero populacijo sodijo, imamo pa vrednosti istih osnovnih spremenljivk kot za enote, ki so bile vključene v diskriminantno analizo. Ta postopek ima vlogo napovedovanja. V literaturi je ponavadi diskriminacija in uvrščanje v skupine v istih poglavjih (Johnson in Wichern, 2002, Huberty 1994, Klecka, 1980), včasih je ločeno (Rencher, 1995). Diskriminacija je iskanje linearnih kombinacij osnovnih p spremenljivk, ki najbolje pojasnijo razlike med k skupinami. Dobljenim linearnim kombinacijam rečemo diskriminantne spremenljivke ali diskriminantne funkcije (angl. discriminant functions, discriminant coordinates, canonical variates). Prva diskriminantna spremenljivka določa, po katerih osnovnih spremenljivkah se populacije najbolj razlikujejo, v drugi diskriminantni spremenljivki so kot pomembnejše zastopane osnovne spremenljivke, ki sledijo po pomembnosti tistim v prvi diskriminantni spremenljivki, itd. Pomembnost posameznih spremenljivk pri razlikovanju skupin ugotavljamo na podlagi velikosti uteži diskriminantnih spremenljivk. V praksi si želimo, da je pomembnih diskriminantnih spremenljivk čim manj, kar pomeni, da lahko razlike med skupinami razložimo z eno, dvema ali kvečjemu s tremi diskriminantnimi spremenljivkami. Tedaj vrednosti diskriminantnih spremenljivk omogočajo grafične prikaze, ki vizualno predstavijo razlike med skupinami: npr. razsevni grafikon enot v prostoru prvih dveh diskriminantnih spremenljivk predstavlja najboljšo možno dvodimenzionalno predstavitev v smislu razločevanja med skupinami (slika 3). Za uporabo diskriminantne analize je potrebno, da imamo v posamezni skupini dovolj enot; število enot v posamezni skupini mora biti večje od števila spremenljivk. V članku bomo predstavili osnove diskriminantne analize in osnove klasifikacije ter njuno praktično uporabo na enostavnem primeru razločevanja treh sort leske, ki so opisane z maso, višino in premerom ploda. Uporabili bomo program SPSS. 2 OSNOVE MATEMATIČNE TEORIJE 2.1 ANOVA in MANOVA Idejo diskriminantne analize bomo razložili z analogijo z enosmerno analizo variance (ANOVA) in enosmerno multivariatno analizo variance (MANOVA). 2.1.1 Variabilnost med skupinami in znotraj skupin V analizi variance (ANOVA) analiziramo številsko spremenljivko X na k populacijah. Zanima nas, ali se povprečja k populacij razlikujejo med sabo. Ob predpostavki o enaki varianci po skupinah postavimo ničelno domnevo H0 : /ul = =A =/ut in alternativno domnevo H1, da vsaj dve povprečji nista enaki. Populacije predstavljajo vzorci velikosti nt, i = 1,K ,k . Na osnovi vzorčnih vrednosti izračunamo vzorčna povprečja x, i = 1,K ,k , in skupno povprečje x. Vsota kvadriranih odklonov B (angl. between groups) in vsota kvadriranih odklonov W (angl. within groups) vrednotita variabilnost med skupinami in variabilnost znotraj skupin: b = in ( - x )2 w = i i ( - x )2. i=1 i=1 j=1 Njuno razmere je vsebovano v F -statistiki: F = B/Sp1 W/SP2 ' ki je v primeru, da ničelna domneva velja, porazdeljena po F -porazdelitvi s stopinjami prostosti SP1 = k -1 in SP2 = n - k, n = ik=1 nl . Večja vrednost F -statistike odraža večje razlike med skupinami. Če proučujemo več kot eno številsko spremenljivko naenkrat, npr. p spremenljivk X1, X2,K , Xp, multivariatna analiza variance (MANOVA) nadgradi analizo variance. Predpostavimo, da ima k populacij enako variančno-kovariančno matriko E1 = E2 =A = Ek = E . Zanima nas, ali se populacije razlikujejo v p -dimenzionalnih vektorjih povprečij , do ^k. Vzorčne vrednosti p spremenljivk v i-ti skupini zapišemo z vektorjem xy, j = 1,K ,nt, in izračunamo vektorje vzorčnih povprečij x1, x2,K , xk, xi =(1/nt)i ter njihovo skupno j=1 — / k _ povprečje x = y k i xi . Podobno kot v univariatnem primeru ocenimo i=1 i variabilnost med skupinami z matriko B : B = in(i -x)(i -x) i=1 in variabilnost znotraj skupin z matriko W : w=i i (xj - xi Xxxj - xi r i=1 j=1 Variabilnost znotraj skupin izrazimo z vzorčnimi variančno-kovariančnimi matrikami po skupinah Si, W = i (ni - 1)Si . Nepristrana ocena za E je i i=1 i i S ^ = W (n - k ). Ničelno domnevo zapišemo v vektorski obliki - delamo primerjavo vektorjev povprečij za posamezne skupine, H0: = ^2 =A = ^k, nasproti alternativni domnevi H 1 , da vsaj dva vektorja povprečij nista enaka. Za preizkus ničelne domneve lahko uporabimo več različnih preizkusov: Wilksov, Lawley-Hottelingov, Royev, Pillaijev. Tu omenimo najpogosteje uporabljen Wilksov preizkus, v katerem je testna statistika Wilksova lambda A : |W| A = : B + W Njeno vrednost izračunamo kot razmerje determinante matrike W, W , in determinante matrike B + W, [B + W| ; njeno ničelno porazdelitev najdemo v literaturi (Rencher, 1995, str. 181). Če ničelno domnevo zavrnemo, nadaljujemo ali z analizo kontrastov (načrtovanih primerjav) ali s preizkusi mnogoterih primerjav, oboje postane zapleteno zaradi večjega števila spremenljivk. Če imamo dovolj velike vzorce, lahko kot lažje nadaljevanje MANOVA naredimo diskriminantno analizo. 2.1.2 Enakosti varianc oz. variančno-kovariančnih matrik Predpostavko o enakosti varianc po skupinah pri ANOVA preverjamo z različnimi 3 preizkusi (Leveneov , F-max preizkus,...), ki jih na tem mestu ne bomo podrobneje opisovali (Kuehl, 2000). Nekaj več povejmo o preizkusu domneve o enakosti variančno-kovariančnih matrik v primeru MANOVA. Program SPSS za ta primer uporablja Boxov M-preizkus (Box, 1949). Preverjamo ničelno domnevo H0 : £1 = E2 = A = Ek. Boxova M-statistika je: M = (n - k)log|Sship„\ ( - 1)lo; Aproksimacija njene ničelne porazdelitve je F-porazdelitev (Bryan, 2004, str. 49). Ta preizkus je zelo občutljiv na prisotnost že manjših odstopanj od multivariatne normalne porazdelitve, zato je njegove rezultate treba vzeti z rezervo. 2.2 Diskriminantna analiza V diskriminantni analizi iščemo take linearne kombinacije spremenljivk X1, X2,K , Xp, ki kar najbolje razločujejo k populacij. Model diskriminantne analize zapišemo takole: Y1 = a11X1 + a12X 2 + ... + a1 pXp Y2 = a21X1 + a22X 2 + ... + a2pXp Y = a ,X, + a .X. +... + a X . 1 1 2 2 p p Spremenljivki Yr, r = 1,K ,s rečemo diskriminantna spremenljivka, koeficientom linearne kombinacije ar =(ar1,ar2,...,ap) pa uteži diskriminantne 3 Program SPSS uporablja Leveneov preizkus. spremenljivke. Veljati mora predpostavka, da so variančno-kovariančne matrike po populacijah enake, E1 = E2 = A = Ek = E . diskriminantnih spremenljivk po skupinah maksimalne (slika 3, razdalje med težišči skupin). Kriterij, ki ga uporabimo, je: kjer je a matrika uteži. Matematično maksimiranje izraza naredimo z odvajanjem zgornjega izraza po a in izenačitvi izraza z 0. To privede do posplošenega problema lastnih vrednosti in lastnih vektorjev matrike W-1B : (w-1B -XI ) a = 0. Rešitev so lastne vrednosti X-X2 >K>X5 > 0 in pripadajoči lastni vektorji aj,a2,K ,a5 matrike W-1B . Lastne vektorje normiramo, sicer pa velja, da so med sabo nekorelirani: Število neničelnih lastnih vrednosti je enako rangu matrike B , 5 = min(( -1, p). Tako dobimo 5 diskriminantnih spremenljivk, ki maksimalno razločujejo (diskriminirajo) skupine. Prva diskriminantna spremenljivka ima smer, vzdolž katere je »razmerje B proti W « največje; druga diskriminantna spremenljivka ji po tem razmerju sledi, itd. »Razmerje B proti W « je mera za razločevanje skupin glede na osnovne spremenljivke; poimenovali ga bomo različnost skupin. Relativna pomembnost posamezne diskriminantne spremenljivke je razvidna iz razmerja XjT!j=1XJ . Glede na lastnost lastnih vrednosti, X1-X2 - A >X5 > 0, to razmerje od prve do zadnje lastne vrednosti pada. Potem razmerje Xj'Z'J=1XJ obrazložimo kot delež različnosti skupin, ki je pojasnjen z i -to diskriminantno spremenljivko. Ponovno naj poudarimo, da moramo imeti za diskriminantno analizo dovolj velike vzorce: ni > p. Matematični izračuni se sicer izvedejo tudi ob manj strogem pogoju n - 2 > p in hkrati ni > 2 , kjer je n = 2,i=1 ni . Izračuni se matematično ne morejo izvesti, če je ena izmed spremenljivk linearna kombinacija ostalih spremenljivk (kolinearnost). Uteži diskriminantnih spremenljivk določimo tako, da so razdalje med povprečji 4 4 Uporablja se Mahalanobisova razdalja. 2.3 Obrazložitev rezultatov diskriminantne analize 2.3.1 Uteži diskriminantnih spremenljivk Uteži diskriminantnih spremenljivk odražajo velikost parcialne korelacije med posamezno diskriminantno spremenljivko in posamezno osnovno spremenljivko, torej njuno povezanost ob hkratnem upoštevanju vseh ostalih osnovnih spremenljivk. Če imajo osnovne spremenljivke isto mersko lestvico in je njihova variabilnost približno enaka, absolutne vrednosti uteži diskriminantnih spremenljivk izražajo relativno pomembnost pripadajoče spremenljivke pri razlikovanju skupin. V praksi so osnovne spremenljivke pogosto po variabilnosti in merski lestvici različne; v takem primeru za obrazložitev uporabimo standardizirane uteži diskriminantnih spremenljivk, ki bi jih dobili na standardiziranih osnovnih spremenljivkah5. Absolutna velikost standardiziranih uteži diskriminantnih spremenljivk izraža pomembnost pripadajočih osnovnih spremenljivk za razločevanje skupin. Če želimo posamezno diskriminantno spremenljivko vsebinsko poimenovati, je poleg absolutne vrednosti uteži pomemben tudi njen predznak. V izpisih računalniških programov je tudi t. i. strukturna matrika6, ki vsebuje korelacijske koeficiente med diskriminantnimi in osnovnimi spremenljivkami in ima podobno vlogo kot pri faktorski analizi (Johnson in Wichern, 2002). Ti koeficienti so manj primerni za obrazložitev rezultatov, saj želimo osnovne spremenljivke obravnavati multivariatno. 2.3.2 Kanonična korelacija Royeva statistika 01 meri, kako uspešno prva diskriminantna spremenljivka razločuje skupine. Izračunamo jo kot razmerje »variabilnosti med skupinami BY proti skupni variabilnosti BY + W « za prvo diskriminantno spremenljivko Y1. To razmerje lahko izrazimo s prvo lastno vrednostjo matrike W-1B : 1 B + W 1+ A y y T Teorija pokaže, da je 0i kvadrat koeficienta kanonične korelacije rK 1, ki meri povezavo med prvo diskriminantno spremenljivko in linearno kombinacijo k -1 nemih spremenljivk; le te imajo vrednosti 0 in 1 in predstavljajo pripadnost enote posameznem vzorcu. Na osnovi lastnih vrednosti matrike W-1B izračunamo 7 koeficiente kanonične korelacije za vsako diskriminantno funkcijo : 5 Standardized canonical discriminant function coefficients (SPSS) 6 Structure matrix (SPSS) 7 SPSS poda tudi koeficiente kanonične korelacije. r = A K" p + Ai • Koeficienti kanonične korelacije so med 0 in 1, njihova velikost pada z zaporednimi diskriminantnimi spremenljivkami. Vrednosti blizu 1 kažejo na veliko uspešnost diskriminantne analize. Če imamo samo dve skupini ( k = 2), dobimo največ eno diskriminantno spremenljivko in je koeficient kanonične korelacije kar Pearsonov koeficient korelacije med diskriminantno spremenljivko in nemo spremenljivko, ki izraža pripadnost posamezni skupini. 2.3.3 Preizkusi o statistični značilnosti diskriminantnih spremenljivk V nadaljevanju bomo pogledali, ali diskriminantne spremenljivke razločujejo med populacijami. Za statistično sklepanje je poleg zahteve o enakih variančno-kovariančnih matrikah potrebna tudi predpostavka o večrazsežni normalni porazdelitvi p -spremenljivk. Za preverjanje domneve, ali vzorčni podatki kažejo, da se k -populacij razlikuje po povprečjih diskriminantne spremenljivke, uporabimo Wilksovo lambdo. V prvem koraku preverjamo ničelno domnevo, da se vrednosti dobljenih diskriminantnih spremenljivk med populacijami ne razlikujejo, kar pomeni, da so vse lastne vrednosti matrike W-1B enake 0: Ho : A = A =K =As = 0 proti alternativni domnevi, da se populacije razlikujejo vsaj po prvi diskriminantni spremenljivki. Za preverjanje te domneve uporabimo Wilksovo lambdo: s 1 A1 = n- i=11+ A i ki se aproksimativno porazdeljuje po %2 -porazdelitvi s SP = p(k-1). Statistično značilnost naslednjih diskriminantnih spremenljivk preverjamo na enak način z dodatnimi preizkusi istega tipa: s 1 2 Am = n-, ki se aproksimativno porazdeljuje po x -porazdelitvi s ™ 1 + Ai SP = (p - m +1)(( - m). V vsebinsko obrazložitev rezultatov diskriminantne analize običajno vključimo le statistično značilne diskriminantne spremenljivke. 2.4 Klasifikacija 2.4.1 Osnove klasifikacije Klasifikacija je postopek, pri katerem uvrščamo novo enoto, za katero imamo podatke za p spremenljivk ne pa pripadnosti skupini, v eno izmed vnaprej poznanih k populacij (skupin). Populacije se lahko glede na vrednosti p spremenljivk strogo razločujejo med seboj, lahko pa se bolj ali manj prekrivajo, kar klasifikacijo otežuje. Nove enote uvrščamo v skupine na podlagi t. i. klasifikacijskega pravila, ki pravi, naj bo verjetnost uvrstitve nove enote v napačno populacijo čim manjša. Skupno verjetnost za napačno uvrstitev nove enote TPM (angl. total probability of misclassification) izrazimo z vsoto (Johnson in Wichern, 2002, str. 613): TPM = j p ( j p(\i M/|'" ) j=1 v J* kjer je pl začetna verjetnost (angl. prior probability), da nova enota pripada i -ti populaciji, p(j\ì) je verjetnost, da novo enoto, ki dejansko pripada i -ti populaciji, napačno razvrstimo v J -to populacijo, c(j\i) pa stroški napačne klasifikacije. Začetna verjetnost pi temelji na velikosti populacij: če so vse populacije enako velike, je pi po populacijah enaka, sicer odraža razmerje velikosti populacij. Optimalno klasifikacijsko pravilo dobimo tako, da ob minimalni vrednosti TPM poiščemo k izključujočih se območij uvrščanja, kar omogoča, da novo enoto uvrstimo v natanko eno populacijo. Za izračun verjetnosti P(j'\i) moramo za vsako populacijo poznati p -razsežnostno porazdelitev spremenljivk. V nadaljevanju si oglejmo primer za p -razsežnostno normalno porazdelitev z enakimi variančno-kovariančnimi matrikami za vseh k populacij. Stroški napačne klasifikacije naj bodo za vse skupine enaki 1. Optimalno klasifikacijsko pravilo, ki določa, v katero izmed k -populacij bo razvrščena enota x0, dobimo na osnovi vrednosti t. i. linearnih klasifikacijskih funkcij dl (x0), i = 1,K ,k (angl. linear classification function, linear discriminant scores). Za opisani primer se le-te izražajo takole: d (x0 )=- 2 D (x0 )+ln p, kjer je D2 (x0 ) kvadrat Mahalanobisove razdalje: Di (x0 ) = (x0 - xi )T S-lupna (x0 - xi ) . To je razdalja med vektorjema x0 in x, ki upošteva korelacijo med spremenljivkami. V postopku klasifikacije novo enoto x0 uvrstimo v tisto populacijo, kjer je dt (x0 ) največja. Če izraz za dl (x0) razvijemo in zanemarimo člen 1/2x0S-JUpnax0, ki je za vse skupine enak, dobimo enačbo (Johnson in Wichern, 2002, str. 613): d.(x0)= xrS .L x0 —x^S? x. + ln»., j V 0 / i skupna 0 ^ 1 skupna i i i ' kjer prvi člen predstavlja linearno kombinacijo osnovnih p spremenljivk, druga dva člena pa konstanto za i -to skupino. Linearno klasifikacijsko funkcijo zato lahko zapišemo tudi takole: di (x0 ) = ci0 + cnx01 + ci2x02 +A + Cpx0p , ci0 je konstanta, c, j = 1,K , p so koeficienti linearne kombinacije, x0j so 8 vrednosti j -te osnovne spremenljivke na novi enoti. Za novo enoto x0 torej v postopku klasifikacije izračunamo vrednosti k linearnih klasifikacijskih funkcij dl (x0 ) in jo uvrstimo v tisto skupino, za katero je vrednost klasifikacijske funkcije največja. 2.4.2 Klasifikacija in diskriminantna analiza Fisherjevo klasifikacijsko pravilo (1936) je direktno povezano z diskriminantno analizo. Za novo enoto x0 = (x01,K, x0p^ izračunamo njen položaj v prostoru diskriminantnih spremenljivk y0 = (y01,K ,y0s)T. Za vsako skupino izračunamo oddaljenost y0 od težišča skupine v prostoru diskriminantnih spremenljivk. Izračuna se kvadrat Mahalanobisove razdalje, ki je v prostoru diskriminantnih spremenljivk enak kvadratu Evklidske razdalje: D2 (x0 )=± (y j - y )2 =± ( (x0 - x y0 j je vrednost j -te diskriminantne spremenljivke za novo enoto, a j je vektor uteži j -te diskriminantne spremenljivke. Novo enoto uvrstimo v skupino, za katero je vrednost Mahalanobisove razdalje v prostoru diskriminantni spremenljivk 9 najmanjša. Fisherjevo klasifikacijsko pravilo je enakovredno optimalnemu klasifikacijskemu pravilu, če v slednjem verjetnosti pi ocenimo s p1 = p2 =K = pk = 1/k . Opozorimo naj, da pri klasifikaciji upoštevamo vseh s diskriminantnih spremenljivk ne glede na njihovo pomembnost pri razločevanju skupin (Johnson in Wichern, 2002, str. 638). 2.4.3 Klasifikacija v vlogi verifikacije modela diskriminantne analize Postopek klasifikacije lahko uporabimo tudi za neke vrste oceno ustreznosti dobljenih diskriminantnih spremenljivk. V ta namen z dobljenimi utežmi 8 SPSS, Classification Function Coefficients 9 SPSS, Discriminant Analysis:Classification, možnost Casewise results izračuna kvadrate Mahalanobisove razdalje za vse enote vključene v diskriminantno analizo. disriminantnih spremenljivk povratno izračunamo vrednosti linearne klasifikacijske funkcije za vsako enoto vključeno v diskriminantno analizo ter jo po opisanem postopku klasificiramo (uvrstimo) v skupino. Nato naredimo t. i. klasifikacijsko tabelo, v kateri je razvidno, koliko enot je bilo pravilno in koliko napačno uvrščenih (preglednica 10). Rezultati tega postopka so zgolj informativni, običajno preoptimistični, ker delamo model diskriminantne analize in njegovo verifikacijo na podlagi istih podatkov. Boljši način ocene ustreznosti dobljenih diskriminantnih spremenljivk je t. i. navzkrižno preverjanje (angl. cross-validation, leaving one-out method). Ta postopek je računsko zahtevnejši, saj naredimo izračune uteži diskriminantnih funkcij n -krat: pri i -tem izračunu izpustimo i -ti podatek in ga nato po klasifikacijskem pravilu uvrstimo v posamezno skupino. Tudi v tem primeru naredimo klasifikacijsko tabelo, na podlagi katere izračunamo delež pravilno uvrščenih enot (preglednica 10). Ta način verifikacije je bolj smiseln in verodostojen. 3 PRIMER UPORABE DISKRIMINANTNE ANALIZE S PROGRAMOM SPSS Uporabo diskriminantne analize ilustriramo na primeru treh sort leske ('Istrske dolgoplodne leske', 'Tonda gentile dele langhe', 'Fertile de coutard'), ki so opisane s tremi morfološkimi lastnostmi (masa, višina, premer plodu). Za vsako sorto imamo vzorec velikosti 30. Empirične porazdelitve spremenljivk so prikazane na sliki 1, ki nakazuje, da obstajajo razlike v omenjenih morfoloških lastnostih lešnika med tremi sortami. 3.1 Univariatna analiza variance (ANOVA) Zaradi kasnejše primerjave rezultatov bomo najprej naredili ANOVA za vsako obravnavano spremenljivko. Iz preglednice 1 je razvidna enakost varianc po sortah, iz preglednic 2 in 3 pa, da se tri izbrane sorte leske statistično značilno razlikujejo med sabo v vseh treh morfoloških lastnostih (ANOVA in Duncanov preizkus). Preglednica 1: Rezultati Leveneovega preizkusa o enakih variancah po sortah leske za maso, višino in premer plodu. (SPSS, Analyse/General linear models/Multivariate, izbira možnosti Homogeneity tests v pogovornem oknu Multivariate:Options). Table 1 : Levene's test of equality of variances for hazelnut mass, height and diameter for three cultivars. Leneneov preizkus o enakih variancah Levene's Test of Equality of Error Variances F SP1 SP2 p-vrednost F df1 df2 Sig. Masa [g] Mass [g] ,044 2 87 ,957 Višina [mm] Height [mmg ,798 2 87 ,453 Premer [mm] Diameter [mm] ,522 2 87 ,595 t-1-r 'Istrska dolgoploda 'Tonda gentile delle 'Fertile de coutard' leska' langhe' Sorta 25,0 22,5 20,0- 17,5 15,0 'Istrska dolgoploda 'Tonda gentile delle 'Fertile de coutard' leska' langhe' Sorta Slika 1: Okvirji z ročaji za višino, premer (zgoraj) in maso (spodaj) lešnikov treh sort leske, velikosti vzorcev 30. Figure 1: Box plot for hazelnut height and diameter (above) and hazelnut mass (below) for three cultivars, sample size 30. KASTELEC, D., KOŠMELJ, K.: Diskriminantna analiza in klasifikacija. 179 Preglednica 2: ANOVA za maso, višino in premer lešnikov treh sort leske. Table 2: ANOVA for hazelnut mass, height and diameter for three cultivars. Spremenljivka Variables Vir Source VKO SS SP df SKO MS F F p-vrednost Sig. Masa [g] Mass [g] Med sortami Between cultivars 5,898 2 2,949 30,3 ,000 Znotraj sort Within cultivars 8,473 87 ,097 Skupaj Total 14,371 89 Višina [mm] Height [mm] Med sortami Between cultivars 654,463 2 327,232 426,9 ,000 Znotraj sort Within cultivars 66,695 87 ,767 Skupaj Total 721,158 89 Premer [mm] Diameter [mm] Med sortami Between cultivars 192,755 2 96,378 119,2 ,000 Znotraj sort Within cultivars 70,379 87 ,809 Skupaj Total 263,134 89 Preglednica 3: Povprečja za maso, višino in premer lešnikov po sortah in rezultati Duncanovega preizkusa mnogoterih primerjav, p < 0,05. (SPSS, Analyse/General linear models/Multivariate, v pogovornem oknu Multivariate: Post Hoc izberemo možnost Duncan). Table 3: Averages for hazelnut mass, height and diameter for three cultivars and results of Duncan's test. Masa [g] Mass [g]_ Sorta Cultivar N Podskupina Subset 1 2 3 'Tonda gentile delle langhe' 30 1,992 Duncan 'Istrska dolgoploda leska' 30 2,398 'Fertile de coutard' 30 2,608 Višina [mm] Height [mm] N Podskupina Subset Sorta Cultivar 1 2 3 'Tonda gentile delle langhe' 30 16,745 Duncan 'Istrska dolgoploda leska' 30 20,647 'Fertile de coutard' 30 23,312 Premer [mm] Diameter [mm] N Podskupina Subset Sorta Cultivar 1 2 3 'Tonda gentile delle langhe' 30 16,860 Duncan 'Istrska dolgoploda leska' 30 17,718 'Fertile de coutard' 30 20,303 3.2 Multivariatna analiza variance (MANOVA) Rezultati univariatne analize variance zadoščajo, če spremenljivke niso povezane med sabo. Morebitno povezanost spremenljivk najlepše vidimo v matriki razsevnih grafikonov (slika 2). Opazimo, da med izbranimi tremi spremenljivkami obstaja rahla linearna povezanost, največja je med maso in premerom ( r = 0,609, preglednica 4). o° * o v- + i A + + ♦ 0 <> 0 Mf' + • t' + + °° ^ A iT Sp a + ^ + Sorta 0 'Fertile de coutard' 'Istrska A dolgoploda leska' + 'Tonda gentile delle langhe' Masa [g] Višina [mm] Premer [mm] Slika 2: Matrika razsevnih grafikonov za maso, višino in premer lešnika za tri sorte. Figure 2: Scatterplot matrix for hazelnut mass, height and diameter for three cultivars. Preden se lotimo MANOVA, moramo preveriti, ali je za izbrane podatke izpolnjena predpostavka o enakosti variančno-kovariančnih matrik po sortah. V preglednici 4 je podana matrika Ssbipna in vzorčne variančno-kovariančne matrike po sortah ( Si, i = 1,...,3 ). Vidimo, da se matrika Sstip>na na različne načine razlikuje od matrik S;, vendar razlike niso dovolj velike, da bi jih Boxov M-preizkus (preglednica 5) odkril kot statistično značilne ( p = 0,484 ). Preglednica 4: Vzorčna variančno-kovariančna matrika Sskupna in pripadajoča korelacijska matrika (zgoraj) ter vzorčne variančno-kovariančne matrike za vsako sorto posebej. (SPSS, Analyze/Classify/Discriminant, možnost Within groups covariances in Separate groups covariances v pogovornem oknu Discriminat Analysis: Statistics). Table 4: Sample variance-covariance matrix and its corresponding correlation matrix (upper table) and sample variance-covariance matrices for each cultivar. Skupna variančno-kovariančna matrika Pooled Within-Groups Matrices Premer Masa Mass Višina Height Diameter [g] [mm] [mm] Kovarianca Masa Mass [g] ,097 ,074 ,171 Covariance Višina Height [mm] ,074 ,767 ,291 Premer Diameter [mm] ,171 ,291 ,809 Korelacija Masa Mass [g] 1,000 ,271 ,609 Correlation Višina Height [mm] ,271 1,000 ,369 Premer Diameter [mm] ,609 ,369 1,000 Variančno-kovariančne matrike Covariance Matrices Sorta Masa Mass [g] Višina Height [mm] Premer Diameter [mm] 'Istrska dolgoploda leska' Masa Mass [g] ,112 ,026 ,216 Višina Height [mm] ,026 ,870 ,210 Premer Diameter [mm] ,216 ,210 ,826 'Tonda gentile delle langhe' Masa Mass [g] ,092 ,132 ,197 Višina Height [mm] ,132 ,798 ,531 Premer Diameter [mm] ,197 ,531 ,885 'Fertile de Coutard' Masa Mass [g] ,088 ,064 ,100 Višina Height [mm] ,064 ,632 ,132 Premer Diameter [mm] ,100 ,132 ,716 Preglednica 5: Boxov M-preizkus o enakosti variančno-kovariančnih matrik po sortah (SPSS, Analyse/Calssify/Discriminant, možnost Box's M v pogovornem oknu Discriminant Analysis: Statistics). Table 5: Box's M-test for equality of variance-covariance matrices for cultivars. Rezultati preizkusa Test Results Boxova M-statistika Box's M 12,146 Aproksimativna F statistika F Approx. ,961 SP1 df1 12 SP2 df2 36680,5 p-vrednost Sig. ,484 Torej lahko nadaljujemo z MANOVA in preizkusimo ničelno domnevo, da so vektorji povprečij (masa, višina, premer) za vse tri sorte enaki. Rezultati MANOVA (preglednica 6) pokažejo, da ničelno domnevo zavrnemo, štirje različni testi dajo enako statistično značilnost. Preglednica 6: MANOVA za maso, višino in premer lešnikov treh sort leske (SPSS, Analyse/General linear models/Multivariate). Table 6: MANOVA for hazelnut mass, height and diameter for three cultivars. Multivariatni preizkusi Multivariate Tests Vrednost F SPsorta SPostanka p-vrednost DejavnikEffect Value F Hypothesis df Error df Sig. Sorta Pillai's Trace 1,650 135,3 6 172 ,000 Cultivar Wilks' Lambda ,023 158,6 6 170 ,000 Hotelling's Trace 13,220 185,1 6 168 ,000 Roy's Largest Root 10,402 298,2 3 86 ,000 Z diskriminantno analizo bomo ugotavljali, katera morfološka lastnost sorte najbolj razločuje. 3.3 Diskriminantna analiza V diskriminantno analizo vključimo vse tri spremenljivke, izmerjene na treh vzorcih sort leske. Že pri MANOVA smo preverili predpostavko o enakosti variančno-kovariančne matrike za tri sorte leske (preglednica 5), kar je pogoj za uporabo diskriminantne analize. Diskriminantna analiza pokaže (preglednica 7), da prva diskriminantna spremenljivka pojasni 78,7 % različnosti skupin, druga pa preostalih 21,3 %. Tudi njuna koeficienta kanonične korelacije sta velika (0,96; 0,86). Obe diskriminantni spremenljivki sta statistično značilni, Wilks-ovi lambdi sta dovolj majhni, da je p = 0,000. Največjo standardizirano utež prve diskriminantne spremenljivke (preglednica 8) ima višina (1,064), sledi premer (-0,338), kar pomeni, da se sorte leske med seboj najbolj razločujejo po višini plodov. Druga diskriminantna spremenljivka ima največjo standardizirano utež pri premeru (1,181), sledi masa (-0,308), kar pomeni, da se sorte v manjši meri razločujejo po premeru. Ob upoštevanju višine in premera postane masa plodu nepomembna za razlikovanje treh sort lešnika. Če pogledamo strukturno matriko - korelacijske koeficiente (preglednica 8), ki merijo povezanost med posamezno diskriminantno spremenljivko in posamezno osnovno spremenljivko, dobimo enake rezultate. Preglednica 7: Lastne vrednosti (Eigenvalues) diskriminantnih spremenljivk, njihova relativna pomembnost (% of Variance) in pripadajoča kumulativa (Cumulative %) ter koeficient kanonične korelacije (zgoraj). Rezultati Wilksovega preizkusa (spodaj). Table 7: Eigenvalues, % of variance, cumulative % and canonical correlation (above), Wilks' test (below). Lastne vrednosti Eigenvalues Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 10,402(a) 78,7 78,7 ,955 2 2,818(a) 21,3 100,0 ,859 Wilksova lambda Wilks' Lambda Preizkus diskriminantnih spremenljivk Wilksova lambda Hi-kvadrat SP p-vrednost Test of Function(s) Wilks' Lambda Chi-square df Sig. \ = X2 = 0 oz. vsaj \= 0 ,023 324,528 6 ,000 1 through 2 ^ = 0 2 ,262 115,222 2 ,000 Preglednica 8: Standardizirane uteži diskriminantnih spremenljivk in strukturne uteži (SPSS, Analyze/Classify/Discriminant). Table 8: Stadardized discriminant function coefficients and structure matrix. Standardizirane uteži diskriminantnih spremenljivk Standardized Canonical Discriminant Function Coefficients Funkcija Function 1 2 Masa Mass [g] ,077 -,308 Višina Height [mm] 1,064 -,074 Premer Diameter [mm] -,338 1,181 Strukturna matrika Structure Matrix Diskriminantna spremenljivka Function 1 2 Višina Height [mm] ,960 ,279 Premer Diameter [mm] ,102 ,966 Masa Mass [g] ,159 ,391 V preglednici 9 so navedene uteži diskriminantnih spremenljivk. Potrebujemo jih za izračun vrednosti diskriminantnih spremenljivk (angl. discriminant score) za enote v vzorcih. Poglejmo si en primer izračuna: za lešnik sorte 'Istrska dolgoploda leska' imamo naslednje vrednosti spremenljivk masa = 2,65 g , višina = 24,15 mm in premer = 18,20 mm; vrednosti diskriminantnih spremenljivk (in y2) izračunamo z enačbama10: y1 = -18,299 + 0,246 • masa +1,216 • višina - 0,376 • premer = 4,783 y2 = -20,006 - 0,988 • masa - 0,085 • višina +1,314 • premer = -0,769 . Ti dve vrednosti določata točko, ki prikazuje izbrani lešnik v ravnini diskriminantnih spremenljivk na sliki 3. Po enakem postopku so izračunane vrednosti diskriminantnih spremenljivk za vse ostale lešnike. Njihovo povprečje za posamezno sorto predstavlja težišče sorte, ki je na sliki 3 prikazano s črnim kvadratkom. Koordinate težišč sort leske v ravnini diskriminantnih spremenljivk so v zadnji tabeli preglednice 9. Slika 3 prikazuje, da prva diskriminantna spremenljivka dobro razločuje vse tri sorte, kar je razvidno iz projekcije težišč na absciso. Druga diskriminantna spremenljivka pa razločuje predvsem sorto 'Fertile de coutard' od ostalih dveh, saj sta projekciji težišč sort 'Istrska dolgoploda leska' in 'Tonda gentile delle langhe' na ordinato zelo blizu skupaj. 10 Vrednosti diskriminantnih spremenljivk so izračunane na podlagi uteži diskriminantnih spremenljivk z vsaj šestimi decimalkami, v tabelah in v enačbi so le te prikazane samo s tremi decimalnimi mesti. Preglednica 9: Uteži diskriminantnih spremenljivk in težišča sort v ravnini diskriminantnih spremenljivk (SPSS, Analyze/Classify/Discriminant, gumb Statistics, možnost Unstandardized v razdelku Function Coefficients). Table 9: Unstandardized canonical discriminant function coefficients and group centroids. Nestandardizirane uteži diskriminantnih spremenljivk Canonical Discriminant Function Coefficients_ Diskriminantna spremenljivka Function 1 2 Masa Mass [g] ,246 -,988 Višina Height [mm] 1,216 -,085 Premer Diameter [mm] -,376 1,314 (Konstanta) (Constant) -18,299 -20,006 Težiščne vrednosti diskriminantnih spremenljivk Functions at Group Centroids_ Sorta Cultivar Diskriminantna spremenljivka Function 1 2 'Istrska dolgoploda leska' 3,973 -1,082 'Tonda gentile delle langhe' -3,787 -1,250 'Fertile de Coutard' -,186 2,332 Canonical Discriminant Functions o o ° Jo O ÖQÖ jt00 O 0 ▲ + + +++ + +2V % + * ++4+++ + o A + aa A / A a A4 A ^ A + Sorta A 'Istrska dolgoploda leska' + 'Tonda gentile delle langhe' 0 'Fertile de coutard' 1 Group Centroid 0,0 2,1 Function 1 6- 4- 2 0- -5,0 -2,5 Slika 3 : Razsevni grafikon v ravnini prvih dveh diskriminantnih spremenljivk dobljenih pri diskriminantni analizi treh morfoloških lastnosti lešnikov treh sort leske. (SPSS, Analyze/Classify/Discriminant, gumb Classification, razdelek Plots, možnost Combined-groups). Figure 3: Scatterplot in the space of the first two discriminant variables. 3.4 Klasifikacija za namen verifikacije modela diskriminantne analize V preglednici 10 so koeficienti linearnih klasifikacijskih funkcij, ki jih dobimo na podlagi zgoraj predstavljenih diskriminantnih spremenljivk in predpostavk klasifikacije. Poleg enakosti variančno-kovariančnih matrik smo tu predpostavili še več-razsežnostno normalno porazdelitev (Shapiro-Wilkov preizkus za naše podatke pokaže, da je predpostavka upravičena). Preglednica 10: Koeficienti treh linearnih klasifikacijskih funkcij: ci0 in cv, j = (masa, višina, premer), i = ('Istrska dolgoploda leska', 'Tonda gentile delle langhe', 'Fertile de coutard'). (SPSS, Analyze/Classify/Discriminant, gumb Statistics, možnost, v razdelku Function Coefficients izberemo možnost Fisher's). Table 10: Coefficients of three classification functions: ci0 in, c9, j = (mass, height, diameter), i = ('Istrska dolgoploda leska', 'Tonda gentile delle langhe', 'Fertile de coutard'). Koeficienti linearnih klasifikacijskih funkcij Classification Function Coefficients_ Sorta Cultivar 'Istrska dolgoploda leska' 'Tonda gentile delle langhe' 'Fertile de coutard' Masa Mass [g] -27,359 -29,101 -31,754 Višina Height [mm] 26,109 16,688 20,762 Premer Diameter [mm] 18,296 20,991 24,343 (Konstanta) (Constant) -434,697 -288,798 -421,145 Slika 4 prikazuje tri izključujoča si območja v prostoru diskriminantnih spremenljivk, ki so določena na podlagi dobljenega klasifikacijskega pravila (angl. territorial map). Canonical Discriminant Function 2 Territorial Map * Težišče skupine Group ceritroiđ -2,0 ,0 2,0 4,0 6,0 3 233 4, 0 -- 2233 223 233 2233 223 233 2, 0 2233 223 233 2233 223 233 , 0 4- 2233 223 233 Fertile de coutard7 2233 311 223 31 231 331 311 331 311 31 331 311 31 331 311 331 3 31 31 331 311 31 331 311 31 'Tonda gentile delle langhe' 21 'Istrska dolgoploda leska' 21 i 21 4-21 I Canonical Discriminant Function 1 Slika 4: Izključujoča območja v ravnini diskriminantnih spremenljivk, ki jih določajo vrednosti linearnih klasifikacijskih funkcij (SPSS, Analyze/Classify/Discriminant, gumb Classification, razdelek Plots, možnost Territorial map). Figure 4: Territorial map in the space of discriminant variables. Metodo klasifikacije bomo uporabili za oceno primernosti modela diskriminantne analize. Začetne verjetnosti so v našem primeru za vse tri sorte leske enake, pi = p2 = p3 = V3 . Za vsak lešnik izračunamo kvadrat Mahalanobisove razdalje D2, i = ('Istrska dolgoploda leska', 'Tonda gentile delle langhe', 'Fertile de coutard'), in ga uvrstimo (klasificiramo) v tisto sorto, za katero je ta razdalja najmanjša. Če za prikaz primera izračuna uporabimo isti lešnik kot zgoraj, dobimo: Dltrska = (4,873 - 3,973)2 + (- 0,769 - (-1,082))2 = 0,908 DLa = (4,873 - (- 3,787) + (- 0,769 - (-1,250))2 = 75,240 DLae = (4,873 -(- 0,186) +(- 0,769 - 2,332)2 = 35,219. Izbrani lešnik je najbližje težišču 'Istrske dolgoplode leske'. Enak rezultat dobimo, če izračunamo vrednosti treh linearnih klasifikacijskih funkcij (preglednica 10): dMrska = -434,697 - 27,359 • masa + 26,109 • višina +18,296 • premer = 456,31 dTomaa = -288,798 - 29,101 • masa +16,688 • višina + 20,991 • premer = 419,15 dFertlle = -421,145 - 31,754 • masa + 20,762 • višina + 24,343 • premer = 439,16 . Največja vrednost je dUrsta, kar pomeni, da po klasifikacijskem pravilu lešnik pravilno uvrstimo k sorti 'Istrska dolgoploda leska'. Izkaže se, da skupno dobimo dva napačno uvrščena lešnika, ki sicer pripadata sorti 'Fertile de coutard', eden od njiju je uvrščen k sorti ' Istrska dolgoploda leska', drugi pa k sorti 'Tonda gentile delle langhe' (preglednica 11). Ostalih 88 lešnikov (97,8 %) je pravilno uvrščenih. Na sliki 3 sta napačno uvrščena lešnika prikazana kot odebeljena krogca. Pri navzkrižnem preverjanju (preglednica 11) dobimo napačno uvrščene tri lešnike, ista dva kot po prejšnjem postopku in še en lešnik iz sorte ' Istrska dolgoploda leska', ki je napačno uvrščen k sorti 'Tonda gentile delle langhe', na sliki 3 je ta lešnik prikazan z odebeljenim trikotnikom. Ti rezultati kažejo, da lahko zaupamo rezultatom diskriminantne analize. Preglednica 11: Rezultati klasifikacije lešnikov na podlagi linearne klasifikacijske funkcije (SPSS, Analyze/Cassify/Discriminant, klik gumba Cassify, izbira možnosti Summary table in leave-one out classification v razdelku Display). Table 11: Classification results. Rezultati klasifikacije Classification Results Sorta Cultivar Napovedana pripadnost skupini Predicted Group Membership Skupaj Total 'Istrska 'Tonda 'Fertile dolgoploda leska' gentile delle langhe' de Coutard' Število Count 'Istrska dolgoploda leska' 30 0 0 30 Dejanska pripadnost 'Tonda gentile delle langhe' 'Fertile de Coutard' 0 1 30 1 0 28 30 30 skupini 'Istrska dolgoploda leska' 100,0 ,0 ,0 100,0 Original % 'Tonda gentile delle langhe' ,0 100,0 ,0 100,0 'Fertile de Coutard' 3,3 3,3 93,3 100,0 Število Count 'Istrska dolgoploda leska' 29 0 1 30 Navzkrižno 'Tonda gentile delle langhe' 0 30 0 30 preverjanje 'Fertile de Coutard' 1 1 28 30 Cross- 'Istrska dolgoploda leska' 96,7 ,0 3,3 100,0 validate % 'Tonda gentile delle langhe' ,0 100,0 ,0 100,0 'Fertile de Coutard' 3,3 3,3 93,3 100,0 3.5 Razprava Na preprostem primeru smo prikazali uporabo diskriminantne analize in klasifikacije kot metode za oceno ustreznosti modela diskriminantne analize. Univariatna ANOVA pokaže, da se sorte statistično značilno razlikujejo po masi, premeru in višini lešnikov. Diskriminantna analiza kot multivariatna metoda pa je pokazala, da se plodovi treh sort leske med seboj najbolj razlikujejo po višini, nato po premeru, masa postane ob upoštevanju višine in premera nepomembna za razlikovanje sort. Klasifikacijo smo v obravnavanem primeru uporabili le za verifikacijo modela diskriminantne analize ob predpostavkah, ki omogočajo uporabo Fisherjevega klasifikacijskega pravila. Metodo bi lahko uporabili tudi za uvrščanje lešnikov neznane sorte z znanimi vrednostmi za maso, višino in premer plodu, v eno izmed treh obravnavanih sort leske. 4 ZAKLJUČEK Diskriminantna analiza je multivariatna statistična metoda, ki upošteva linearno povezanost osnovnih spremenljivk, zaradi katere določenih zakonitosti v podatkih ne moremo razbrati ob univariatnih analizah posameznih spremenljivk. Obstajajo primeri podatkov, ko univariatne analize posameznih spremenljivk ne pokažejo statistično značilnih razlik med populacijami, diskriminantna analiza pa pokaže, da lahko populacije razlikujemo na podlagi ene ali več linearnih kombinacij osnovnih spremenljivk (diskriminantnih funkcij). Rezultati diskriminantne analize so lahko napačni, če korelacija med osnovnimi spremenljivkami ni linearna ali če v podatkih obstaja veliko osamelcev. Slednje ponavadi povzroči, da ne moremo predpostaviti enakih variančno-kovariančnih matrik po populacijah. Zato je potrebno na začetku statistične analize narediti različne pregledovalne grafične predstavitve podatkov, ki pokažejo morebitno nelinearnost in prisotnost osamelcev. V določenih primerih se tako nelinearnosti kot tudi osamelcev znebimo z ustreznimi transformacijami osnovnih spremenljivk. Pri obrazložitvi rezultatov diskriminantne analize se moramo zavedati, da so rezultati zanesljivi le, kadar je razmerje med številom enot v vzorcih in številom osnovnih spremenljivk ( 2f=1njp ) dovolj veliko; nekateri priporočajo vrednost tega razmerja od 4 do 5. Če je to razmerje majhno, so rezultati vezani na izbrane vzorce in jih ne moremo posplošiti na pripadajoče populacije. Včasih se zgodi, da dobimo posamezno diskriminantno spremenljivko statistično značilno, čeprav je njen prispevek k razločevanju skupin zelo majhen, v takem primeru ji ne posvečamo posebne pozornosti. Diskriminantno analizo smo prikazali kot možnost nadaljevanja enosmerne multivariatne analize variance, ki je primerna, kadar obravnavamo podatke pridobljene za slučajne skupine. V primerih, ko osnovnih predpostavk diskriminantne analize ne moremo izpolniti, je primerneje, če podatke analiziramo z logistično regresijo (za dve populaciji) ali pa z multinomsko logistično regresijo (za več populacij). 5 LITERATURA Box, G. E. P. A general distribution theory for a class of likelihood criteria. Biometrika, 36, 1949, 317-346. Bryan F. J. Manly. Multivariate Statistical Methods, A primer, Third edition, Chapman and Hall/CRC, London, 2004, 214 str. Chattfield C./ Collins A. J.. Introduction to multivariate analysis, Chapman and Hall/CRC, London, 1980, 248 str. Ferligoj, A. http://vlado.fmf.uni-lj.si/vlado/podstat/Mva/DA.pdf, 18. 9. 2007 Fisher, R. A.. The use of multiple measurements in the taxonomic problems. Annals of Eugenics, 7, 1936, 179-188. Huberty, C. J. Applied Discriminant Analysis, John Wiley & Sons, Inc., New York, 1994, 466 str. Johnson, R. A./ Wichern, D. W. Applied multivariate Statistical Analysis. Prentice Hall, New Jersey, 2002, 767 str. Klecka R. William. Discriminant Analysis, Quantitative Applications in the Social Sciences Series, No. 19. Thousand Oaks, CA: Sage Publications, 1980, 71 str. Kuehl R. O. Design of Experiments, Statistical Principles of Research Design and Analysis, Second Edt., Duxbury Thomson Learning, 2000, 664 str. Rencher, A. C. Methods of Multivariate Analysis. John Wiley 6 Sons, Inc., New York, 1995, 627 str. http://www2.chass.ncsu.edu/garson/pa765/discrim.htm, 24. 10. 07 http://www.statsoft.com/textbook/stdiscan.html, 24. 10 2007