Multivariantna analiza nominalnih podatkov BLAŽ VODOPIVEC Logistični modeli in logistična regresija Problemi, s katerimi se ukvarjajo družboslovni raziskovalci, so kompleksni. V vsakem nastopa vrsta dejavnikov , ki so medsebojno prepleteni in vplivajo drug na drugega. Multivariantne metode analize podatkov so v mnogočem omogočile raziskovalcem vpogled v probleme, v katerih bi se izgubili, če bi jih proučevali zgolj s preprostimi un i variantnimi in bivariantnimi metodami. Na žalost pa je bila do pred kratkim uporaba multivariantnih metod statistične analize, z nekaj izjemami, omejena na Podatke, izmerjene vsaj na intervalnem nivoju. Večina multivariantnih metod tako ali drugače izhaja iz matrike Pearsonovih produkt-moment korelacijskih koeficientov oziroma kovarianc. Postopki ocenjevanja parametrov pa temeljijo na predpostavki o multivariantni normalni distribuciji variabcl, oziroma vsaj rezidualov (napake). V mnogih raziskavah je del ali večina zbranih podatkov na nominalnem merskem nivoju. To je do pred kratkim za raziskovalca, ki je hotel analizirati kompleksne odnose med več spremenljivkami, predstavljalo hudo neprijetno situacijo. Če seje hotel izogniti Pregledovanju množice kontingenčnih tabel, ki so rezultat hkratnega križanja več spremenljivk, je bila njegova edina možnost, da se jc s takimi ali drugačnimi triki prisleparil" skozi multivariantne tehnike, namenjene intervalnim spremenljivkam. Vendar je pri tem vzel v zakup napake pri ocenah parametrov in težave pri interpretaciji outputa analize. V zadnjih dvajsetih letih pa so statistiki razvili vrsto novih metod, namenjenih multivariantni analizi nominalnih podatkov. Uporaba nekaterih od teh metod, ki analizo nominalnih podatkov postavljajo tako rekoč ob bok analizi podatkov višjih merskih nivojev, je v zadnjem času doživela v družboslovnem raziskovanju pravi razmah. Zato j'h velja na kratko predstaviti. Tokrat bodo predstavljene metode za analizo vplivov med manifestnimi spremenljivkami, ki imajo med klasičnimi multivariantnimi metodami vzporednico v niultipli regresiji. Prihodnjič bodo predstavljene metode za analizo latentnih spremenljivk, oziroma vpliva le-tch na manifestne, ki imajo svojo vzporednico v faktorski analizi oziroma v merskem modelu analize kovariančnih struktur (glej npr. Vodopivcc 1988). Metode za analizo vplivov med manifestnimi nominalnimi spremenljivkami lahko v grobem razdelimo takole: za analizo vpliva nominalnih neodvisnih spremenljivk na nominalno odvisno uporabljamo logistične modele. Za analizo vpliva intervalnih neodvisnih spremenljivk na dihotomno odvisno spremenljivko pa ponavadi uporabljamo logistično regresi jo ali probil regresi jo. Logistični modeli Vpliv nominalne spremenljivke na drugo analiziramo s pomočjo kontingenčne tabele. S hi-kvadrat testom preverimo predpostavko o neodvisnosti spremenljivk. S pomočjo raznih koeficientov (koeficient kontingence, fi, tau, gama itd.) in s pomočjo pregledovanja vsebine celic tabele dobimo vpogled v moč zveze med spremenljivkama. Če pa nas zanima simultan vpliv več nominalnih neodvisnih spremenljivk na nominalno odvisno, se situacija zaplete. Vsaka nadaljnja spremenljivka pomeni dodatno dimenzijo v kontingenčni tabeli in pri več kot treh dimenzijah postanejo tabele praviloma popolnoma nepregledne. Vrh tega so vsi prej omenjeni statistični testi in koeficienti prirejeni za dvodimenzionalne tabele. Zato raziskovalec nima nobenega statističnega indikatorja,ki bi mu povedal, koliko dodatne neodvisne spremenljivke, ki jih je vključil v analizo, prispevajo k pojasnjevanju razpršitve odvisne spremenljivke. Tudi če tako večdimenzionalno tabelo sploščimo v dvodimenzionalno (z odvisno spremenljivko na eni dimenziji in z vsem kombinacijami vrednosti neodvisnih spremenljivk na drugi dimenziji), nam prej omenjeni indikatorji ustrezno ne pokažejo skupnega vpliva vseh spremenljivk (npr. analogno koeficientu multiple korelacijc), prav tako pa ne moremo oceniti prispevka vsake posamezne spremenljivke (npr. analogno posameznim regresijskim koeficientom). Logistični modeli so podzvrst log-lincarne analize. Log-linearna analiza na razmeroma enostaven način razreši probleme analize večdimenzionalnih kontingenčnih tabel. Vprašanje, ki ga skušamo razrešiti z log-lincarno analizo, je, koliko posamezne spremenljivke in njihove interakcije prispevajo k razporeditvi frekvenc v celicah take tabele, oziroma k verjetnostim, da se bo posamezna enota (npr. respondent) znašla v določeni celici take tabele. Splošna log-linearna analiza ne pozna delitve na odvisne in neodvisne spremenljivke. Odvisna spremenljivka je v tem primeru ravno celična verjetnost. Denimo, da analiziramo i X k X j tabelo. Pjjk naj bo verjetnost, da ima posameznik i-ti atribut na prvi spremenljivki, j-ti atribut na drugi spremenljivki in k-ti na tretji. Če predpostavljamo, da med spremenljivkami ni interakcij, velja Pjjk = Pj * Pj * Pfc. Ker pa so ravno interakcije tisto, kar nas pri analizi večdimenzionalnih kontingenčnih tabel zanima, pomeni, daje Pijk = Pi * Pj * Pk * Pi*j * Pi*k * Pi*j*k- Log-linearna analiza s pomočjo take ali drugačne logaritmične transformacije pretvori multiplikativni model na desni strani zgornje enačbe v linearni adilivni: f(Pijk) = f(Pi) + f(Pj) + f(Pk) + f(Pi*j) + - + f(P,*j*k) Nato s pomočjo enega oa statističnih algoritmov (ponavadi je to metoda maksimalne zanesljivosti - maximum likelihood) z analizo enačb za vse celice tabele (Pijk. Pj-ljk—) oceni vrednost parametrov f(Pj), f(Pi-i), ... f(Pj), f(Pj-i),... f(Pj*j*k), f(Pi-l*j*k)- S pomočjo anlilogaritmične transformacije lahko potem izračunamo originalne parametre modela. Osnovna enota pri log-lincami analizi torej niso posamezniki (primeri), ampak celice kontingenčne tabele. Logistični modeli so kategorija log-linearnih modelov, pri katerih raziskovalec eno od spremenljivk vnaprej določi za odvisno in ugotavlja vpliv ostalih spremenljivk na njeno razpršitev. Logistična analiza da oceno parametrov, ki povedo, v kakšni meri posamezne prediktorske spremenljivke in njihove interakcije vplivajo na verjetnost, da bo posameznik prišel v določeno kategorijo odvisne spremenljivke. Ti parametri so analogni regresijskim koeficientom v regresijski enačbi, z dvema razlikama. Prvič, model ni aditiven, ampak multiplikativen. In drugič, enačba ne napoveduje vrednosti odvisne spremenljivke, temveč verjetnost, da bo posameznikov odgovor v določeni kategoriji odvisne spremenljivke. Denimo, da je posameznikov odgovor v i-ti kategoriji prve neodvisne spremenljivke in j-ti kategoriji druge neodvisne sprcmemljivkc. Razmerje med verjetnostjo, da bo njegov odgovor v k-ti kategoriji odvisne spremenljivke in verjetnostjo, da bo v referenčni kategoriji, kaže enačba (1) kjer so z B označeni parametri logističnega modela. Izraz modeliranje se uporablja zato, ker raziskovalec hkrati z računanjem parametrov preizkuša, ali določen načrt analize vplivov (model), ki vključuje določene glavne in interakcijske učinke, v zadostni meri pojasnjuje razpršitev odvisne spremenljivke v tabeli (torej, ali napovedana razpršitev statistično pomembno odstopa od dejanske). Za testiranje modela se uporabljajo razne variante hi-kvadrat testa. Poleg tega so raziskovalcu na voljo še sumarni indikatorji (npr. koeficient entropije, koeficient koncentracije), ki, analogno koeficientu multiple korelacijc, [»vedo, kolikšen delež razpršitve odvisne spremenljivke pojasnujejc specificirani model. Ponazorimo uporabo logistične analize na primeru. Kot vse multivariantne metode, tudi logistična analiza pokaže pravo vrednost šele pri kompleksnejših problemih. Vendar nam bo za vpeljavo v to metodo bolj prav prišel preprost primer. Za primer 1 bomo uporabili nekaj podatkov iz raziskave Slovensko javno mnenje 1988 . Zanima nas, kako nekatere socio-dcmografske značilnosti respondenta vplivajo na njegov odgovor, da je za obrambo domovine pripravljen žrtvovati tudi življenje. Neodvisni spremenljivki sta respondentov spol in kmečko oz. nekmečko poreklo, ki se kaže v odgovoru, da del ali vsi dohodki respondentove družine izhajajo iz kmetijske dejavnosti. Izhodiščni podatki za analizo so prikazani v tabeli 1. Tabela 1: Izhodiščni podatki za primer 1 spol kmet žrtvoval bi življenje ne bi žrtvoval življenja Pijk/PjjR = Bk * Bj*k * Bj*k * Bi*j*k, (1) M M v Z Ž DA NE DA NE 80 275 48 199 188 435 168 682 Bivariantna hi-kvadrat testa sta pokazala, da hipoteza o neodvisnosti odvisne in neodvisnih spremenljivk drži v primeru porekla in ne drži v primeru spola. Zaradi statistično pomembne intcrkorelacije prediktorjev in njunega morebitnega interakcijskega delovanja določimo izoliran vpliv vsakega posebej in skupni vpliv s pomočjo logistične analize. Zaenkrat predpostavimo samo model glavnih vplivov. Rezultati analize so naslednji: Hi-kvadrat = 2.54 SS = 1 p = .12 Kocficient entropije = .02 Koeficient koncentracije = .03 Logistična analiza je pokazala, da je tudi vpliv porekla na pripravljenost žrtvovati življenje za obrambo domovine statistično pomemben (z > 1.96). Pri bivariantni analizi se ta vpliv ni pokazal, ker je v kategoriji s kmečkim poreklom manj žensk. Interakcijski vpliv spola in porekla na pripravljenost žrtvovati življenje za obrambo domovine statistično ni pomembno, saj že sam model glavnih učinkov v zadostni meri pojasnjuje razpršitev odvisne spremenljivke v tabeli (hi-kvadrat test statistično ni pomemben). Neodvisni spremenljivki skupaj pojasnjujeta 2-3% razpršitve odvisne. Verjetnost, da bo posameznik moškega spola s kmečkim poreklom pripravljen žrtvovati življenje za obrambo domovine, dobimo z enačbo 0.38 * 1.41 * 0.88. Ta verjetnost je torej 0.47 : 1 ali 32%. Verjetnost, da bo to pripravljen storiti posameznik moškega spola nekmečkega porekla, dobimo z enačbo 0.38 * 1.41 * (1/0.88). Ta verjetnost je torej 0.61 : 1 ali 38%. Intcrkorclacija prediktorjev in interakcijsko učinkovanje prediktorjev Kadar proučujemo učinek več neodvisnih spremenljivk na odvisno, se bivariantne metode slabo obnesejo, saj učinka nove neodvisne spremenljivke ne moremo preprosto prišteti učinku prejšnje oz. prejšnjih. Če dva prediktorja med seboj korelirata, je njun skupni vpliv na odvisno spremenljivko ponavadi manjši (lahko je tudi večji) od seštevka posamezno ugotovljenih vplivov. Po drugi strani lahko dva prediktorja v kombinaciji delujeta drugače kot vsak posebej, se pravi, na odvisno spremenljivko vplivata tudi interakcijsko. Čeprav je povedano raziskovalcem dobro znano, pa raziskovalec, ki razpolaga samo z bivariantnimi metodami, omenjene fenomene računsko in kognitivno težko obvlada. Zato raziskovalci nanje večinoma raje pozabijo. Iz izkušenj vemo, da sc večina takšnih ali drugačnih raziskav, ki proučujejo vpliv različnih dejavnikov na nek pojav, ustavi pri naštevanju vplivov posameznih dejavnikov oziroma statistično konstanta spol/moški kmet/da Ocena parametrov modela 0.38 1.41 0.88 -16.2 7.0 -2.1 z pomembnih korelacijskih ali kontingenčnih zvez. Tako ravnanje je skoraj pravilo, če so podatki v raziskavi merjeni na nominalnem nivoju. Logistična analiza nam pomaga te fenomene analizirati. Poglejmo si hipotetičen primer (primer 2). Denimo, da je določen študij v predpisanem času končala polovica študentov. Zanima nas, kako na njihovo uspešnost vplivata spol in vrsta srednje šole, ki so jo končali. Primerjajmo hipotetične rezultate A, B in C iz tabele 2. Če te podatke analiziramo s pomočjo dvo-dimenzionalnih kontingenčnih tabel (kar bi najverjetneje storil hipotetični raziskovalec), bi v vseh treh primerih dobili enake rezultate, ki so prikazani v tabeli 3. Tabela 2: Izhodiščni podatki za analizo vpliva spola in srednje šole na študijsko uspešnost (primer 2). PRIMER ABC USPEH ne da nc da ne da spol šola Ž v družbos. 35 65 60 90 40 60 Z naravos. 50 50 25 25 45 55 M družbos. 50 50 25 25 45 55 M naravos. 65 35 90 60 70 30 Tabela 3: Rezultati bivariantne analize vpliva spola in srednje šole na študijsko uspešnost (primer 2). PRIMER A, B IN C USPEH USPEH ne da ne da Z 85 115 SRED. družb. 85 115 SpOL ŠOLA M 115 85 narav. 115 85 Hi-kvadrat = 9 Hi-kvadrat = 9 SS = 1 SS = 1 P = 0.003 p = 0.003 Rezultati logistične analize, prikazani v tabeli 4, pa so v primerih A, B in C zelo različni. Glavni učinki v primeru B so šibkejši kot v primeru A, saj prediktorja statistiČno pomembno korelirata. V primeru C pa je za razliko od primerov A in B P^cmbcn tudi interakcijski vpliv obeh prediktorjev. Tabela 4: Rezultati logistične analize vpliva spola in srednje šole na študijsko uspešnost (primer 2). UČINEK PRIMER B A C konstanta spol s. šola spol * s. šola koeficient koncentracije 1.00 1.35 1.35 1.00 .044 1.00 1.22 1.22 1.00 .030 1.01 1.36 1.35 0.81 0.054 Logistična regresija Logistična regresija se uporablja za proučevanje vpliva intervalnih neodvisnih spremenljivk na diskretno, ponavadi dihotomno odvisno spremenljivko. Čeprav včasih naletimo na poročila o raziskavah, kjer avtorji v takem primeru uporabljajo kar običajno multiplo regresijo (metoda najmanjših kvadratov), ta postopek ni ustrezen iz več razlogov: 1. Ocenjevanje parametrov regresijske enačbe po metodi najmanjših kvadratov predpostavlja normalno distribucijo rezidualov. Ker ima distribucija rezidualov v primeru dihotomne odvisne spremenljivke ponavadi U obliko, so ocene parametrov enačbe izkrivljene, ravno tako koeficient multiple korelacije. 2. Kršena je tudi predpostavka o homogenosti varianc odvisne spremenljivke pri različnih kombinacijah vrednosti neodvisnih. Pri dihotomnih spremenljivkah je varianca neposredno odvisna od srednje vrednosti (sigma^ = p(l-p)). Hcterogcnost varianc izkrivi ocene parametrov. 3. Problematična je interpretacija rezultatov (enačbe). Če odvisna spremenljivka lahko zavzame samo vrednosti 0 in 1 in če regresijska enačba nanove rezultat posameznika nekje med tema vrednostima, je težko reči, kaj to pomeni, še posebej, če imamo v mislih prej omenjeno povezavo med proporcem in varianco. Še bolj je interpretacija problematična, če je napovedani rezultat večji od 1 ali manjši od 0. Oglejmo si na primeru, kako je mogoče omenjene probleme rešili. Denimo, da nas zanima, kako starost (xl) in število ur vožnje (x2) vplivajo na uspeh oz. neuspeh na vozniškem izpitu. Kandidat bo opravil izpit, če bo njegova vozniška soretnost presegla določen nivo zi. Če bo y' iz enačbe (2) večji od zi, bo izid uspeh (aj), drugače pa neuspeh (a()). Da bi rešili prej naštete težave (vrednost izida omejena na ao in aj, hcterogcnost varianc, distribucija rezidualov), je potrebno ustrezno transformirati izraz bxi in ga probabilistično povezati z verjetnostjo odgovorov a() in aj: Verjetnost, da bo posameznik opravil izpit, je torej enaka verjetnosti, daje njegova vozniška spretnost presegla določen (naključen) prag zi. Ta verjetnost pa je odvisna od yj' = bQ + bjx] j + b2X2i (+ ...) + coz. yj' = bxj + e (2) P(yi = ai) = P(zi