M O T O D li - M li TII O DS - M li 7 II O D li UDK 910.1 UČINKOVITOST PRIKAZOVANJA PODATKOV: NA IZBRANIH GEOGRAFSKIH PRIMERIH Marko Krevs* Povzetek V prispevku je prikazana problematika ustrezne preureditve Številskih podatkov za prikaz v tabelah, na grafikonih ali na kartah. Na podlagi teoretične opredelitve učinkovitosti izkoristka izbranega Števila razredov/kategorij za prikaz avtor izpeljuje dva koeficienta za mer jenje te učinkovitosti. Uporaba opisanih metod je prikazana na primeru osončenja v delu Brkinov in prometa na prodajalno v trgovini na drobno po slovenskih občinah. Strokovno poročilo. Prikaz podatkov, linearno kontrastno povezovanje histogramsko izenačevanje, koeficient izkoriščenosti spektra. DATA PRESENTATION EFFICII;.NCY: ON CIIOSI OO Ker lahko doseže koeficient W ob različnem številu razredov različne maksimalne vrednosti (med 0 in 2), ga korigiramo tako, da je končni rezultat koeficient Wk()r, ki pokaže delež, ki ga doseže W od največjega mogočega Wmtlx pri tem številu razredov: VV za katerega velja: 0 < Wkor « 1 Tako lahko korigirane koeficiente Wkor primerjamo med seboj nc glede na to, za kakšen način porazdeljevanja gre, in nc glede na to, po koliko razredih so bile enote porazdeljene ter kolikšno je bilo njihovo skupno število N. In še dodatna pomoč pri razlagi pomena koeficientov. Wkor jc kazalec stopnje odstopanja od maksimalnega izkoristka "spektra" oziroma izbranega števila razredov, in siccr kaže delež (če ga pomnožimo s 100, kaže število odstotkov) največjega možnega odstopanja od maksimalnega (popolnega) izkoristka "spektra". Nasprotno pa lahko naslednji kocficient: 1 - vvkor razložimo kot stopnjo odstopanja od minimalnega izkoristka "spektra". Tudi ta ima praktičen pomen. Če bi na primer radi, da na sliki izstopa le en ali nekaj razredov, preostali pa so čim šibkeje zastopani, nam ta koeficient pokaže stopnjo uspešnosti pri tem. Po drugi strani pa lahko ta kocficient razložimo tudi kot kazalec deleža od maksimalnega možnega izkoristka "spektra" pri danem številu razredov. Zato je morda še bolj uporaben v razlagi značilnosti porazdelitve, kot sam Wlcor! Drugi "koeficient odstopanja od maksimalnega izkoristka spektra", W2, je izračunan tako: W2 = ( f. - r ) N Tudi pri tem se maksimalna možna vrednost spreminja s številom razredov, a tudi s številom enot (N): W2„ ( N - E’ ) f’ + (r-l) N - 1 N - 1 oziroma po manjšem preurejanju: W2_ = N N 1 N ( 1 — ) r Za to vrednost velja naslednje: lim W2m<,x = 0 če je N naravno število, potem je lim W2„ r -> oo in če je r naravno število, velja lim W2„ n -> oo N = oo Korigirano vrednost tega koeficienta, W2kor, izračunamo na podoben način: W2 W2kor = ---------------- in zanj prav tako velja: 0 < YV2kor « 1 Ta koeficient je - podobno kot standardni odklon v primerjavi s povprečnim absolutnim odklonom - bolj občutljiv na bolj ekstremna odstopanja od pričakovane frekvence, zato je W2 praviloma večji kot W. Enako velja tudi za koeficienta Wkor in W2kor. Primerjava korigiranih koeficientov nam pove naslednje: čim večja je razlika med njima, tem intenzivnejši so prispevki odstopanj ekstremnih frekvenc f, od pričakovane frekvence f’ k skupni oceni odstopanj, izraženi s koeficientoma. Sicer pa jc obrazložitev vrednosti koeficienta W2fcor in koeficienta 1 W2kor enaka, kot za Wkor oziroma l-Wkor. Na kratko si oglejmo Se postopka porazdeljevanja po razredih, kakršna uporabljata tudi avtorjeva programa. V obeh primerih razvrščanje po razredih deluje s celimi števili, zato podatke najprej pomnožimo z ustreznim faktorjem (z 10 na ustrezno potenco), da je "ločljivost" med vrednostmi dovolj velika za uspešno porazdeljevanje. Pri linearnem kontrastnem raztezanju razpon med največjo in najmanjšo vrednostjo preprosto razdelimo na izbrano število razredov. Program omogoča, da "popravimo" tako določitev meja razredov tako, da je ena izmed meja "vsiljena" s strani uporabnika (v tabelah 1 in 2 t.i. fiksna točka). To je lahko poljubno izbrana vrednost, ali pa povprečje, ki ga v ta namen izračuna. Primer: če vzamemo kot "fiksno točko" povprečje, bo ena izmed meja enega od razredov enaka tej vrednosti. Tako bomo neposredno videli, kateri razredi (in na sliki barve) ter koliko pojavov je pod oziroma nad povprečjem. Pri histogramskem izenačevanju pa je drugače. Porazdeljevanje lahko poteka na dva različna načina: na podlagi rangov vrednosti (kar je smotrno le pri relativno majhnem številu obravnavanih podatkov), ali pa na podlagi "vmesnega", podrobnejšega histograma (ta predstavlja nekakšen približek rangov). V slednjem primeru najprej porazdeli vse vrednosti v "r krat p" enako velikih podrazredov (v bistvu opravi linearno raztezanje). Faktor p (v programu med 10 in 30) pomeni podrobnost razreza podatkov, neposredno pa pove, kolikokrat več bo teh podrazredov, kot je izbrano število razredov. V naslednjem koraku iz teh podrazredov ali na podlagi rangov "nabira" frekvence, dokler ne doseže kumulativne frekvence, ki je enaka ali večja (tukaj jc vir napak - podrobnejši ko je razrez na podrazrede, manjše so možne napake) kot bi morala biti ob predpostavki, da je v vsakem razredu enako število podatkov. Koeficienta v tej obliki kažeta "učinkovitost" porazdelitve po razredih in z vidika prostorskega (kartografskega) prikaza - strogo vzeto - veljata samo v primeru, če so obravnavana območja enako velika. Če bi hoteli, da upoštevata poleg številčne zastopanosti posameznih razredov tudi morebitne različne površine posameznih obravnavanih prostorskih enot na karti (npr. občin), bi morali frekvence v formulah pomnožiti z ustreznimi površinami (podobno velja za N). l/brana primera Prvi primer prikazuje dekadne vsote energije sončnega obsevanja po kvadratnih celicah z osnovnico velikosti 50 metrov v delu Brkinov, za dvajseto dekado v letu. Podatke (digitalni model reliefa) je zbral Igor Šebenik s sodelavci (1990). Količine sončnega obsevanja so bile ocenjene s pomočjo programa SONČEK (Gabrovec in Krevs, 1989). Za lažje razumevanje slike sončnega obsevanja je na sliki 1 ilustrativen prikaz reliefa na obravnavanem območju. Poleti je sonce tako visoko, da je pretežni del površja cel dan osončen. Zato površine, ki so večji del dneva vseeno v senci, toliko intenzivneje odstopajo od povprečja. V tabeli la in na sliki 4a vidimo, da so pri prvi metodi - linearnem raztezanju - nadpovprečne vrednosti le v dveh razredih (izmed osmih), v katerih pa je skoraj 60% vseh prostorskih enot (celic 50 x 50 metrov). Prvi trije razredi so na sliki 2a komajda opazni, glede na frekvenčno porazdelitev v tabeli pa tudi pričakujemo, da na sliki prevladujejo temnejše "barve". Če hočemo prikazati prevlado močneje osončenih površin in hkrati ohraniti povprečno razliko med vrednostmi v sosednjih razredih (za sliko la znaša 219), bomo s to porazdelitvijo kar zadovoljni. Koeficienta (tabela la) kažeta, da smo kljub morda drugačnemu prvemu vtisu bliže maksimalnemu, kot pa minimalnemu izkoristku "spektra". Prvi kaže na 58.6%, drugi pa celo na 64.7% delež njegovega popolnega izkoristka. V tabeli lb in na sliki 4b, ki prikazujeta rezultate druge metode, so frekvence po razredih približno enake, zato je tudi slika 2b "barvno uravnotežena". Če smo hoteli pokazati (okoli) 48 najbolj osončenih celic, in naslednjih 48,... in 48 najmanj osončenih (npr. da iščemo območje, ki bi bilo najprimernejše za določeno rastje), bo ta način porazdelitve za prikaz ustreznejši. Kot vidimo (tabela lb), se razponi vrednosti v posameznih razredih zdaj izrazito razlikujejo. Oba koeficienta kažeta, da je porazdelitev popolnoma (99 odstotno) izkoristila izbrano število razredov. Slika 1 Pogled na obravnavano območje v Brkinih z juga in z vzhoda. Figure 1 Digit n! elevation mode/ of a part of Brkini - view from the a) south and b) cast. a) Pogled z juga b) Pogled z vzhoda Slika 2 Dekadne vsote količine sončnega obsevanja za del Rrkinov po celicah 50 x 50 metrov, za 20. dekado v letu. Lepo je vidna razlika med rezultatoma uporabe različnih tehnik porazdeljevanja po razredih: a) linearno kontrastno raztezanje, b) histogramsko izenačevanje. Figure 2 The ten-days-sums of amount of insolation for a part of Brkini (20”' dccade in a year), cells SO x 50 meters. Easily recognizable differences between the figures are result of the two techniques: a) linear contrast stretching and b) histogram equalization. a) b) Legenda: 12245(78 □ E3HB0BHB Številke v legendi ustrezajo Številkam razredov v tabeli 1. Numbers in legend correspond to numbers of classes in table i Drugi primer prikazuje rezultate uporabe multiplega regrcsijskega modela, namenjenega za ocenjevanje prometa na prodajalno v trgovini na drobno po občinah v Sloveniji leta 1987 (Krevs 1991). Model, ki upošteva 12 različnih podatkov o razmerah v vsaki občini, je avtor uporabil za ocen jevanje (napovedovanje) sprememb v viSini tega prometa ob predvidenih drastičnih spremembah zaposlitvenih in gospodarskih razmer. Tabela 1 Frekvenčna porazdelitev dekadnih vsot količine sončnega obsevanja za del Brkinov po celicah 50 x 50 metrov in "koeficienta odstopanja od popolnega izkoristka spektra". Tehniki porazdeljevanja po razredih: a) linearno kontrastno raztezanje, b) histogramsko izenačevanje. Table 1 Frequency distribution of ten-days-sums of amount of insolation for a part of Brkini for 20"' decade in the year, and "coefficients of deviation from total usage of spectrum". The techniques for distribution: a) linear contrast stretching and b) histogram equalization. a) Fiksna točka : AS = 5287. 667 Faktor povečave podatkov za razvrščanje: 100.000 Razredov: 8 Interval: 219 .286 Meje intervalov Frekvence 1. razred: 3972 - 4191 1 2. razred: 4192 - 4411 8 3. razred: 4412 - 4630 19 4. razred: 4631 - 4849 36 5. razred: 4850 - 5068 37 6. razred: 5069 - 5288 57 7. razred: 5289 - 5507 77 8. razred: 5508 - 5726 149 Skupaj: 3972 - 5726 384 Pričakovana frekvenca: 48.000 (% od N = 12.5) W 0.72395833 W2 = 6.47106434 wm„x = 1.75000000 W2m.„ = 18.35421708 wKor = 0.41369048 W2Kor = 0.35256553 i-w„or = 0.58630952 l-W2kor 0.64743447 b) Faktor povečave podatkov za razvrščanje: 1000.000 Razredov: 8 Povprečna frekvenca: 48.000 Meje intervalov Razpon Frekvence 1. razred: 40880 - 47481 6601 48 2. razred: 47482 - 50562 3080 50 3. razred: 50563 - 52469 1906 48 4. razred: 52470 - 53936 1466 48 5. razred: 53937 - 55256 1319 49 6. razred: 55257 - 56283 1026 48 7. razred: 56284 - 56870 586 48 8. razred: 56871 - 57310 439 45 Skupaj: 40880 - 57310 384 Pričakovana frekvenca: 48.000 (% od N = 12.5) W = 0.01562500 W2 = 0.19118976 Wm„x = 1.75000000 W2m„„ = 18.35421708 Wkor = 0.00892857 W2kor = 0.01041667 l-Wkor = 0.99107143 l-W2kor = 0.98958333 Slika 3 Ocene prometa na prodajalno v trgovini na drobno po slovenskih občinah s pomočjo multiplcga regresi jskega modela za leto 1987. Tehniki porazdelitve po razredih: a) linearno raztezanje, b) histogramsko izenačevanje. Figure 3 Multiple regression model’s estimates of turnover on a shop in retail trade by Slovenian communes in 19S7. The techniques for distribution: a) linear contrast stretching and b) histogram equalization. ‘/V/V, Legenda: Vir: Krevs 1991,14,15. Številke v legendi ustrezajo Številkam razredov v tabeli 2. Numbers in legend correspond to numbers or classes in table 2. Tabela 2 Frekvenčna porazdelitev ocen prometa na prodajalno v trgovini na drobno leta 1987 po slovenskih občinah in "koeficienta odstopanja od popolnega izkoristka spektra". Tehniki porazdeljevanja po razredih: a) linearno kontrastno raztezanje, b) histogramsko izenačevanje. Table 2 Frequency distribution of estimates of turnover on a shop in retail trade by Slovenian communes in 19S7, and "coefficients of deviation from total usage of spectrum". The techniques for distribution: a) linear contrast stretching and I)) histogram equalization. a) Fiksna točka : AS = 43708.380 Razredov: 8 Interval: 9318.4 29 Meje intervalov Frekvence 1. razred: 25072 - 34390 24 2. razred: 34391 - 43709 20 3. razred: 43710 - 53027 5 4. razred: 53028 - 62346 6 5. razred: 62347 - 71664 5 6. razred: 71665 - 80983 2 7. razred: 80984 - 90301 2 8. razred: 90302 - 99619 1 Skupaj: 25072 - 99619 65 Pričakovana frekvenca: 8. 125 (% od N = 12.5) W 0.79411765 W2 = 2.75355943 wm„x = 1.75000000 W2max = 7.77097547 wKor = 0.45378151 W2lcor = 0.35433897 i-wkor = 0.54621849 l-W2kor = 0.64566103 »>) Razredov: 8 Povprečna frekvenca: 8.125 Meje intervalov Razpon F'rekvence 1. razred: 25694 - 30106 4412 8 2. razred: 30107 - 32259 2152 8 3. razred: 32260 - 34322 2062 8 4. razred: 34323 - 38295 3972 9 5. razred: 38296 - 41564 3268 8 6. razred: 41565 - 50307 8742 8 7. razred: 50308 - 63490 13182 8 8. razred: 63491 - 90919 27428 8 Skupaj: 25694 - 90919 65 Pričakovana frekvenca: 8. 125 (% od N = 12.5) W 0.02692308 W2 = 0.11692679 Wmnx = 1.75000000 W2mnx = 7.60024157 W = ” kor 0.01538462 W2Kor = 0.01538462 1-W = 1 kor 0.98461538 l-W2kor = 0.98461538 Slika 4 Frekvenčne porazdelitve po razredih za prikazana dva primera: osončenje v Brkinih (a,b) in promet na prodajalno v trgovini na drobno v Sloveniji (c,d)- Tehniki porazdeljevanja po razredih: linearno kontrastno raztezanje (a,c) in histogramsko izenačevanje (b,d) Dejanski intervali za posamezne razrede so razvidni iz tabel 1 in Z Figure 4 Frequency distributions for the two cases: insolation in Hrkini (a,b) and turnover on a shop in retail trade in Slovenia (c,d) The techniques for distribution: linear contrast stretching (a,c) and histogram equalization (b,d) Actual intervals for different classes can be found in tables 1 and Z a) b) 1 2 3 4 5 6 7 8 ŠteviIke razredov c) d) 1 2 3 4 5 6 7 8 številke razredov 12345678 12 » 45678 ŠteviIke razredov Štev iIke razredov Gostota frckvenc jc pri uporabi prve metode (tabela 2a, sliki 3a in 4c) največja na nasprotnem koncu "spektra", kot v prvem primeru. Tudi tukaj sta najStevilčneje zastopana dva razreda (s skoraj 70% vseh občin), ki pa sta pod povprečjem. Preostala razla- ga je podobna, kot za prvi primer. Opazimo le, da je razlika med koeficientoma (Wkor in W2kor) tukaj znatnejša, kot tam. To kaže na intenzivnejša ekstremna odstopanja frekvenc po razredih od pričakovane frekvence. Predstavljajmo si hipotetično situacijo: iščemo nekaj (v tem primeru prvih 8) občin, v katerih bi bil promet na prodajalno, ki tujemu investitorju predstavlja pomemben makrolokacijski kazalec, najvišje rangiran v republiki (računa npr. na možnost, da v najvišje rangiranem Celju ne bi dobil ustreznega lokala). Ali pa nasprotno: iščemo tistih nekaj občin, v katerih so razmere najbolj neugodne. V ta namen bi uporabili drugo metodo. Tabelo 2b ter sliki 3b in 4d razložimo podobno, kot pri prejšnjem primeru. Morda lahko le še enkrat opozorimo na tukajšnje neupoštevanje različnih površin občin (glej konec prejšnjega poglavja). Sklep Prikazana metodologija lahko znatno prispeva k učinkovitosti prikaza geografskih podatkov ter njenemu razumevanju. Uporabimo jo lahko tako pri strokovni, kot pri tehnični presoji prikazovanja podatkov. Odločitev o metodi porazdeljevanja po razredih je v veliki meri odvisna od tega, kaj hočemo poudariti na prikazu. Za to je nujno potrebno vsaj osnovno poznavanje pojava in razumevanje samih metod. Odločitev o tem, kaj je cilj prikaza, katera je optimalna porazdelitev vrednosti za preučevan pojav po izbranem številu razredov, je namreč še vedno v rokah raziskovalca. Izdelana računalniška programa ne svetujeta neposredno pri izboru tehnike prikaza, temveč sta v pomoč pri zasledovanju postavljenega cilja. S tem, da omogočata preprosto uporabo obeh opisanih tehnik, sc lahko na podlagi preizkušanj in skromnega razumevanja metodologije laže odločimo za postopek razvrščanja po razredih in s tem za čimbolj učinkovit prikaz podatkov ali rezultatov svojega dela. I .iteratura in viri: Andrew, A.M. 1985: Computational techniques in operations research. Abacus press, Tunbringe Wells & Cambridge. Cesario, F.J., 1975: Linear and nonlinear regression models of spatial interaction. Econ. Geogr.: 51(1975)-!. Clark, W.A.V. & Ilosking, P.L., 1986: Statistical Methods for Geographers. John Wiley & Sons, New York. Clements, D.W., 1978: Utility of linear models in retail geography. Progress in human geography 54(1978)-1. Cowlard, K.A., 1990: Decission-making in geography. A manual of method and practicc, Iloddar & Stoughton, London. Gabrovcc M. & Krevs M., 1989: Računalniški program SONČEK_ST, verzija, ki teče na računalniku Atari ST. Johnston, R.J., 1989: Multivariate statistical Analysis in Geography. I ongman Scientific & Technical, with John Wiley Sons, Essex. Krevs M., 1991: Pisni izdelek za izpit pri predmetu Kvantitativne metode v geografiji. Podiplomski študij, Filozofska fakulteta v Ljubljani, Oddelek za geografijo, mentor: dr. Andrej Černe. Mather P.M., 1989: Computer processing of remotely - sensed images. John Wiley & Sons, Chichester. Popis delavcev v združenem delu 31.12.1986; 1988; Rezultati raziskovanj 432. Zavod SR Slovenije za statistiko, Ljubljana. Popis prebivalstva, gospodinjstev in stanovanj v SR Sloveniji 31.3.1981; 1981. Zavod SR Slovenije za statistiko, Ljubljana. Prodajne zmogljivosti v trgovini na drobno 1986; 1989; Rezultati raziskovanj 458/1989. Zavod SR Slovenije za statistiko, Ljubljana. Statistični letopis SR Slovenije; 1989. Zavod SR Slovenije za statistiki), Ljubljana. Šebenik, Igor et a!., 1990: Digitalni model reliefa za del Brkinov, rezultat dela na raziskovalnem taboru v Brkinih 1990, na disketi, osnovnica kvadratne celice je 50 metrov. DATA PRESENTATION EFFICIENCY: ON CHOSEN GEOGRAPHICAL CASES Marko Krevs Summary Collection of data usually represents a great amount of geographical research. In some phases of work we can use computer as adviser or as a guide in decision process about method to use, or at least as a "guide" through cases, the examination of which should help us to decide. That kind of work-phase is also the distribution of values of studied phenomenon into classes, for presentation in tables, on graphs or on maps. Help of the computer is particularly welcome when we have data collected but we do not know enough about the phenomenon to determine sensible borders of classes. In the articlc the autor shows two opposite approaches to distribution of values into such classes, and define two coefficients to indicate the degree of deviation from maximal or minimal usage of chosen "spectrum". 1'he techniques of distribution are easy to understand, and their application is simple with the use of computer programs. Results arc directly usable for thematic-cartographic purposes and for further analysis.