UDK 811.163.41'373:004 Nikola Ljubešič Institut Jožef Stefan nikola.ljubesic@ijs.si Maja Miličevic Petrovič Sveučilište u Beogradu m.milicevic@fil.bg.ac.rs Tanja Samardžič Sveučilište u Zurichu tanja.samardzic@uzh.ch JEZIČNA AKOMODACIJA NA TWITTERU: PRIMJER SRBIJE U ovom radu istražujemo fenomen jezične akomodacije kod srpskih korisnika Twittera analizirajuci geokodirane poruke objavljene u razdoblju izmedu 2013. i 2016. godine na području Bosne i Hercegovine, Crne Gore, Hrvatske i Srbije. Jezičnu produkciju korisnika Twittera opisujemo s pomocu 16 varijabli za koje je poznato da variraju medu govornicima policentričnog makrojezika BCHS. Usporedujemo jezičnu produkciju mobilnih srpskih korisnika Twittera s produkcijom nemobilnih srpskih korisnika, kao i produkciju mobilnih korisnika u Srbiji i izvan nje. Dok prva analiza djelomično podržava teoriju akomodacije, druga analiza ne daje nikakve naznake tog fenomena. Ključne riječi: društvene mreže, geokodirane poruke, BCHS In this paper we investigate the phenomenon of linguistic accommodation among Serbian Twitter users by analysing geo-encoded Twitter messages published between 2013 and 2016 in the area of Bosnia, Croatia, Montenegro and Serbia. We describe the linguistic production of Twitter users via 16 variables that are known to vary among the speakers of the pluricentric BCMS language. We compare that production of mobile Serbian Twitter users to that of non-mobile Serbian Twitter users, and by comparing the mobile users' language production inside and outside Serbia. While the first analysis shows support for accommodation, the second analysis yields no signal for that phenomenon. Keywords: social media, geo-encoded messages, BCMS 1 Uvod Poznato je da jezični izrazi variraju ovisno o kontekstu: govornici odabiru različite izraze ovisno o tome komuniciraju li s prijateljima, kolegama s posla ili nekim koga su tek upoznali. Posebna vrsta takve varijabilnosti, zvana jezična akomodacija, pojavljuje se kad promijenimo način izražavanja da bismo ga približili varijanti koju prepoznajemo kao drugačiju od naše, npr. promijenimo naglasak, dijalekt ili čak jezik. Ta se promjena obično dogada u prisutnosti neke druge jezične varijante i može biti namjerna, ali i automatska. O njezinu djelovanju i mehanizmima naširoko se raspravljalo u literaturi 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec iz područja na raskrižju lingvistike, sociologije i psihologije (Giles 1991, Pickering i Garrod 2004). Fenomen jezične akomodacije proučavao se u različitim okruženjima, poput regionalnih varijanti engleskoga kao što su kanadski i britanski engleski (Chambers 1992), švicarskih njemačkih dijalekata (Ruch 2018), varijanti španjolskoga (Erker i Otheguy 2016), češkoga (Wilson 2011) te drugihjezika. Sveobuhvatan pregled istraživanja ove teme Ruch i de Benito Moreno (u tisku) ukazuje na to da su kratkoročni učinci jezične akomodacije jasno utvrdeni, dok su njezini dugoročni učinci i uloga u opcenitim pro-mjenama u jeziku usprkos mnogim raspravama i dalje pretežito nepoznati. Kratkotrajni učinci vecinom se istražuju u kontroliranim eksperimentalnim okruženjima, a nedo-statni dokazi o dugoročnim učincima najčešce proizlaze iz opservacijskih podataka prikupljenih uz malo kontrole nad kontekstom u kojem su nastali. Prema Ruch i de Benito Moreno (u tisku), prevladavajuce je gledište na jezičnu ako-modaciju funkcionalno, s fokusom na ulogu tog fenomena u uspostavljanju društvenih odnosa. Sam se mehanizam manje proučavao, iako se raspravljalo o njegovim potenci-jalnim vezama s poznatim mehanizmima poput udešavanja (engl. priming) i oponašanja (engl. imitation). Osim toga, istraživanja jezične akomodacije često se usredotočuju na fonetske pojave, tj. promjene u izgovoru glasova, dok su druge lingvističke značajke, a pogotovo gramatika, manje ispitivane. Glavna tema ovog rada jezična je akomodacija u porukama na Twitteru koje su objavili govornici policentričnog makrojezika koji uključuje bosanski, crnogorski, hrvatski i srpski (BCHS). Komponente ovog makrojezika čine četiri standardna jezika (od kojih svaki ima svoj ISO jezični kod), koji su utemeljeni na zajedničkom južnosla-venskom novoštokavskom dijalektu, koji je u prošlosti bio standardiziran kao dijasistem pod imenom srpskohrvatski jezik. BCHS je posebno zanimljiv za istraživanje jezične akomodacije zbog snažnih političkih sila te pitanja identiteta i kulturne raznolikosti koji su od velike važnosti za ovaj jezični prostor. Naš je cilj izmjeriti stupanj jezične akomodacije kod govornika BCHS-a koristeci se podacima ekstrahiranima iz geokodiranih objava na Twitteru. Prvo je pitanje koje postavljamo prilagodavaju li govornici BCHS-a svoju jezičnu produkciju kada su u kontaktu s govornicima drugih jezika BCHS-a. Da bismo odgovorili na to pitanje, usredotočujemo se na Srbiju i usporedujemo ostvarenje 16 lingvističkih značajki za koje je poznato da variraju medu jezicima BCHS-a: (1) u porukama mobilnih i nemobilnih korisnika, tj. u porukama korisnika koji su u kontaktu nasuprot korisnika bez kontakta s drugim standardnim jezikom, i (2) u porukama mobilnih korisnika objavljenim unutar prebivališta (Srbija) nasuprot objava na području nekog od drugih standarda (Bosna i Hercegovina, Crna Gora, Hrvatska). Razdoblje koje se može proučavati na temelju opažanja s Twittera može biti vrlo dugo, što omogucuje proučavanje dugoročnih učinaka na sistematičniji način nego što se to radilo dosad. Druga prednost korištenja podataka s Twittera činjenica je da Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 89 možemo upotrebljavati metode obrade prirodnog jezika za prikupljanje potvrda o raznim vrstama značajki iz spontane jezične produkcije, čime možemo proširiti znanje o samom mehanizmu akomodacije. Medutim, Twitter kao izvor podataka donosi i mnoga ograničenja, od kojih je najistaknutiji problem pitanje koliko su ti podaci reprezentativni za sve govornike na odredenom području ili za odredeni jezik, pa čak i za sveukupnu jezičnu produkciju odredenih govornika. 2 Povezana istraživanja Twitter (https://twitter.com) je društvena mreža na kojoj korisnici komuniciraju i objavljuju poruke zvane tvitovi (engl. tweets), čiji je sadržaj isprva bio ograničen na 140 znakova, ali je taj broj znakova nedavno udvostručen. Twitter je često korišten izvor informacija za različite vrste istraživanja zbog toga što ima dobru infrastruktura za prikupljanje podataka (aplikacijsko programsko sučelje koje omogučuje automatsko prikupljanje podataka) i relativno permisivne licence za korištenje podataka u istra-živanjima, pri čemu se uzimaju u obzir i pitanja privatnosti te vlasništva autora nad podacima. Važno je napomenuti da su podaci s Twittera takoder bogati metapodacima, a jedan odredeni metapodatak od ključnog je značaja za naše istraživanje: geolokacija s koje je odredeni tvit poslan, izražena u obliku geografske širine i dužine. Iako mnogi korisnici nevoljko daju svoju geolokaciju, s obzirom na sveukupnu količinu dostupnih podataka, moguče je prikupiti i prilično velike količine geokodiranih poruka. Podaci s Twittera u prethodnim istraživanjima su se več koristili za proučavanje lingvističkih varijacija u odnosu na geografske čimbenike, pretežito u području raču-nalne lingvistike. Kao što se može i očekivati, vecina istraživanja bavi se (američkim) engleskim jezikom. Eisenstein, O'Connor, Smith i Xing (2010) predlažu model koji uči (s umjerenim uspjehom) povezivati odredenu temu s odredenim geografskom regijom. U jednom od kasnijih istraživanja, Doyle (2014) pokazuje da prostorna distribucija lingvističkih značajki ekstrahiranih s Twittera odgovara distribucijama prethodno utvrdenima s pomoču tradicionalnih dijalektoloških metoda. Eisenstein, O'Connor, Smith i Xing (2014) modeliraju prostornu raspršenost novih lingvističkih značajki kroz vrijeme, pokazujuči da je ona pod snažnim utjecajem demografskih čimbenika. Problem neravnomjerne prostorne distribucije i nedostatka podataka u tim se istraživanjima rješava sofisticiranim statističkim modelima koji uključuju latentne varijable i razne transformacije originalnih pobrojavanja. Povezana istraživanja koja se bave drugim jezicima prilično su rijetka. Gongalves i Sánchez (2014) pokušavaju teritorijalno grupirati globalne varijetete španjolskog jezika, no umjesto toga nailaze na prevladavajuču podjelu izmedu urbanih i ruralnih govornika. Scheffler, Gontrum, Wegel i Wendler (2014) pokušavaju pridružiti tvitove na njemačkom jeziku jednoj od sedam regija računajuči vjerojatnost pojavljivanja riječi u odredenoj regiji, ali ne uzimaju u obzir potencijalne varijacije u temi. U našem prethodnom istraživanju (Ljubešič i dr., u tisku), koje je najrelevantnije za ovaj rad, usredotočujemo se na BCHS i proučavamo prostornu distribuciju 16 lingvističkih značajki koje se spominju u gotovo svim radovima koji se bave razlikama unutar 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec BCHS-a. Rad pokazuje da za te značajke lingvističke granice u velikoj mjeri odgova-raju granicama medu državama (pogotovo u slučaju Hrvatske i Srbije), no nikada u potpunosti. Rezultati tog istraživanja čine temelj nekih od glavnih pretpostavki u ovom radu (vidjeti odjeljak 3.3). Kao što se vidi iz gornjeg prikaza, lingvistička istraživanja na podacima s Twittera uglavnom se bave geografskom rasprostranjenošcu lingvističkih značajki, dok su pitanj a poput jezične akomodacije mnogo manje istražena. Jedno istraživanje koje proučava akomodaciju na podacima s Twittera proveli su Danescu-Niculescu-Mizil i dr. (2011), koji ekstrahiraju razgovore s Twittera u svrhu pracenja stilističke akomodacije, pri čemu se ne uzima u obzir geografska rasprostranjenost. U istraživanju prikazanom u ovom radu koristimo se geografskim podacima i usre-dotočujemo na pitanje akomodacije. Nastavljamo s povezanim nizom istraživanja na BCHS-u, stavljajuci ovaj put u fokus činjenicu da je BCHS izuzetno zanimljiv slučaj za istraživanje akomodacije, s jedne strane zbog lingvističke bliskosti jezika, a s druge strane zbog snažnih političkih sila te pitanja identiteta i kulturne raznolikosti koja prevladavaju na ovom jezičnom prostoru. Buduci da su političke sile posebno ojačale tijekom krvavog raspada Jugoslavije krajem prošlog stoljeca, zanimljivo je istražiti pojavljuje li se akomodacija usprkos njima u današnjoj komunikaciji na Twitteru. 3 Istraživanje 3.1 Istraživačka pitanja i hipoteze Cilj je ovog istraživanja izmjeriti stupanj jezične akomodacije kod govornika BCHS-a koji prebivaju u Srbiji, a koji takoder putuju u druge države gdje se govore jezici BCHS-a. Na temelju saznanja iz literature i s obzirom na lingvističku bliskost jezika koji čine BCHS, može se očekivati da se akomodacija pojavljuje. Medutim, razni sociolingvistički čimbenici takoder bi mogli imati utjecaja u ovom još politički osjetljivom kontekstu. Naše glavno istraživačko pitanje jest sljedece: prilagodavaju li srpski korisnici Twittera svoj jezični izričaj kada su u dodiru s ostalim varijantama BCHS-a? Pokušavamo odgovoriti na to pitanje usporedujuci produkciju mobilnih srpskih korisnika Twittera s produkcijom nemobilnih srpskih korisnika te usporedujuci jezičnu produkciju mobilnih korisnika unutar i izvan Srbije. Pretpostavljamo da ce odgovor na naše pitanje biti potvrdan te konkretno predvidamo (1) da ce jezična produkcija mobilnih korisnika biti bliža drugim jezicima BCHS-a od produkcije nemobilnih korisnika te (2) da ce medu mobilnim korisnicima jezična produkcija biti bliža drugim jezicima BCHS-a u tvitovima koji su nastali izvan Srbije nego u tvitovima koji su nastali u Srbiji. Mobilnost korisnika utvrdena je na temelju geolokacijskih podataka pridruženih korisnikovim porukama na Twitteru. Pri proučavanju jezične produkcije usredoto-čujemo se na 16 lingvističkih varijabli, koje su sve opsežno istražene u kontekstu Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 91 meduvarijetetnih razlika u BCHS-u (te su varijable opisane u odjeljku 3.3). U ovom se istraživanju koristimo istim početnim skupom podataka i oslanjamo na rezultate našeg prethodnog istraživanja (Ljubešič i dr., u tisku). 3.2 Podaci Analize mobilnosti korisnika započinjemo s polaznim skupom podataka na jezicima BCHS-a koji je prikupljen s pomoču alata TweetCat (Ljubešič, Fišer i Erjavec 2014). Taj alat namijenjen je prikupljanju podataka s Twittera kod jezika s malim brojem govornika. U postupku prikupljanja podataka koji je trajao od lipnja 2013. do kraja 2016. prikupljeni su podaci od 70 107 korisnika koji su objavili sveukupno 38 726 488 tvitova. Za potrebe naših istraživanja zadržani su samo podaci geokodirani u BiH, Hrvatskoj, Crnoj Gori i Srbiji, čime je skup podataka sveden na 17 172 korisnika i 1 755 525 tvitova. Nakon što su relevantne varijable ekstrahirane iz geokodiranih tvitova, uklonjeni su tvitovi koji ne sadrže relevantne podatke ni za jednu varijablu, čime se skup podataka smanjio na 13 102 korisnika i 693 111 tvitova. Za potrebe ovog istraživanja, takoder smo uklonili sve tvitove korisnika koji su imali manje od 50 tvitova, pretpostavljajuči da procjenjivanje naših varijabli na manjem broju tvitova po korisniku ne bi bilo ni izbliza pouzdano. Osim toga, izbacili smo sve korisnike koji su objavljivali manje od dvije trečine tvitova u jednoj državi. Tu smo odluku donijeli zbog jedne od svojih glavnih pretpostavki, prema kojoj svaki korisnik prebiva u odredenoj državi, koju odredujemo kao državu iz koje su poslane barem dvije trečine korisnikovih geokodiranih tvitova. Zadnja dva ograničenja smanjila su početni skup podataka na 489 295 tvitova koje je objavilo 3 083 korisnika. Distribucija odabranih korisnika po zemljama boravišta jest sljedeča: 2516 korisnika iz Srbije, 272 korisnika iz Crne Gore, 167 korisnika iz BiH i 128 korisnika iz Hrvatske. Vrlo neravnomjerna distribucija po državama glavni je razlog za ograničavanje našeg istraživanja na srpske korisnike Twittera (i na njihova 404 823 tvita): u trenutačnom skupu podataka nema dovoljno podataka da bi se provele slične analize na korisnicima iz drugih država gdje se govori neki od jezika BCHS-a. Medutim, postupak prikupljanja iz kojeg je proizašao ovaj skup podataka i dalje je u tijeku, pa očekujemo da če u budučnosti biti moguče i te analize. Mobilnost korisnika središnji je čimbenik u našem istraživanju jer pretpostavljamo da mobilnost vodi do kontakta s govornicima drugih jezika BCHS-a. Korisnika smatramo mobilnim ako u nekom trenutku tijekom našeg prikupljanja podataka objavljuje tvitove izvan svoje zemlje boravišta. Ako korisnik ne objavljuje izvan zemlje boravišta tijekom postupka prikupljanja podataka, smatramo ga nemobilnim. Tablica 1. pokazuje broj i postotak mobilnih korisnika za svaku od četiri države u našem skupu podataka. Srbija ima najmanji postotak mobilnih korisnika Twittera, a iza nje slijede Hrvatska, BiH i Crna Gora. Postoji više mogučih objašnjenja za te razlike, od kojih je jedno činjenica da su korisnici Twittera u Srbiji mladi nego u ostalim državama. Medutim, za ovo istraživanje najvažnija je informacija to da je oko 17 % korisnika Twittera u 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec Srbiji mobilno. Treba napomenuti i da u ovom istraživanju ne pratimo kamo se mobilni korisnici krecu (u BiH, Hrvatsku ili Crnu Goru). Zemlja boravišta Broj mobilnih korisnika Postotak medu svim korisnicima Bosna i Hercegovina 64 38,3 % Hrvatska 38 29,7 % Crna Gora 121 44,5 % Srbija 417 16,6 % Tablica 1: Broj i postotak mobilnih korisnika po zemlji boravišta. Konačno, da bismo bolje razumjeli razinu mobilnosti korisnika u ovom istraživanju, na Slici 1 prikazujemo histogram postotka tvitova objavljenih unutar zemlje boravišta za srpske mobilne korisnike. Prisjetimo se da smo iz analize izbacili korisnike koji su objavili manje od dvije trecine tvitova u istoj državi, pa minimalna vrijednost na Slici 1 iznosi 66 %. Na slici se jasno vidi da vecina mobilnih korisnika objavljuje vecinu tvitova u svojoj zemlji boravišta, a samo mali broj tvitova izvan nje. 250 D65 0 70 075 030 085 090 095 1 00 Slika 1: Distribucija postotka tvitova koje su mobilni korisnici objavili u Srbiji (na osi x prikazan je postotak, a na osi y broj korisnika koji odgovara odredenom postotku). Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 93 3.3 Lingvističke varijable Analize jezične akomodacije provodimo na 16 kategoričkih lingvističkih varija-bli, od kojih svaka ima dvije moguce vrijednosti. Te su varijable opisane u Tablici 2 i ilustrirane primjerima iz početnog skupa podataka. U nastavku ovog pododjeljka varijable su i detaljnije opisane. Vrsta varijable Naziv varijable Razine varijable i primjeri uporabe e:je e: Ja sam uvek za sve kriva NARAVNO je: Uvijek mi je bio ritam suprotan od ljudi oko mene Fonetska varijabla rdrop:nodrop rdrop: @pop Joil takodje! Neki hrono fazan pasti mora!! nodrop: @IKopric s najguscom, sjajnom kosom takodjer;-) k:h k: gledam 15 minuta #vb pocecu da pricam kao Ava IDEM SE OKUPAT JEST PA UCIT KEMIJU h: pobegnem s hemije, i da li naucim za sledeci cas? Nee h:noh h: Kafa se nece sama skuhati. Pikaner se MORA nechim ugasiti! noh: A znam da ce se skuvati tokom noci i da ce sve ovo zavrsiti na podu sto:sta sto: Nestala struja baterija prazna, što cu da radim nocas kukala mi majka sta: Šta ovo puca u Makarskoj? dali:jeli dali: Da li i vi cupate obrve na terasi da vas ceo komsiluk vidi? jeli: Je li hladno napolju? Leksička varijabla s:sa s: Ljubi mi se s tobom, ali me mrzi da ustajem sa: Nisam u kontaktu sa bivšim devojkama, ko zna zašto je to dobro mnogo:puno mnogo: @GaleMadafaka hahahaha vama je mnogo dosadnooo puno: Izgubio sam 0 followera ali opet nemam ih puno ko:tko ko: @jelena m zmaj ali ne moze svako dobro da pise tko: @zvjer moze svatko, to nije upitno, vec, da li i ti? 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec inflong:short inflong: Mama ocekuje da cu napustiti moj dragi krevet i uciti hemiju...hah short: imam poriv teatralno napustitprostoriju. #fpzg da:inf da: trenutci sa njim ne mogu da se mere ni sa jednim drugim inf: Kada je dovoljno mračno, mogu se vidjeti zvijezde! (Perzijska izreka) synth:nosynth synth: Umrecu od gladi ako se rucak ne stvori odma sad na stolu nosynth: Nurija Begic Nuki UMRIJET CU Z4 NJOM2014Uzivo: http://t.co/XoJTI4tNdf Morfosin-taktička adjgshort:long adjgshort: mama odvrnula muziku od ranog jutra, nmg long: Sto volim da mi se dovuku mala deca od ranoga jutra varijabla ira:isaova ira: Upravo sudjelujem na Kongresu o vanjskoj politici koji organizira @EPPWomen te zaklada @KASonline. http://t.co/QgL94sN5j3 isaova: Zasto se ovako nesto organizuje dva dana pre prijemnog? (@ Gradski Trg - Spomenik Milu-tin w/ @mlazovic) http://t.co/hC6nhaugxh treba:trebam treba: @BaneJevticBane ti siparanoik...a treba da ga se bojiš, al šta te bole trebam: @hrvatskitelekom stickpodigne program, ali kad ga trebam vezati trazi postavke za hrvatski telekom ica:ka ica: Profesorice mozete me pustit ranije moram na aerodrom? ka: Zamalo ženi kosu da spalim, mislila sam da je profesorka geografije hahaha Tablica 2: Lingvističke varijable korištene u istraživanju. Središnji kriterij pri izboru varijabli bila je lingvistička relevantnost, koja je utvrdena pregledom literature (uključujuci sljedece radove: Pešikan, Jerkovic i Pižurica, 2010, Baric, Lončaric, Malic, Pavešic, Peti, Zečevic i Znika, 1997, Halilovic, 2004, Čirgic, Pranjkovic i Silic, 2010, Tošovic, 2008 i druge). Takoder smo uzeli u obzir mogucnost automatske ekstrakcije i dovoljnu zastupljenost u skupu podataka. Postupak ekstrakcije u vecini se slučajeva temeljio na posebnim leksikonskim datotekama, tj. popisima oblika riječi koji su relevantni za istraživanje. U slučajevima u kojima je ta metoda bila neprimjenjiva koristili smo se regularnim izrazima. Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 95 U prethodnom istraživanju (Ljubešič i dr., u tisku) več smo utvrdili koje su vrijed-nosti dominantne u kojoj od četiriju država koje proučavamo (BiH, Hrvatska, Crna Gora i Srbija). U ostatku ovog odjeljka ukratko opisujemo logiku odabira varijabli i prostorne distribucije njihovih vrijednosti (prikazano na Slici 2, uzeto iz Ljubešič i dr., u tisku). Počinjemo s fonetskim varijablama, nakon čega opisujemo leksičke varijable te završavamo s morfosintaktičkima. Slika 2: Distribucija vrijednosti 16 proučavanih varijabli po državama (BA = BiH, HR = Hrvatska, ME = Crna Gora, RS = Srbija). Varijabla e:je odnosi se na dva fonetska refleksa praslavenskog suglasnika jata, e (npr. u riječima »mleko« i »pesma«) i (i)je (»mlijeko«,»pjesma«). Kao što se vidi na Slici 2 (kraj drugog reda), e je vrlo dominantan u porukama na Twitteru objavljenima u Srbiji, dok je je tipičan za ostale tri zemlje. Varijabla rdrop:nodrop motivirana je činjenicom da se u nekim riječima jezika BCHS-a r na kraju riječi može pojaviti ili ispustiti; prva je opcija dominantna u hrvatskom jeziku, a druga u srpskom, bosanskom i crnogorskom. Neke od riječi koje promatramo su »juče(r)«, »veče(r)« i »takode(r)«. Alternacija k:h dogada se na počecima riječi grčkog podrijetla koje su počinjale slovom 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec hi (x), pa imamo parove riječi poput »kemija«/»hemija« i »kirurg«/»hirurg«. U hrvat-skom se jeziku dosljedno koristi slovo k, dok se u srpskom, bosanskom i crnogorskom koristi h. Posljednja fonetska varijabla povezana je s prisutnošcu ili odsutnošcu slova h (h:noh). Konkretnije, slovo h ponekad se izostavlja na početku riječi, a ponekad se unutar riječi zamjenjuje drugim slovom (najčešcej ili v). Neki od primjera ove alternacije sljedeci su: »hrda«/»rda«, »snaha«/»snaja« i »gluh«/»gluv«. Opcije koje u sebi sadrže h tipične su za hrvatski, a opcije bez h (noh) pojavljuju se u srpskom i crnogorskom, dok bosanski više naginje riječima bez h. Što se tiče leksičkih varijabli, sta:sto odnosi se na standardni oblik upitne zamje-nice »što«, koja u hrvatskom, bosanskom i crnogorskom glasi »što», a u srpskom šta« (u srpskoj literaturi »što« se takoder navodi, no vrlo rijetko). Iako se ispostavlja da je »što« dominantna vrijednost u svim državama (najvjerojatnije zbog primjera korište-nja te riječi kao odnosne zamjenice i skracenog oblika riječi »zašto«, koje u postupku ekstrakcije nismo mogli zaobici), vidljivo je da se »šta« više koristi u Srbiji i BiH nego u Hrvatskoj i Crnoj Gori. Varijabla dali:jeli odnosi se na skup glagola »biti« i čestice »li« (»je li«) i skup čestica »da li«, koji se upotrebljavaju u upitnim rečenicama. Podaci s Twittera pokazuju da je oblik »da li« dominantan u svim državama, pri čemu se »je li« najčešce koristi u Crnoj Gori, iako je prema standardima u Bosni i Hrvatskoj propisan oblik »je li«. Sljedeca varijabla, s:sa, odnosi se na pisanje prijedloga »s« i »sa«. U standardnom hrvatskom jeziku, izbor izmedu »s« i »sa« ovisi o fonetskim pra-vilima - »sa« se treba koristiti ispred glasova »s«, »š«, »z« i »ž«; ispred suglasničkih skupina »ks« i »ps« te ispred instrumentala zamjenice »ja« (»sa mnom«), dok se »s« koristi u svim drugim slučajevima. U standardnom srpskom jeziku izbor se najčešce prepušta govornicima. Podaci s Twittera potvrduju da je »s« dominantna vrijednost u hrvatskom, a »sa« u ostala tri jezika. Upitna zamjenica »ko« u srpskom, bosanskom i crnogorskom te upitna zamjenica »tko« u hrvatskom čine varijablu ko:tko. Buduci da je »ko« homonimna riječ, usredotočujemo se samo na izvedene oblike »ni(t)ko« i »i(t)ko«, čija distribucija odgovara očekivanjima - »tko« je dominantna vrijednost u Hrvatskoj, a »ko« u ostalim državama. Zadnja leksička varijabla, mnogo:puno, tiče se priloga količine »mnogo« i »puno«. Oba se oblika koriste u svim varijantama BCHS-a, ali je oblik »puno« osobito karakterističan za hrvatski, a »mnogo« za srpski, crnogorski i do odredene mjere bosanski. Prva morfosintaktička varijabla, inflong:short povezana je s infinitivnim oblicima. Puni infinitivni oblik glagola u svim jezicima BCHS-a završava na -ti (»čitati«) ili -ci (»doci«), ali je u nekim varijantama, a pogotovo u hrvatskom jeziku, uobičajeno skracivanje infinitiva izbacivanjem slova »i« na kraju riječi (»čitat«,»doc«). Kao što je prikazano na Slici 2, puni oblik infinitiva dominantan je u sva četiri jezika, ali se krnji infinitiv rjede koristi u srpskom nego u drugim jezicima. Sljedeca varijabla, synth:nosynth, odnosi se na činjenicu da futur prvi u srpskom jeziku vecinom ima sintetički oblik, što znači da je pomocni glagol »htjeti« spojen s glavnim glagolom (npr. »čitacu«), dok se u hrvatskom koristi analitički oblik, tj. infinitiv glagola i pomocni glagol dvije su odvojene riječi (»čitat cu«). Sintetički oblici dominiraju u crnogorskom i (u manjoj mjeri) u bosanskom. Varijabla adjgshort:long povezana je s Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 97 činjenicom da se pri sklonidbi pridjeva u BCHS-u ponekad može dodati samoglasnik na kraj riječi radi lakšeg izgovora i/ili stilske obilježenosti. Najbolji je primjer ove pojave dodavanje nastavka -a u muškom rodu jednine pridjeva (npr. »novoga«), što se češce radi u standardnom hrvatskom nego u standardnom srpskom jeziku. Varijabla ira:isaova odnosi se na posudenice izvedene od medunarodnih glagola: u hrvatskom se uglavnom koristi glagolski sufiks -ira (npr. »promovirati« i »registrirati«), dok sufiksi -isa i -ova prevladavaju u srpskom jeziku (»promovisati«,»registrovati«). Sufiksi -isa i -ova prevladavaju i u crnogorskom i bosanskom. Varijabla ica:ka tiče se sufiksa koji se upotrebljavaju u tvorbi imenica koje označavaju ženske vršitelje radnje i koje se djelomično preklapaju, a djelomično razlikuju u jezicima BCHS-a. Sufiks -ica (npr. u riječi »nastavnica«) prisutan je u svim jezicima, ali je dominantan samo u hrvatskom i bosanskom, dok je u srpskom sufiks -ka (»čitateljka«) takoder vrlo učestao. Meduvarijetetne razlike izmedu sufiksa -ica i -ka najčešce se pojavljuju u riječima čija se osnova završava na -r (npr. »profesorica«/»profesorka«), zbog čega smo promatrali samo riječi koje završavaju s -rica i -rka te uočili da je nastavak -rka dominantan u Srbiji, a nastavak -rica u ostale tri zemlje. Varijabla treba:trebam odnosi se na činjenicu da se modalni glagol »trebati« u srpskom jeziku često upotrebljava impersonalno. Razlog tome je preskriptivna tradicija koja zabranjuje konstrukcije poput »trebam da idem« i zahtijeva oblik »treba da idem«. U hrvatskom se jeziku personalni oblici normalno koriste te nakon njih dolazi infinitiv (npr. »trebam ici«). Podaci s Twittera pokazuju da su personalni oblici zapravo dominantni posvuda, ali se u srpskom impersonalniji oblik »treba« koristi više nego u drugim jezicima. Posljednja je sintaktička značajka koju promatramo sastav nekih kompleksnijih predikata, koji u srpskom najčešce imaju dopunu »da« + prezent glagola (npr. »volim da čitam«), dok se u hrvatskom obično koristi infinitiv glagola (»volim čitati«). Ta je razlika izražena u varijabli da:inf, kojom se utvrdila dominantnost oblika s »da« u srpskom i crnogorskom te dominantnost oblika s infinitivima u hrvatskom i bosanskom. U smislu navedenih značajki, akomodaciju opažamo kao smanjenje dominantnosti, tj. frekventnosti dominantne verzije u Srbiji kao rezultat akomodacije ostalim jezicima (bosanskom, hrvatskom i crnogorskom). Napominjemo da je kod dvije varijable, sto:sta i treba:trebam, dominantna razina utvrdena iz podataka s Twittera različita od one koja se navodi u literaturi (barem djelomično zbog ograničenj a našeg automatskog postupka ekstrakcije). U svrhu ove analize (usporedivanja uporabe odredenih vrijednosti varijabli kod mobilnih i nemobilnih korisnika), svejedno smo se usredotočili na nedominantne oblike »šta« i »treba«. 3.4 Analize Sve analize provodimo kako bismo pronašli odgovor na svoje glavno istraživačko pitanje: provode li srpski korisnici Twittera akomodaciju u svojem jeziku kada su u kontaktu s drugim varijantama BCHS-a. Podatke promatramo iz dvije perspektive: prvo iz perspektive korisnika usporedujemo jezičnu produkciju mobilnih korisnika 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec (koji objavljuju tvitove i iz Srbije i iz drugih država gdje se govore jezici BCHS-a) s produkcijom nemobilnih korisnika (koji objavljuju tvitove samo iz Srbije). Nakon toga proučavamo situaciju iz perspektive tvitova koje objavljuju mobilni korisnici tako što usporedujemo jezičnu produkciju mobilnih korisnika unutar i izvan Srbije. Odredimo prvo detaljnije hipoteze opisane u odjeljku 3.1: kod perspektive usmje-rene na korisnike očekujemo da ce jezična produkcija mobilnih korisnika s obzirom na naše odabrane varijable biti bliža drugim jezicima BCHS-a od produkcije nemobilnih korisnika (tj. da mobilni korisnici manje upotrebljavaju vrijednosti koje su dominantne u Srbiji od nemobilnih korisnika). Kod perspektive usmjerene na tvitove očekujemo da ce jezična produkcija medu mobilnim korisnicima s obzirom na naše odabrane varijable biti bliža drugim jezicima BCHS-a u tvitovima koji su nastali izvan Srbije nego u tvitovima koji su nastali u Srbiji (tj. da se vrijednosti dominantne u Srbiji manje upotrebljavaju u tvitovima koji su objavljeni izvan Srbije nego u onima koji su objavljeni u Srbiji). Prvu hipotezu ispitujemo na neuparenim uzorcima, tj. na mjerenjima za svaku od 16 varijabli za mobilne i nemobilne korisnike. U testiranju druge hipoteze koristimo se uparenim uzorkom, tj. mjerenjima za svaku od 16 varijabli za svakog korisnika u slučajevima kada on objavljuje tvitove izvan i unutar Srbije. Mjerenja koja ekstrahiramo iz podataka pokazuju koliko su zastupljene vrijednosti koje su tipičnije za srpski jezik u pojedinoj varijabli. Uzmimo sljedeci primjer iz perspektive usmjerene na korisnike: ako se u 234 od 563 tvita koje je korisnik objavio pojavljuje varijabla eje (tj. ako ti tvitovi sadrže barem jednu riječ u kojoj je moguca alternacija eje, npr. »mleko«), a dominantni ekavski oblik (vrijednost e) pojavljuje se u 224 tvita, računamo omjer kao 224 / 234 = 0,957, što znači da taj odredeni korisnik upotrebljava ekavsku varijantu u 95,7 %% od svih relevantnih slučajeva. Kod perspektive usmjerene na tvitove, omjer računamo odvojeno za tvitove koje je korisnik objavio u Srbiji i one koje je objavio u drugoj državi gdje se govori neki jezik BCHS-a. Nakon što izračunamo omjere za sve varijable za pojedinačne mobilne i nemobilne korisnike, kao i za tvitove koje su pojedinačni mobilni korisnici objavili u Srbiji i izvan nje, računamo omjere po skupinama korisnika (mobilni i nemobilni korisnici, 1. hipoteza) i vrstama tvitova (tvitovi objavljeni u Srbiji i izvan nje, 2. hipoteza) te ispitujemo postavljene hipoteze statističkim metodama. U prvoj analizi koja uključuje dva nezavisna uzorka primjenjujemo niz Wicoxonovih testova sume rangova (jedan za svaku lingvističku varijablu), dok za drugu analizu, provedenu na uparenim uzorcima, primjenjujemo Wilcoxonov test rangova sa predznacima za zavisne uzorke. Upotrebljavamo neparametrijske testove zbog toga što naši podaci nisu normalno distribuirani. Medutim, u rezultatima prikazujemo (parametrijske) prosjeke umjesto (neparametrijskih) medijana kako bismo pružili jasniji uvid u slučajeve gdje su razlike male i ne bi bile vidljive u medijanima. Varijabla (dominantna vrijednost ¡spisana podebljanim slovima) Broj nemobilnih korisnika Broj mobilnih korisnika Omjer za nemobilne korisnike Omjer za mobilne korisnike Razlika izmedu omjer a Statistika W p-vri-jednost CLES ica:ka 416 70 0,79 0,657 0,133 12 547 0,012 0,569 e:je 2099 417 0,976 0,887 0,089 31 8370 < 0,001 0,636 inflongrshort 2091 414 0,883 0,84 0,043 368 840 < 0,001 0,574 dalirjeli 1672 335 0,97 0,927 0,043 258 040 < 0,001 0,539 mnogorpuno 1690 330 0,773 0,738 0,036 263 640 0,09 — da:inf 2098 417 0,664 0,63 0,034 375 130 < 0,001 0,571 trebartrebam 1947 379 0,227 0,201 0,026 345 040 0,040 0,532 s:sa 2096 417 0,813 0,79 0,023 404 430 0,016 0,537 h:noh 1926 380 0,776 0,761 0,015 355 360 0,352 — ira:isaova 1612 330 0,987 0,977 0,010 257 760 0,012 0,515 synth:nosynth 1915 379 0,947 0,94 0,007 348 930 0,112 — adjgshortrlong 2025 410 0,986 0,98 0,006 403 720 0,092 — ril rop mod rop 1670 350 0,998 0,995 0,003 291 310 0,478 — ko:tko 1431 293 1,0 1,0 0,0 209 930 0,523 — k:h 838 169 0,996 1,0 -0,004 71 318 0,271 — sto: sta 1225 260 0,424 0,432 -0,008 158 730 0,934 — 2 ŠT .T c' 5 c Tablica 3: Rezultati usporedbi nemobilnih i mobilnih korisnika. Varijabla (dominantna vrijednost ¡spisana podebljanim slovima) Broj uparenih podatkovnih točaka Omjer unutar Srbije Omjer izvan Srbije Razlika izmedu omjera Statistika V p-vrijednost CLES mnogo:puno 49 0,769 0,662 0,107 327 0,123 — e:je 354 0,879 0,818 0,062 18 658 0,776 — s:sa 212 0,788 0,738 0,05 8574,5 0,455 — da:inf 255 0,637 0,613 0,025 16 699 0,666 — synth:nosynth 62 0,959 0,941 0,018 90,0 0,862 — adjgshort:long 100 0,98 0,972 0,008 61,0 0,737 — inflong:short 168 0,824 0,823 0,002 3857,5 0,018 0,312 dali:jeli 33 0,782 0,782 0,0 40,5 0,752 — rdrop:nodrop 39 1,0 1,0 0,0 0,0 Nije primjenjivo — k: h 6 1,0 1,0 0,0 0,0 Nije primjenjivo — ko:tko 17 1,0 1,0 0,0 0,0 Nije primjenjivo — ica:ka 1 1,0 1,0 0,0 0,0 Nije primjenjivo — h:noh 66 0,776 0,779 -0,003 505,5 0,706 — ira:isaova 47 0,996 1,0 -0,004 0,0 0,371 — treba:trebam 73 0,204 0,209 -0,005 677,5 0,703 — sto: sta 84 0,389 0,399 -0,01 1369 0,923 — Tablica 4: Rezultati usporedbi tvitova koje su mobilni korisnici objavili u Srbiji i onih koje su objavili izvan Srbije. Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 101 Konačno, za statistički značajne razlike računamo i veličinu učinka metodom Common Language Effect Size (CLES). Opcenito, veličine učinka kvantifikacijski su način prikazivanja praktične važnosti rezultata, a u društvenim i humanističkim znanostima raste njihova primjena u istraživanjima uz p-vrijednost o statističkoj značajnosti razlike (koja kvantificira vjerojatnost da je izmjerena razlika slučajna). CLES je vrlo jednostavna i intuitivna mjera kojom je kodirana vjerojatnost dobivanja vece vrijednosti za element iz prvog uzorka nego za element iz drugog uzorka ako se nasumično odabire par elemenata, po jedan iz svakog uzorka. CLES vrijednost od 0,5 označava razinu slučajnosti (vjerojatnost dobivanja vece vrijednosti iz prvog uzorka je 50 %). Ako je vrijednost CLES-a manja od 0,5, to znači da postoji veca vjerojatnost dobivanja vece vrijednosti iz drugog uzorka nego iz prvog uzorka. 3.5 Rezultati Za svaku od dvije skupine analiza prikazujemo sljedece podatke: naziv varijable, broj(eve) relevantnih opažanja (oni se razlikuju od varijable do varijable), relevantne omjere dominantne vrijednosti varijable (po skupini korisnika ili lokaciji objavljivanja tvita), razliku izmedu dvaju omjera, statistiku testa, podatak o statističkoj značajnosti neparametrijskog testa te mjeru veličine učinka (gdje je to primjenjivo). Prvo prikazujemo rezultate analize usmjerene na korisnike s fokusom na našu hipotezu da je jezična produkcija mobilnih korisnika bliža drugim jezicima BCHS-a nego jezična produkcija nemobilnih korisnika. U Tablici 3 prikazani su rezultati te analize, s varijablama poredanima u padajucem nizu na temelju razlike izmedu omjera za nemobilne i mobilne korisnike. Na primjeru jedne od najistaknutijih varijabli, e:je, objasnit cemo kako prikazane vrijednosti treba čitati. Vrijednost ove varijable koja je dominantna u Srbiji jest e (ekavski oblik, npr. u riječi »mleko«). Medutim, uz pretpostavku prisutnosti jezične akomodacije (zbog toga što se u ostale tri države koristi ijekavica), očekujemo da ce omjer vrijednosti e biti manji kod mobilnih nego kod nemobilnih korisnika. Bilježimo da postoji 2099 nemobilnih i 417 mobilnih korisnika za koje imamo mjerenja za ovu varijablu. To znači da možemo izmjeriti varijablu e:je za svih 2516 korisnika u našem skupu podataka, što nije čest slučaj (npr. za varijablu ica:ka samo smo od 416 + 70 = 486 korisnika dobili relevantne podatke). Nakon toga prikazujemo omjer uporabe vrijednosti varijable e kod mobilnih i nemobilnih korisnika: nemobilni korisnici upotrebljavaju ekavske oblike u 97,6 % slučajeva, dok je taj broj za mobilne korisnike 88,7 %. U sljedecoj je koloni u tablici prikazana razlika izmedu tih dvaju omjera (0,976 - 0,887 = 0,089). Potom bilježimo rezultat Wilcoxonova testa sume rangova kojim ispitujemo nultu hipotezu da se ta dva uzorka (omjeri uporabe vrijednosti varijable e kod nemobilnih i mobilnih korisnika) ne razlikuju. Buduci da je vjerojatnost toga vrlo mala (p < 0,001), možemo odbaciti nultu hipotezu i zaključiti da postoji značajna razlika izmedu nemobilnih i mobilnih korisnika po pitanju ove varijable. Na kraju prikazujemo mjeru veličine učinka, tj. CLES, koja iznosi 0,636 i govori nam da ce, ako odaberemo jednog nasumičnog nemobilnog i jednog nasumičnog mobilnog korisnika, postojati vjerojatnost 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec od 63,6 % da nemobilni korisnik ima veci omjer uporabe vrijednosti varijable e nego mobilni korisnik. Kao što je vidljivo u Tablici 3, značajne razlike izmedu nemobilnih i mobilnih korisnika pronadene su za polovicu (osam) varijabli, svugdje s osrednjim veličinama učinka u rasponu od 0,515 do 0,636. Činjenicu da su značajne razlike pronadene baš za te konkretne varijable ne može se objasniti na temelju njihove lingvističke vrste zbog toga što su sva tri tipa varijabli (fonetski, leksički i morfosintaktički) jednako zastupljena. Medutim, vidljiva je odredena doza pravilnosti u prostornoj distribuciji njihovih vrijednosti u državama u kojima se govore jezici BCHS-a. Naime, kod ovih varijabli dominantna vrijednost varijable u Srbiji razlikuje se od dominantnih vrijed-nosti varijabli u svim trima ili barem dvjema državama BCHS-a (obično u Hrvatskoj i Bosni) (vidjeti Sliku 2). Razlika je posebno očita kod varijabli e:je i ica:ka, koje imaju najvecu razliku izmedu omjera, a slijedi ih varijabla da:inf. U nekoliko slučajeva razlika ne postoji u dominantnoj vrijednosti, nego u mjeri u kojoj se u srpskom koristi odredena varijabla u usporedbi s jezicima drugih država (inflong:short, treba:trebam, dali:jeli). S druge strane, »neznačajne« varijable vecinom su one u kojima srpski di-jeli dominantnu vrijednost s crnogorskim i bosanskim (za razliku od hrvatskog, npr. ko:tko, k:h, rdrop:nordrop) ili one za koje se ne mogu vidjeti jasne teritorijalne razlike (npr. sto:sta). Za te bi se varijable trebalo provesti dodatno istraživanje u kojem bi se proučavala mobilnost korisnika u odredene države i time izbjegla poništavanja izmedu država koja se sada vjerojatno dogadaju. Nastavlj amo s drugom analizom, u kojoj se usredotočujemo na hipotezu da ce tvitovi koje su mobilni korisnici objavili izvan Srbije biti bliskiji drugim jezicima BCHS-a od tvitova koje su isti korisnici objavili u Srbiji. Rezultati te analize prikazani su u Tablici 4. Tablica je organizirana na sličan način kao i Tablica 3, s razlikom da je u njoj prikazan samo jedan broj korisnika, tj. broj korisnika za koje imamo mjere varijabli i u Srbiji i izvan Srbije te da su omjeri upareni. Podsjetimo da u ovom slučaju provodimo neparametrijski Wilcoxonov test rangova sa predznacima za zavisne uzorke da bismo ispitali nultu hipotezu prema kojoj dva uzorka dolaze iz iste distribucije, tj. razlika mjera u uparenim uzorcima ima simetričnu distribuciju oko nule. Rezultati druge analize ne podupiru hipotezu da postoji akomodacija. Jedina značajna razlika dobivena je za varijablu inflong:short, ali radi se o divergenciji, a ne konvergenciji. Naime, dominantna vrijednost dugog infinitiva upotrebljava se manje u tvitovima objavljenima u Srbiji (iako to nije vidljivo iz omjera, očito je iz vrijednosti CLES-a, koja iznosi 0,312, dakle manje od 0,5). Po pitanju deskriptivnih indikatora, sedam varijabli daje podatak očekivanog predznaka (pozitivnu razliku izmedu omjera). Te varijable uključuju i e:je i da:inf što potvrduje njihovu relativnu sklonost akomodaciji. Medutim, razlike tih vrijednosti nisu značajne (relativno visoka p-vrijednost). Jedna od najistaknutijih varijabli iz prve analize, ica:ka, nalazi se u donjoj polovici tablice u drugoj analizi, i to samo s jednim korisnikom koji ju je proizveo i u Srbiji i izvan nje. Trebalo bi imati na umu da je vecina vrijednosti varijabli u ovoj analizi temeljena na malom broju opažanja i da je manjak podataka vjerojatni razlog za neuočavanje ili Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 103 neznačajnost razlika. To je posebno vidljivo u četiri slučaja u kojima je razlika izmedu omjera jednaka nuli, što se vrlo vjerojatno ne bi dogodilo kod veceg uzorka. 4 Rasprava U odjeljku 3.4 ustanovili smo da rezultati prve analize donekle potvrduju prisu-tnost jezične akomodacije kod mobilnih korisnika iz Srbije (u usporedbi s nemobilnim korisnicima). Druga analiza, s druge strane, ne otkriva nikakve razlike u jezičnoj produkciji mobilnih korisnika u Srbiji i izvan nje. Opcenito, dokazi koji podupiru jezičnu akomodaciju nisu vrlo snažni, ali u osjetljivom sociopolitičkom kontekstu, poput onog u državama gdje se govore jezici BCHS-a, njezino postojanje svejedno je vrijedno pozornosti. Zanimljiva je činjenica da, u slučajevima kada se akomodacija dogada, ona postaje obilježje govornikove jezične produkcije bez obzira na njegovu trenutačnu lokaciju. Takva situacija mogla bi ukazivati na dugoročne učinke. Struktura ovog istraživanja ne dopušta nam da čvršce potvrdimo tu pretpostavku, ali bi je bilo zanimljivo istražiti detaljnije u buducim istraživanjima, pogotovo zbog toga što se kontekst na koji smo se usredotočili razlikuje od konteksta tipičnih istraživanja govornika koji su se trajno preselili u područje gdje se govori drugi varijetet jezika (vidjeti Ruch i Benito Moreno, u tisku). U pogledu lingvističkih varijabli koje su najsklonije akomodaciji, u našem se istra-živanju pokazalo da su to one varijable po kojima se Srbija najjasnije ističe od ostale tri države, bez obzira na to je li varijabla fonetska, leksička ili morfosintaktička. Nismo razmatrali neke druge lingvističke čimbenike koji se često spominju u literaturi, poput razumljivosti (engl. intelligibility, koju ne sputava nijedna naša varijabla), uočljivosti (engl. salience, o kojoj trenutačno nemamo podataka) ili sinkronijskih varijacija u srpskom jeziku. Vezano uz posljednji čimbenik možemo spomenuti da je uporaba glagola »trebati« možda podložna akomodaciji zbog čisto preskriptivne naravi pravila o njegovoj impersonalnoj uporabi. Takoder treba napomenuti da je na naše rezultate vrlo vjerojatno utjecalo nekoliko metodoloških i provedbenih odluka. Prva važna odluka tiče se načina na koji smo odredili zemlju boravišta. Udio od dvije trecine tvitova objavljenih u zemlji boravišta uistinu je proizvoljan (kao što bi bio i bilo koji drugi broj) i ne možemo znati jesu li svi korisnici koji su zadovoljili taj kriterij zbilja iz odredene države ili su tamo samo proveli kraci period. Drugim riječima, nismo imali načina za razlikovanje zemlje u kojoj netko boravi trajno od one u kojoj boravi privremeno. Drugo, način na koji smo definirali mobilne korisnike, ubrajajuci medu njih one koji su imali vrlo malen posto-tak tvitova objavljenih izvan Srbije, možda je bio previše popustljiv i moguce je da je doprinio nedostatku razlika u našoj drugoj analizi. Medutim, količina podataka koju smo imali za mobilne korisnike bila je prilično ograničena, a manje ograničavajuci kriterij za definiranje mobilnih korisnika bio je jedini način da se barem djelomično izbjegne problem pomanjkanja podataka. 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec Na kraju, zanemarivanje informacije o državi prema kojoj je mobilnost bila usmjerena onemogucilo nam je usporedivanje jezične akomodacije izmedu država, što je potrebno ako bismo htjeli detaljnije proučiti sociopolitičke čimbenike i stavove govornika, koji imaju veliki utjecaj na procese akomodacije. 5 Zaključak i smjernice za buduča istraživanja U ovom smo radu proveli dvije analize na skupu geokodiranih poruka s Twittera koje su objavili srpski korisnici kako bismo izmjerili jezičnu akomodaciju koja prati mobilnost korisnika. Dok je prva analiza barem djelomično poduprla početnu hipotezu, druga nije pokazala efekte akomodacije. Naše je istraživanje očito samo prvi korak u proučavanju akomodacije medu jezicima BCHS-a s pomocu podataka s Twittera i obrade prirodnog jezika te postoje brojni moguci smjerovi za buduca istraživanja. Kao prvo, trebalo bi provesti razli-kovnu analizu temeljenu na odredenoj državi prema kojoj je mobilnost usmjerena: razumno je pretpostaviti, na primjer, da ce srpski korisnik drugačije akomodirati jezik kada posjecuje Crnu Goru nego kad posjecuje Hrvatsku, zbog toga što srpski dijeli više dominantnih vrijednosti varijabli s crnogorskim nego s hrvatskim, a drugačiji je i sociopolitički kontekst. Kao drugo, u ovoj smo fazi mjerili akomodaciju samo u sluča-jevima kada su korisnici bili fizički mobilni, tj. kada su objavljivali tvitove iz zemalja gdje se govore jezici BCHS-a, a u kojima inače ne borave. Druga je vrsta mobilnosti koju treba uzeti u obzir »komunikacijska mobilnost«, tj. komunikacija s korisnicima Twittera koji su iz drugih država gdje se govore jezici BCHS-a. Kao trece, kada skup podataka postane dovoljno velik, ovo istraživanje treba proširiti na druge države gdje se govore jezici BCHS-a. Priznanja Ovo istraživanje potpomognuto je projektom Izvori, metode i alati za razumijeva-nje, prepoznavanje i razvrstavanje različitih oblika društveno neprihvatljivog diskursa koji financira Javna agencija za istraživačku aktivnost Republike Slovenije (ARRS J7-8280) te projektom Standardni srpski jezik: sintaksička, semantička i pragmatička proučavanja, koji financira Ministarstvo prosvjete, znanosti i tehnološkog razvoja Republike Srbije (178004). Literatura Eugenija Baric, Mijo Loncaric, Dragica Malic, Slavko Pavesic, Mirko Peti, Vesna Zecevic i Marija Znika, 1997: Hrvatska gramatika, 2. izd. Zagreb: Školska knjiga. Jack K. Chambers, 1992: Dialect acquisition. Language 68/4. 673-705. Adnan Čirgic, Ivo Pranjkovic i Josip Silic, 2010: Gramatika crnogorskoga jezika. Podgorica: Ministarstvo prosvjete i nauke Crne Gore. Nikola Ljubešič idr.: Jezična akomodacija na Twitteru: Primjer Srbije 105 Cristian Danescu-Niculescu-Mizil, Michael Gamon i Susan Dumais, 2011: Mark my words! Linguistic style accommodation in social media. Proceedings of the International World Wide Web Conference. Hyderabad, India. 745-54. Gabriel Doyle, 2014: Mapping dialectal variation by querying social media. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg: Association for Computational Linguistics. 98-106. Jacob Eisenstein, Brendan O'Connor, Noah A. Smith i Eric P. Xing, 2010: A latent variable model for geographic lexical variation. Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Cambridge, MA: Association for Computational Linguistics. 1277-87. Daniel Erker i Ricardo Otheguy, 2016.: Contact and coherence: Dialectal leveling and structural convergence in NYC Spanish. Lingua 172-73. 131-46. Senahid Halilovic. 2004.: Pravopis bosanskoga jezika za osnovne i srednje škole. Zenica: Dom štampe. Howard Giles, Justine Coupland i Nikolas Coupland, 1991: Accommodation Theory: Communication, context, and consequence. Ur. H. Giles, J. Coupland i N.Coupland: Contexts of Accommodation: Developments in Applied Sociolinguistics. Cambridge: Cambridge University Press. 1-68. Bruno Gonçalves i David Sanchez, 2014: Crowdsourcing dialect characterization through Twitter. PLoS ONE 9/11. https://doi.org/10.1371/journal.pone.0112074 Nikola Ljubesic, Darja Fišer i Tomaž Erjavec, 2014: TweetCaT: A tool for building Twitter corpora of smaller languages. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). Reykjavik, Iceland. 2279-283. Nikola Ljubesic, Filip Klubička, Željko Agič i Ivo-Pavao Jazbec, 2016.: New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Paris: European Language Resources Association (ELRA). 23-28. Nikola Ljubesic, Maja Miličevič Petrovič i Tanja Samardžič : Borders and boundaries in Bosnian, Croatian, Montenegrin and Serbian: Twitter data to the rescue. Journal of Linguistic Geography. U tisku. Mitar Pesikan, Jovan Jerkovič i Mato Pižurica, 2010: Pravopis srpskoga jezika. Novi Sad: Matica srpska. Martin J. Pickering i Simon Garrod, 2004: Toward a mechanistic psychology of dialogue. Behavioral i Brain Sciences 27. 169-90. Hanna Ruch, 2018: The role of acoustic distance and sociolinguistic knowledge in dialect identification. Frontiers in Psychology 9. Članak 818. https://www.frontiersin. org/articles/10.3389/fpsyg.2018.00818/abstract Hanna Ruch i Carlota de Benito Moreno: Linguistic Accommodation. Ur. H. Ruch, E. van Gijn, Max Wahlstrôm, A. Hasse: Language Contact. Language Science Press. Tatjana Scheffler, Johannes Gontrum, Matthias Wegel i Steve Wendler, 2014: Mapping German tweets to geographic regions. Proceedings of the NLP4CMC Workshop at Konvens. Bochum: Bochumer Linguistische Arbeitsberichte. 26-34. 108 Slavistična revija, letnik 67/2019, št. 1, januar-marec Branko Tošovic, 2008: Gramatičke razlike izmedu srpskog, hrvatskog i bošnjačkog jezika (preliminarium). Ur. T. Berger i B. Golubovic: Morphologie - Mündlichkeit - Medien: Festschrift für Jochen Raecke. 311-22. James Wilson, 2011.: Types of dialect accommodation in first-generation contact between adult speakers of mutually intelligible but regionally different varieties. Multilingua 30. 177-220. Pövzetek V prispevku obravnavamo fenomen jezikovnega prilagajanja med srbskimi uporabniki Twitterja, in sicer analiziramo tvite s podatki o geolokaciji, ki so bili objavljeni med letoma 2013 in 2016 na območju Bosne, Hrvaške, Črne gore in Srbije. Jezikovna produkcija uporabnikov Twitterja je opisana s 16 spremenljivkami, ki pogosto variirajo med govorci pluricentričnega jezika na območju Bosne, Hrvaške, Črne gore in Srbije. Teh 16 spremenljivk lahko razvrstimo v tri jezikoslovne tipe: fonetične (npr. uporaba praslovanskega samoglasnika jat'), leksikalne (npr. uporaba vprašalnega zaimka 'kaj') in oblikoskladenjske (npr. sintetična ali analitična oblika prihodnjika). V raziskavi izvedemo dve primerjavi: med produkcijo mobilnih in nemobilnih srbskih uporabnikov Twitterja ter med jezikom mobilnih uporabnikov, ki objavljajo znotraj ali zunaj Srbije. Kot mobilne upoštevamo tiste uporabnike, ki so v času zbiranja podatkov sporočila na Twitterju objavljali tudi izven Srbije. Za ločevanje med uporabniki iz Srbije in tistih iz drugih držav, kjer govorijo pred omenjeni pluricentrični jezik, definiramo državo prebivanja, in sicer tako, da morata biti vsaj dve tretjini vseh tvitov objavljeni v specifični državi, vse ostale uporabnike, ki temu kriteriju ne zadoščajo, pa zanemarimo. Prva analiza je pokazala pomembne razlike med mobilnimi in nemobilnimi uporabniki Twitterja za osem spremenljivk, vse pa imajo srednje velik učinek. Teh osem spremenljivk ne izkazuje nobenega vzorca glede na jezikoslovne tipe, vseeno pa je teritorialna razporeditev vrednosti teh spremenljivk pravilna, in sicer je večina spremenljivk s pomembnimi razlikami tistih, ki so najrazličnejše uporabljene v Srbiji na eni strani in v drugih obravnavanih državah na drugi strani. Druga analiza, tj. primerjava uporabe jezika mobilnih uporabnikov Twitterja znotraj in izven Srbije, ni pokazala neposrednega dokaza za jezikovno prilagajanje. Čeprav pri nobeni spremenljivki ni bilo pričakovanih pomembnih razlik, pa z opisnega vidika nekatere spremenljivke, ki so bile najmočnejši pokazatelj jezikovnega prilagajanja pri prvi analizi, izkazujejo enak trend, vendar ta ni statistično pomemben. Razlog bi lahko pripisali temu, da so vrednosti spremenljivk pri tej analizi temeljile na majhnemu številu pojavitev in da je zaradi pomanjkanja podatkov nekatere temeljne razlike težje identificirati.