INFORMATICA 2/1980
KEM IJSKI
IN FORMACI JSKI SISTEMI II
ALGORITMI ZA OBRAVNAVO
IN OBDELAVO
KEMIJSKO-STRUKTURNIH INFORMACIJ
UDK: 681.3 : 54
B. DŽ0N0VA-JERMAN-BLA2IC
N.TRINAJSTlC*
INSTITUT JOŽEF STEFAN, LJUBLJANA
*INSTITUT RUDJER BOŠKOVIČ, ZAGREB
Vsebina: V prispevku smo podali kratek pregled algorihnov zo obravnavo in obdelavo računalniško zapisanih kemijskihstruktur.
Poskusili smo oceniti njihovo učinkovitost in uporabnost z ozirom na funkcije v okviru kemijsko-informacijskega sistema.
CHEMICAL INFORMATION SYSTEMS II: ALGORITHMS FOR HANDLING AND PROCESSING CHEMICAL INFORMATIONS.
Abstract: The paper discusse the computer-based algorithms that support the handling and processing of information about chemical
substances. Some assesments are made about the efficiency and usefulness of the algorithms that performe interconversion, regi-
stration, structure and substructure searching, according to the funcHons they reallze in the chemical information systems.
1 . UVOD
Vsak informacijski sistem definirajo štiri funkcional-
ne enote( 1 ):
- zbiranje in shranjevanje informacij tekom določenega ča-
sovnega intervala,
- tehnike in metode vnašanja novih informocij ter poizvedo-
vanje o zahtevanih informacijah, ali z drugimi besedam!
priprava odgovorov no vprašanja uporabnikov,
- skupina Ijudi, ki vodi in oblikuje informacijski sistem.
Skuplna izloča uporabne informacije, dopolnjuje podaf-
kovno bozo, ažorira podatke v podatkovni bazi, priprav-
Ija vprašanja, posreduje odgovore uporabnikom ter imple-
mentira in dopolnjuje tehnike \n metode za izvajanje roz-
ličnih funkcij šistema,
- skupina uporabnikov sistema, ki ovrednoti sistem glede na
svoje potrebe in kriterije.
Kemijski informacijski sistemi (KIS v nadaljevanju)
imajo vse značilnosti splošnih informaci jskih sistemov, so pa
glede na svojstvenosti metod obdelave in posredovanja infor-
macij dobili posebno mesto v okviru splošnih inforcnacijskih
sistemov (2). Najbolj pogoste zahteve, oziroma vprasanja
uporabnikov KIS najdemo v naslednji skupini vprašanj:
- ali je določena spojina že navedena v literaturi (kdaj in
qd koga),
- ali obstajajo spojine, ki so podobne po sfrukturi spojini
definirani v vprašanju,
- katere so lastnosti \e spojine (fizikalne, biološke, kemij-
ske ipd.),
- kakšne so in katere so skupne lastnosti spojin iz navedene
skupine spojin,
- kako pripravimo oziroma kako sinteHziramo navedeno spo-
jino ali serijo spojin,
- kdoj je spojina prvič sinteHzirana, kateri so postopki
sinteze ipd.,
- katere spojine imajo navedene lastnosti.
Vsa navedena vprošanja zahtevajo, ali idenfifika-
cijo spojine v podatkovni datoteki ali poizvedovanje o last-
nosti.spojine. Vprašanja v katerih je strukh/ra spojine na-
tančno definirana in, ki zohtevajo identifikacijo spojine v
sistemu imenujemo strukturno-definirana vprašanja.
Vprašanja v katerih so definirane fizikalno-kemijske lasfnosti
spojine in, ki kot odgovor zahtevajo ime spojine ali skupine
spojin, ki kažejo določene lastnosti imenujemo vprosanja za
iskanje po vsebini datoteke(3). Ta vprašanja se definirajo
s pomočjo deskriptorjev (4). Deskriptorji so besede ali kode
s katerim so opisane lastnosti spojin ali kakšen drug pojem
kot je: število in identiteta atomov v spojini, število in
identiteta kemijskih zvez v spojini, molekulska teža, število
in identiteto obročev, opis okolja določene podstruktui o v
spojini, molekulska povezanost, molekulska geometrija, mo-
lekulski tnodel v prostoru ipd.(4). Na sl. 1 smo pokazcili
kof ilustracijo elemente, ki definirajo podatkovno bazo
"Toxicology Data Bank" (3) realizirane v okviru programa
Library's Toxicology Information Program v ZDA.
Večina obsfoječih KIS je načrtovano tako da omo-
goča dostop do informacij na oba omenjena načina: glede
na strukturo spojine in glede na vsebino datoteke. Za te
namene v okviru KIS najbolj pogosto se kreirajo invertirane
datoteke, ki omogočajo hiter dostop do informacij z rozlič-
nimi ključi oziroma deskriptorji (5), (6). Poleg tega zaradi
fleksibilnosti in vse večjih poheb uporabnikov, je v velikih
KIS omogočeno zapisovanje strukture spojine na več načinov.
Primerno temu, so implementirane tehnike, ki omogočojo
transformacije med različnirni zapisi, ali drugače povedano
interkonverzijo med zapisi. Algoritmi, ki omogočajo avtomat-
sko interkonverzijo med rozličnim! predstavitvami spojin rea-
lizirajo nekatere funkcije v KIS, od katerih navajomo noj-
bolj pomembne:
- obdelava strukfurnih diagramov ter priprava strukturnih
formul v obliko sprejemljivo za publiciranje,
- prikazovanje strukturnih diagramov na video-terminalih,
na podlagi zapisov z lineamimi notocijaini,
- .transformacija strukturnih diagramov iz video-terminalov v
zapise z obliko tabele povezanosrt,
- !zmenjava podatkov med razticnimi bazami podafkov.
V nadaljevanju bomo na kratko obdelali ter anali-
zirali skupino najbolj pomembnih algoritmov, na katerih
sloni realizacija vseh osnovnih funkcij KIS.
48
Toxicology Dota Bank
Podatkovni elementi
1. Identifikacija substance
a) kemijsko ime
b) registrsko Stevilka službe CAS
c) sinonimi
d) molekulska formula
e) molekulska teža
f) zapis v Wiswesserjevi notaciji
2. Rozvrstitev substance
a) kemijski razred
b) najbolj pogosta uporaba
3. Kemijsko/fizikalne lostnosti
a) temperatura topljenja
b) temperatura vrenja
c) gostota/specifična teža
d) barva/oblika
e) stabilnost/življenjska doba molekulskih obel
f) spektroskopski in drugi podatki
g) raztopljivosf
4. Toksikološki učinki: eksperimentalne šhjdije:
a) na živalih
b) z Ijudmi
5. Tbksikološke vrednosti
a) minimalna strupena količina
b) maksimalno dovoljena dnevna količina
c) LD-vrednosH
6. Laborotorijske metode in sinteze
7. Interakcije v bioloških sistemih
8. Formakologija
a) metabolizem
b) absorpcija, dlstribucija, izločanje
9. Farmakoterapija
10". Ukrepi v primerlh zastrupitve oziroma eksplozije
11. Informacije proizvajalcev
T3F. Metode prevoza
TS. Podatki v zvezi z okoljem
a) meje eksplozivnosti
b) možnosti vžiga
c) meje shrupenosti
d) meje radioakHvnosti
d) meje onesnaženja
f) meje izpostavljanja
g) prag mejnih vrednosti
h) kopičenje, razgrajevanje in obstojnosf v okolju.
Slika 1.
2. REGISTRACIJA SPOJINE
Registrocija spojine je algoritemski postopek, ki
omogoča' sprejemanje, povezovanje in uredHev vseh informa-
cij v KIS, ki se nanašajo na določeno spojino. Postopek
mora nojprej ugotoviti ali se v datofeki nahaja snov, ki je
po strukturi ekvivalentna kandidatu za vpis v podatkovni
datoteki. V primeru da takšne spojine ni, zapis nove spojine
ter ostale informacije se uvrstijo na ustrezno mesto glede na
lastnosti !n konfiguracijo spojine.
Postopek za registracijo spojin je ozko vezan in
omejen z osnovnim sistemom zo predstavitev spojin . Najbolj
pomembna faza je primerjava strukture kandidata s strukhj-
rami spojin v osnovni datoteki sistema. Uporabljene metode
so zelo različne in prilagojene uporabljeni notaciji za pred-
stavit-ev kemijskih slruktur. Zo vse metode pa velja naslednje:
- kandidat za registracijo je zmeraj zapisan na enoličen in
nedvoumen način,
- osnovna datoteka je urejena tako da omogoča urejanje
spojin v skupine s skupnim struktumim značajem,
- poleg osnovnega zapisa, omogočeno je vnašanje dodatnih
paramefrov, (to je najbolj pogosfo molekulska teia ali
molekulska formula), zorodi kontroliranja napak.
Če je datoteka organizirana fako da so spojirie
grupirane v skupine, najprej najdemo odgovarjajočo skupino
in zatem začnemo s primerjavo med spojinami. Učinkovifost
posfopka je odvisna od velikost! skupin oziroma od izbire
parametrov, ki ločijo posamezne skupine. Največji vpliv na
čas za registracijo spojine ima uporabljena metoda za zapi-
sovanje spojin. Linearne notacije omogočajo dokaj hitro pre-
iskovanje podatkovnih datotek zarodi enoličnosK, nedvoum-
nosH ter kompaktnosH zaplsov. Registracija Spojine zapisane
v Wisweserjevt nol*actji se izvaja v okviru sistemo
CROSSBOW (7).
V sistemih, kjer je osnovni zapis spojin v obliki
fabel povezonosti so nujno potrebne tehnike za generiranje
enoličnlh in nedvoumnih zapisov iz poljubno podanih tabel
povezanosti. Ti zapisi so znani pod imenom "kanonične fa-
bele povezanosti" (8), (9). Problem generiranja kanonične
tabele povezanosti se sestoji v izbiri invarianfnega oštevit-
čenja atomov. Problem invariantnega ošfevilčenja atomov in
zapisa v tabeli povezanosti je ekvivalenten problemu izomor-
fizma grafov. Molekulske strukturne formule lahko opisujemo
kot grofe, ki imajo vozlišča s semantično vsebino. Če sta
enolična in nedvoumna zapisa dveh grafov Gl in G2 enaka,
ozirotna še sta njihovi kodi enaki, potem sta Gl in G2 izo-
morfna in sam postopek kodlranja je izomorfizem (10). Naj-
bolj preprost postopek za zapis spojin v kanonični obliki
je generiranje vseh n! možnih tabel povezanosti,
oziroma vseh možnih oštevilčenj afomov v motekulskem grafu
in leksikografski ureditvi n! fabei. Kanonična oblika fabele
bi bila tista, ki bi imela najnižjo leksikografsko uredifev.
Ta način izbire kanonične oblike je izredno zamuden in je
primeren le če imamo spojine z zelo majhnim številom ato-
mov. V primeru da je število atomov 20 hipofefičen računal-
nik, ki lahko generiro eno matriko in to matriko primerja z
drugo v eni mikrosekundi bi porabil več kof 75000 \et (11)
za izpeljavo 20! operacij.
V preteklosH je bilo več poizkusov za izpeljavo
(8), (12), (13a, 13b), matemaHčne funkcije, ki bi omogo-
čala hifro identifikacijo izomorfizma grafov. Do danes ni
take funkcije, ki bi to opravila v poltnomskem času za po-
I jubni graf.
Na splošno problem izomorfizma grafov se nahaja v
skupini NP-popolnih problemov. NP-popolni problemi so
dobro raziskani problemi imenovani teški problemi. V le pro-
bleme Itejemo: problem trgovskega potnika s področja opera-
cijsklh raziskav, problem faufolog!je iz propozicijskega ra-
čOna ter druge podobne kombinatorične probleme. NP-popolni
problemi imajo to lastnost do če je en problem iz skupine
NP-popolnih problemov rešljiv z algoritmom, ki imo polinom-
ski čas, potem so vsi ostali problemi fudi rešljivi v polinom-
skem času. Seveda za vsak problem je treba dokazaH do res
pripada skupini NP-popolnih problemov.
Pri reševanju probtemov iz skupine NP-popolnih pro-
blemov, so zelo pogosto bili uporabljeni hevristični algo-
filrni, posebej takrat ko je rešitev problema bila povezana z
dejansko realizacijo kokšnega sistema za obdelavo podatkov.
Tako so Ungar (14) ter drugi avtorji (15), (16), (17) po-
izkusili zmanjSati časovno kompleksnost algorifmov za ugofav-
Ijanje izomorfizma grcfov s pomočjo hevrstičnih pravil. Uspeh
je bil dosežen le pri načrtovanju olgoritmov zo ugotavljanje
izomorfizma ravninskih grafov (18), (19), (20). Predlagani
algorUmi imajo polinomske čase. Ti algoritmi so neuporabni
za splošne grafe.
Dosedanje izkušnje so pokazale da problem izomor-
fizma grafov nasplošno, ni mogoče rešiM z dobriro algorU-
mom, zato se je trebo pri konkretnih problemih zadovoljiti s
hevrističnimi algorifmi, ki dajejo dobre reiifve v večini pri-
merov. Algoritem te vrste, ki se je v praksi pokazal kot
zelo učinkovit,so razvili in implementiroli v KIS složbe CAS
(5). Algoritem za kanonično osfevilčenje atomov, omejuje
generiranje vseh možnih fabel povezonosti, tako da pred-
časno uredi atome in shrani rezultate začetnih poizkusov
49
oštevilčenja. Algoritem je implemenriran na IBM 370/168 v
obliki programa za registracijo spojine. Program obdela pri-
bližno 13000 spojin tedensko, poprečen čas obdelave je
1000 sfruktur na minuto CPU(5). Zaradi nekatere spojine s
simetrijo v strukturi, ki zahtevajo veliko število iteracij,
implemenfaci ja algoritmo predvideva prekinitev obdelave, če
je čos porabljen za eno strukturo večji od 3 sec. Med
677000 struktur obdelanih tekom 1975 leta obdetava 990 je
zahtevala več kot 3sec. Zgled spojine fe vrsfe je ferocene
(sl.2). Za te primere se uporablja posebna tehnika oštevil-
Slika 2.
čenjo, ki je znana kot tehnika za sortiranje in registriranje
izomerov. Da bi posfopek pojašnili, smo v nadaljevanju po-
nazorili algoritem za hitro generiranje kompakfne kanonične
tabele povezanosti. Delovanje algorihna smo ilustrirali z
zgledorn preproste spojine (slika 3):
Algoritem zo generiranje kononične tabele poveza-
nosti v sistemu službe CAS:
N - množica poljubno oštevilčenih atomov
n N, n je atom iz N z zaporedno itevilko n '
1. določi vrednost povezanosti ln vsem elementom iz N:
If, je enako številu neogljikovih otomov vezanih na atorn
n (i zo to korak je. enako 1 ),
2. določi spremenljivko k', k1 je enako številu različnih
vrednosti I' ,
3. i -» i + 1, določi novo vrednost povezanosfi I,
'n ™ 'i Cn ie enako vsoH I vseh r atomov vezanih
' . na atom n)
4. določi ipremenljivko k ,
5. če je k'<k'+', nadaljuj, drugače pojdi na 7,
6. pojdi na 3,
7. vrednost povezanosH elementov fz N je enaka 1' ,
8. otom št. 1 (n = l) je atom z največjo vrednostjo l^,
afom št. 2,3, ..., itd. so atomi vezani na atom lt, 1 z
opadajočimi vrednostmi I od 2 naprej. V primeru da dva
atomo imata enako vrednosf I pofem manjšo zaporedno
številko dobi atom z nižjo lekslkografsko vrednostjo. Če
fa razločitev ni možna (enake vrednosti I ter atome
istega elementa), potem ošfevilči ta par crtpmov poljubno
in označi da so M at-omi poljubno oštevilčeni,
9. neoštevilčene atome vezane na atom št.2 oštevilči glede
naopadajoče vrednosti I. Če srečaš med sosed! atoma
št.2 atome, ki se ne dajo oštevilčiti po danih pravilih,
potem te atome oštevilči poljubno, ter označi da so t\
otomi. poljubno oštevilčeni,
10. oštevilči vse atome iz N z enako proceduro in zgradi
fabelo povezanosti,
11. vrni se k atomom, ki je bil poljubno ošfevilčen in ki
ima največjo zaporedno številko. Če poleg tega afoma ni
drugih afomov, ki so bili poljubno oštevilčeni končaj.
Generirano matrika je enolična. Končaj posfopek. Če to
ni res nadaljuj,
12. zamenjaj zaporedne številke afomom, ki so bili poljubno
ošfevilčeni. Izbriši oznake o poljubnem oštevilčenju,
13. konstruiraj fabelo povezanosti,
14. primerjaj to tabelo s predhodno,
15. če nova tabela povezanosti ima nižjo leksikografsko
vrednosfr od predhodne, potem zamenjaj staro z novo,
staro zbriši in pojdi na 11 .
Čas potreben za generiranje kanonične tabele po-
vezanosM je odvisen od števila prisotnih atomov v spojini
ter od število atomov z enako vrednost-jo povezanosri I. Za
te atome je treba poizkusiti vse možne kombinacije oštevil-
čenja, kar vpliva no to da je postopek zamuden. Opisani
algoritem ni splošna rešitev problema izomorfizma grafov v
okviru KIS, je pa relativno dobra rešitev za grafe, ki imojo
najbolj pogosto zasedenosf vozlišč od 1 do 4.
3. POIZVEDOVANJE O SPOJINAH, Kl VSEBUJEJO
DOLOČENI STRUKTURNI FRAGMENT
Postopek registrocije spojine je oblika iskanja in-
formacij o popoln! slrukfuri spojine, ali z drugimi besedami
to je postopek iskanjo grafa, ki je izomorfen molekulskemu
grafu spojine definirane v vprašanju uporabnika. Druga zelo
pomembno zahfeva uporabnikov v okviru KIS je iskonje
sfrukturnih fragmentov oziroma iskanje spojin v datoteki si-
stema, ki vsebujejo sfrukturni fragment definiran v vprašanju
uporabnika. Povedano z besedami iz teorije grafov, to iska-
nje je ekvivolentno posplošitvi problema izomorfizma grafov
v problem izomorfizma podgrafov. Če itnamo dva grofo
G1=(V1,E1) in G2 = (V2,E2), potem Gl je izomorfen pod-
grafu grafa G2, če in samo če je VI podmnožica V2 in El
podmnožica E2. Problem izomorfizmo podgrafov se sestoji v :
določanju ali je graf Gl izomorfen podgrafu grafa G2.
: J
I I
3/C—o
J.J.l
\=l— c—c;
« I
Prvi poizkus
vrednost I = 1 /2,3
število različnih k= 3
Drugi poizkus
vrednost I = 2,3,4,5,6
različnih k = 5
7 li
I.J.I
J 12
o=c-
3 5 J 1,
o=c—c—t:
i s l \
0= C — C-C
C — 0
17 I
C—0
e—o
C—0
( 7
Tretji poizkuš
vrednost != 3,4,7,8,9,13
šfevilo različnih k = 6
Četrti pbizkus
vrednosf 1= 7,8,12,17,20,25
število različnih k = 6
"C—0
I I
TABELA POVEZANOSTI
atom št.
povezove
alemenf
zveza
)
C
S
2
1
C
s
3
1
C
s
4
1
C
s
5
2
C
S
6
3
št,
I
4
OC
S
TABELA POVEZANOSTI
atom Jt.
povezave
element
1
C
2
1
C
3
1
C
4
1
C
5
2
C
6
3
C
•S
i\
7
4
. 1
8
5
O
D
. 2
8
5
OO
Slika 3.
50
Problem ugotavljania izomorfizma podgrafov je bolj
težaven od ugotavljanja izomorfizma grafov. V okviru KIS
so ta problem reševali na več različnih načinov. Uspeh po-
sameznih metod je bil odvisen od sistema za zapisovanje in
shranjevanje kemijskih spojin fer od zahtevane nafančnosrt
poizvedovanja. Določeni problemi so še naprej nezadostno
obdelani in čokajo na boljše rešitve(6). Nekatere prednosfi
linearnih notacij, kanoničnih fobel povezanosti ter nomen-
klahjrnih zapisov, ki so jih imeli pri regisfriranju spojin za-
radi enoličnosti in nedvoumnosfi zapisov, v fem iskanju se
popolnoma zgubijo. Tako, pri kanoničnih tabelah se lahko
zgodi, da so atomi v podstrukturi oštevilčeni različno od
afomov v popolni sfrukturi ker M atomi nimajo iste otome za
sosede. (V nadoljevanju bomo pod "popolno sfrukturo" razu-
meli strukturno formulo spojine zapisane v enem od možnih
računalniških zapisov v datotekah KIS in pod podslrukl-uro,
slrukturno formulo nepopolne strukture definirane V vprašanju
uporabnika). Kot ilusfracijo smo na slikl 4 pokazali eno
shrukturo in odgovarjajočo podstrukkiro. Pri nomeklah>rnih ali
notaci jskih zapisih, je podstruktura lahko zapisana s simboli,
ki se razlikujejo od simbolov uporabljenih za zopis popolne
struknire, spet zaradi različnega okolja v katerem se pod-
shruktura nahaja v različnih spojinah.
Iskanje po podsfrukturoh se lohko odvlja na več ni-
vojev natančnosH . Najnižji nivo natančnosK je iskanje v
daloteki kjer imamo zapis spojin s fragmentacijskimi kodami
ali če iščemo s pomočjo mask. Maslce (5) se naibolj pogoslo
uporabljajo pri preiskovonju velikih bank poda*'<uv, in so
podobne frogmenfacijskim kodam, le da predstavljajo račonal-
niško generirane podatke v katerih je prisolnost oziroma od-
sohiosf kemijskih značilnosH (elemente, povezave, obroče
ipd.) označena z enicami ali ničlami, v nekaterih primerih
fudi s šfevi IF. Za ilustracijo smo na sl. 5 ponazorilf en zapis
spojine s fragmentacijsko kodo. V primero sisfema s fragmen-
taciiskimi kodami, v vprašanju uporabnika se zahtevani
fragmenl zapiše s kodo, ki je bila uporabljena pri ustvarjo-
nju datoteke. Odgovor vsebuje seznatn molekul v katerih se
zahtevani fragment nahaja.
popolna struktura
strukturni
fragment
Slika 4.
V sistemu GREMAS (21) se datoteka fragmentov ge-
n^rira ovtomatsko iz kibele povezanosH ter osfalih topoložkih
deskriptorjev. Avtomatsko generiranje fragmentacijskih kod
omogoča nemoteno spreminjanje uporabljenih kod, oziroma
dodavanje novih, brisanje stariii ipd. Podobno generiranje
datofek s fragmenH je realizirano v KIS NaMonal Institute
of Health in Environmental Protection Agency v ZDA oli
skrajšano NlH-EPA (6). V fem KIS, se zo vsako poizvedo-
vanje po podstrukfurah generirajo inverHrane dafoteke iz
osnovne datoteke. Pri tem obstojojo dve možnosti; generiranje
datoteke kjer so spojine zopisane kot niz fragmenrov in ge-
neriranje datoteke s podatki o obročih. Datoteka fragrhentov,
ki poleg fragnientov vsebuje še podatek o registrsk! številki,
se generira z obdelovo vsakega atoma in vsake povezave
posamezne spojine. Pri tem se določajo naslednji podatki:
dimenzlje fragmenta (šfevilo afomov v fragmenhj), semantiko
centrolnega atomo (centralni atom je afom, ki povezuje
fragmeiU z ostalo strukturo spojine), semantiko prvega soseda
(prvi sosed je atom vezan na centralnega, ki se najmanj po-
gosto srečo v datoteki, ponavadi je različen od C,N,O, če
takega atoma ni potem je to C atom z dvojno ali trojno po-
vezavo ipd.), semantiko drugega, Iretjega in četrtega soseda.
Koda
2/12
4/1
17/1
18/1
Pomen
obroč
šestčlanski benzenov obroč
klor (en atom)
ena OH skupina
Slika 5.
Cl
OH
Generiranje se konča ko je celotna struktura zapisana v ob-
liki fragmentov. Datoteko s podatki o obročih ima enako
strukturo, le da tukaj nastopajo podatki o obročih. Za vsa-
kega obročka se generira zgoščena koda (hash koda) iz ta-
bele povezanosH ter podatki o hetero atomih, njihovl pozi-
ciji, o subsHf-uenlih ipd.). Poleg tega se generirajo ie po-
dafki o možnih kombinaciiah med obroči (2,3,4 skupaj),
kjer se osfali obroči obravnavajo kot subsfituenti. Za iluslra-
cijo smo na sliki 6 pokazali iskanje podstrukhjre sestavljene
iz petčlanskega heterootomskega obroča in iz šestčlonskega
obroča s substifuenfom pri fretjem atomu. Pogoji iskanja so
bili naslednji:
zohfeva št. 1: kombinacija obročev v popoln! sfrukturi naj
bo enaka (ni dovoljeno več kot dva obroča),
zahteva št. 2: le vozlišče 8 je lahko različno od C.
zahteva št. 3: v šestčlanskem obroču |e prisoten najmanj er>
substifuenf in naj bo vezan na atomu št. 3.
Pri iskanju je bilo uporabljeno podatkovna baza NIH-EPA
Mass Spectral Search System (22), (23), ki vsebuje okrog
30000 različnih spojin in njihdve masne spektre. V prvi in-
vertirani datoteki s podatki o obročih je bilo najdeno 18 spo-
jin, s po enim ali dveh obročkov. V drugi datoteki s podatki
o fragmenfih je bilo najdeno 180 strukkir, ki vsebujejo
fragment s substikient-om iz slike 6. Presek množic spojin iz
a) defmicija podstrukture
.Q večkratne povezave
ji Tp ter H crtomi niso
določeni
U«\^ ^v\ /Ct številke označujejo
oštevilčenje otomov
v tabeli povezanosti c,
c
c
s
b) definicija zahtevanega fragmenta
Ct10 ^3 ~C 2
Slika 6.
51
obeh datofek je dalo le eno spojino pokazano na sliki 7.
Sevedo, večkrat se zgodi, da presek dveh datotek da več
kot eno spojino, v tem primeru se uporabljo natančnejši način
iskanja, znan kot "iskanje atom zo atomom" (27).
najdena struktura
Cl'
molekutska formula : C8CU03
registrska številka CAS: 112088
Sliko 7.
Pri vseh kompleksnih KIS, se natančno poizvedova-
nje po podslrukturah izvaja z iskanjem arom za afomom. To
iskanje je precej zamudno in zaradi tega se povsod pred tem
izvajo predhodno iskanje po fragmentih (tako kot je bilo no-
vedeno v primero zgoraj), po nomenkloturnih zapisih, ali po
linearnih notacijah. V okviru sistema CAS je predliodno
iskanje izvedeno s pomočjo nomeklatornih zapisov. Pri tem
so bili uporabljeni najnovejši dosežki s področja preiskova-
nja tekstov in računalniško čitljivih datofek z obliko teksto
(24). • _ _
V sistemu z Dyjon-IUPAC-ovo notacijo predhodno'
iskanjp se izvaja s pomočjo datotek s permutfranimi indeksi (25).
Wiswesserjeva notacija je bila uporabljeno za isti namen v
sistemu "Institut-a for Scientific InformoHon" (26). Uspeh
iskanja je zelo odvisen tudi od uporabnika oziroma od spo-
sobnosti da se pravilno opiše in kodira pričakovano okolje
podstrukture. V koliko je to bolj uspešno v toliko je manjše
števiio spojin za natončnejše preiskovanje.
Nofančno poizvedovanje o tem ali se določena pod-
struktara nahaja v nekaterih sfrukfurah je možno le s primer-
janjem atomov iz podstrukfure z afomi strukfure in z primer-
janjem povezav iz podstrukture s povezavami iz slrukture.
Primerjanje je možno le če so strukture zapisane v topološki
obliki, oziroma če zapis spojln izhaja iz njihovih grafov. V
dosedanji tehnologiji KIS srečamo dva algoritma za primerja-
vo podsfrukture s strukturo implementiranih v nairazličnejših
enačicoh. To so: iterativna tehnika primerjanja atom z ato-
mom (27) in fehnika postopnega izločanja množic (16). Oba
algoritma v svoji prvotni obliki, so bila načrfovana za pri-
merjanje popolnih struktur, oziroma za ugotavljanje izomor-
fizma dveh grafov. Univerzalnost postopkov je omogočila
uporabo tudi pri določanju izomorfizma podgrafov.
3.1 Iterativno iskanje in primerjanje atom z atomom
Iterativno iskanje se sestoji v primerjanju atomov iz
prdstrokture z atomi iz strukture do popolnega ujemanja ali
neujemanjo. Da bi skrajšali čas primerjonja in hitreje izlo-
čili neprimerne strukture, se primerjanje začne z atomom iz
podstrukture, ki se najmanj pogosto sreča v datoteki. Vse
strukture, ki ta atom ne vsebujejo odpadejo že na začetku.
Po prvi uspešni pricnerjavi dveh atomov, se iskanje nadaljuje
na enak način. Za naslednji afom.se vzame afom vezan na
predhodnega in ki se najmanj pogosto sreča v datoteki. Če
do ujemanja pride, se primerjanje nadaljuje z noslednjim so-
sedom, ki se izbira po enakih kriterijih. V primeru dp pride
do neujemanjo, postopek se vrne v točki zadnjega ujemanja
in se primerjanje nadaljuje z drugirti atonnom. Prehojena pot
primer|anja se sproM zaznamuje zaradi vračanja v primerih
neujemanja. Postopek je iferativen in teie do ugotovitve
popolnega ujemanja med podstrukturo in kaklnim delom
strukture. V primeru da posfopek prehodi celofno strukturo
in do ujemanja ne pride, postopek konča, kar pomeni da
podstrukhjra ni vsebovana v strukhjri.
3.2. Postopno izločanje množic atomov
Postopek postopnega izločanja množic je popolnoma
rozličen od posfopka primerjonja atom z atomom in je bolj
ročunalniško pobarvan. Avtor algoritma je Sussenguth (16),
posamezne spremembe s ciljem izboljšanja algorifmo so pred-
lagali Ming in Tauber (29).
Postopek je izpeljan na podlagi naslednjih hrditev:
- če sfa grafa G in G* izomorfna, potem podmnožice vozlilč
grafo G, ki se razlikujejo med seboj glede na nekatere
lastaosti vozlišč, so ekvivalenfne podmnožicam grafa G*,
- če podmnožice vozlišč grafov G in G* z enakimi lastnost-
mi vozlišč nimajo enako število elementov pofem G in G*
nista izomorfna.
V primeru izomorfizma tned grafom G in podgrafom
grafa G* so pogoji oslabljen! in glasijo: odgovarjajoča vozli-
šča grafo G so vsebovana v rnnožice vozMSč grafa G* z ena-
kimi lastnostmi. Zapisana z matematičnim jezikom te dve
trditvi dobita naslednjo obliko:
a) graf G je izomorfen grafu G*
vrednost vozlišča
(x: vrednost (x )=v) = (x*: vrednosf (x* )=v )
vrednost povezave
(x: vrednost ((x,y))=b)=(x*: vrednosf ((x*,y*))=b)
vatenca
(x:valenca (x)= d) = (x*:valenca (x* )= d)
stopnjo zasedenosti
(x:stopnja (x)=d) = (x*:stopnja (x*) = d)
povezonosf A = A* —- /~A = /* A*
/*x - množica vozlišč vezana na vozlišče x
b) graf G je izomorfen podgrafu grafa G*
vrednost vozlišča
(x: vrednost (x)=v) •= (x*:vrednost (x*)=v)
vrednost povezave
(x:vrednost((x,y))=b) S (x*: vrednost ((x*,y**))=b)
valenca
(x:valenca(x)=d) = (x*: valenca (x*)=d)
stopnjo zasedenosti
(x: stopnja (x)= d) <S (x* : stopnja (x* )= d)
povezonost AjA* t f A S /"*A*
Postopek dela v dveh fazah: generiranje podmnožic
in izločevanje podmnožic. Generiranje podmnožic smo ilu-
strirali na zgledu ponazorjenim no sliki 8. Množice se med-
seboj razlikujejo po vsebini elementov (C,O,N,Br), vrednost
povezave (dvojna,enojna), valence atomov v sfrukturi brez
H atomov (1,2,3), (stopnjo zasedenosti), žfevilu povezav v
najmanjšem ciklu kateremu vozlišče pripado (povezanost). Iz-
ločevanje množic, omogoča zmanjševanje šrevila vozližč, ki
so možni ekvivalentni vozlišču x. idealen primer je, če je
to število enako 1, potem je x = x* . Če sta Si in Si* par
množic z elemenH z enakimi lastnostmi in če velja Si •= Si*,
potem lahko sklepamo naslednje: če je x v Si, pofern je
tudi x* v Si*. Za vse i v katerih je x vsebovan v Si in x*-
je vsebovan v Si*, In od tukaj sledi naslednjo relacija:
ic I
i I, le če je x v Si.
Ce sfa Sj in Sj* množici z enakim številom vozlišč, Sj = Sj*,
52
Množice podsfrukture
Množice sh-ukture
vrednost vozlišč: C (b,c,d,g)
O (f)
N (a)
Br 0
vrednost povezov: enojno
(a,b,c,d,e,f,g)
dvojna
stopnja zasedenosti: 1
(a)
2
(b,d,c,f,g)
3
(c)'
povezanosf: 5
(c,d,e,f,9)
(a.b)
(2,3,4,5,6,7,8,9,11,12,13,14
(10)
(1)
(15,16)
(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)
(4,5,7,8,11,12,13,14)
(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)
(1,2,3,4,5,6,7,8,9,10,11,12,13,14)
(1,2,3,4,5,6,12)
(4,5,6,10,11,12,13,14)
(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)
Slika 8.
potem velja naslednje Šj <S Sj*. VozliSče, ki ne pripada Sj,
t\., ki pripado Sj nima ekvivalenta v Sj* (ker je S"j = Sj*
in je ekvivalenca vozlišč ena proti ena), kar pomeni da so
ekvivalenri vozlišč iz Sj vsebovani v Sj*. Z drugjmi bese-
dami, ie je Sj = Sj* in če x ••'. Sj, potem x* G. Šj. Z upo-
rabo množic, ki imajo to lasfnost dobimo naslednjo relocijo:
ic.l
Sj*
j.'J
i . I, če [e x ' Si in j'" J, če je Sj = Sj* in x <-. Sj.
Z operocijo presek iz rolacije 2 v veliki meri zmanjžamo
število elementov v množicah S in S*. V primero da za
vsako vozlišče iz S najdemo ekvivalent v S*, smo problem
rešili in postopek lahko zaključimo. Če se to ne zgodi,
potem je treba prvo fazo - generiranje novih parov množic
z elemenH z enakimi loshiostmi ponoviH in zatem Mdi drugo
fazo. Če so v prvl iteraciji blli uporabljen! množici, ki so
se razlikovali med seboj po vsebini elementov, v drugi Ue-
rocij! bodo uporabljeni množici, ki se razlikujejo v vrednosti
povezav. Zgled generiranja množic in izvajanja operacije
presek je ponazorjen na sliki 9. Posfopek iferafivno teče do
Množice podstrukture Množice strukture
(1,2,4) S
(1,3) S
(2,4,5)
(3/4,5)
(b,d,e,f) S*
(o,d) S*
(a,b,c,f) S*
RezultaH po operaciji presek
Množice sfrukture Množice podstrukture
(1)
(2)
(3)
(4)
(5)
(d)
(b,e,
(a)
(b,f)
(b,c,
f)
f)
uporabljene množice
sn s
1 2
s n s n s
1 2 3
s n s
1 4
s n s n s n s
12 3 4
s n s n s
2 3 4
Slika 9.
do izpolnitve enega od naslednjili pogojev:
a) za vse afome iz G so določeni ekvivalenfi v G*,
b) podmnožica S vsebuje več elementov od odgovarjajoče
množice S* (v tern primeru G ne more bUi izomorfen s
podgrafom grafa G in izomorfizem ni tnožen),
c) ni pogojev za generiranje novih podmnožic (vse lashiosH
po katerih se atomi v grafu G razlikujejo med seboj so
izčrponi in rezulfof je nedoločen). To pomeni da za ne-
katere afome ekvivalent ni določen ali da za nekafere
atome ni pokazano da ekvivalenti ne obsfajajo.
Nedoločen rezulfat dobimo v dveh pritnerih: med G in G*
obstoja večkrotni izomorfizem (ni metode, ki bi izbrala
enega od izomorfizrnov) in uporabljene lastnosti elementov
niso zadosti močne, da bi razločile posamezne atome. V
tem primeru se ekvivalenh' določajo naključno, vsoka na-
kijučna izbira je podvržena pofrditvi. Ce je pohrdifev nega-
Hvna potem izberemo naključno nov par afomov in postopek
ponovimo dokler ne dobimo pravilno izbiro.
Oba algorifma, prifnerjanje atom z afomom (11) in
tehnika postopnega izločanja množic (16) imata veliko ča-
sovno kompleksnosf (28), kar pomeni da čas pofreben za ugo-
tovljanje izomorfizma narašča izredno hitro s šfevilom atomov
v grafu. Poleg tega velik vpliv na časovno kompleksnost ima
tudi struktura grafa in način kako so podatki zapisani v ra-
čunalniku. Čosovna kompleksnost algoritma za primerjanjo
atom 7. atomom je ocenjena no 0((d-l)n), kjer je d maksi-
rnalna valenca otoma v sfrukturi in n število ofomov v struk-
turi. Bolj uspešni algoritmi zo ugotavljanje izomorfizma gra-
fov uporabljajo rozlične kombinacije obeh algoritmov (10),
(14), (30), (31).
4. INTERKONVERZIJA MED ZAPISI
Algorifmi, ki omogočajo avtomafsko interkonverzijo
med različnimi zapisi spojin omogoča|o reolizacijo nekaterih
pomembnih funkcij vsakega KIS no nojbolj enostaven način.
Poleg osrednjega pornena, ki ga algorifmi za interkonverzijo
imajo v okviru inferne uporabe posameznega KIS, i\ algo-
ritmi omogočajo tudi izmenjavo informacij med različnimi po-
datkovnimi bazami.
Algoritme za interkonverzijo lahko gruptromo v tri
skupine:
a) algoritmi za interkonverzijo iz linearnih notacij, nomen-
klofurnih zapisov, koordinafnih zapisov in zopisov v oblik!
strukturnih diagromov v fabele povezanosH,
b) algorifmi za interkonverzijo med rozličnimi labelomi po-
vezanosti,
53
c) algoritmi za interkonverzijo iz tabel povezanosfi v line-
arne notacije, nomenklaturne zapise, koordinatne zapise
in predstavifve v obliki sfruktumih diogramov.
V prvi skupini algoritmov so najbolj zanimivi algo-
ritmi, ki omogočajo generiranje zdpisov v obliki tabel pove-
zanosti iz strukturnega diagrama predstavljenega na grafič-
nem zaslonu. Koncepte teh algorit/nov zasledimo pri Corey
in Wipke-u (32), realizacijo algoritmov za namene KIS pri
Feldmanu v okviru NIH-EPA (33), (34), tet v sistemu
GREMAS (35), (36). Podobno funkcijo opravljajo aigoritmi
za generiranje tabel povezanosH iz koordinatnih zapisov ke-
mijskih sfrukfur, ki se v računotniku vnažajo s pomočjo pi-
salnega shroja za kemijske formule (37). Konverzija linear-
nih notocij in nomeklaturnih zapisov v tabele povezanosti
zasledimo pri vseh večjih KIS. Tako danes obstajajo progra-
mi za konverzijo iz nomenklaturnih zapisov (38), \Aiswesser-
jeve notacije (39), Hayward-ove (40), in lUPAC-ove li-
nearne notacije (25) v tabele povezanosti. Fragmentacijske
kode ne predsfavljajo popoln in enoličen zapis strukfur, zato
njihova konverzija v druge zapise ni mogoča.
Druga skupina olgoritmov se uporablja za generira-'
nje kompaktnih tabel povezanosH iz redundančnih in obratno
(41 ), (42) ter pri konverziji tabel povezanosfi iz različnih
KIS. Tako danes obstojojo programi za konverzijo tabele po-
vezanosH iz sistema CROSSBOW v tabelo povezanosti siste-
ma CAS (43). Algorifmi za konverzijo iz ene fabele poveza-
nosH v drugo, se uporabljajo tudi pri konverziji zapisov iz
ene linearne notacije v drugo. Konverzija zapisa iz linearne
notacije v tabelo povezanosti je veliko bolj enostavna od
obratne konverzije, zaradi zapletenih sintaksnih in semantič-
nih pravil notacije (6). Veliko bolj zapletena je konverzi-
\a iz ene linearne notacije v drugo. Zato se to postopek
opravlja preko transformacij v tabelah povezanosti in potem
iz tabele v linearno notacijo.
Tretja skupina algorilmov realižira konverzijo zapi-
sov iz tabele povezanosti v kakšen drug nedvoumen in eno-
ličen zapis. Tabela povezanosti je najmanj strukturirana
predstovitev kemijske spojine in ne vsebuje elemente s ke-
mijsko značilnostjo razen seznama atomov in kemijskih zvez.
Obratna konverzijo iz bolj strukturiranih predstavitev v ob-
liki tabel povezanosti zahteva le interpretacijo simbolov
sintakse. Konverzija tabele povezanosH v kakšno linearno
notacijo je možna le s pomočjo kompleksnih algoritmov za
analizo slrukture in za ustvarjanje linearnega zapisa upošte-
vajoči zopletena pravila nofaclje. Eden od bolj dognanih
algoritmov za konverzijo tabele povezanosK v Wiswesserjevo
notacijo (44), (45), je omogoči! razvoj algoritmov zo ure-
janje Wiswesserjevih notacij za kemijske sisteme s kompleks-
nimi obroči. Podoben temu algoritmu je algoritem Farrella
(46) ter olgoritmi v okviru sistema DARC (47).
Iz te skupine algoritmov, so zelo zanimivi algoritmi
za generiranje strukhjrnih diagramov iz lineornih notacij.
Večina teh algoritmov so bili načrtovani za prikazovanje
diagramov preko vrstičnega tiskalnika in tehnične zmoglji-
vosti teh aparatur so omejevale kompleksnost prikazanih dia-
gramov (48), (49). Dognani sistemi za prikazovanje struk-
turnih dlogramov so realizirani v okviru službe CAS (50).
Poleg podatkov v obliki tabele povezonosH, sisfem za gene-
riranje strukturnih diagramov uporablja dototeko s koordinat-
nimi podafki o posameznih obročih, ter o strukfurab sestav-
Ijenih iz več obročev. Poda^ki za to datoteko so ročno pri-
pravljeni. Datoteko vsebuje več kot 15000 najrazličnejših
oblik obročev in sisfemov obročev, ki se nahajajo v
3,5x10*6 različhih spojin zapisani v osrednji datofeki si-
stema službe CAS (CAS Chemical Regisfry System). Koordi-
natni zapis obročev iz datoteke obročev omogoča hitro gene-
riranje strukturnega diagrama (izpis je na elektrosfatskem ri-
salniku ali na fotostavnim strojem), ker so vsi zapletljaji
okrog določanja koordinatov obročev na ta način onemogo-
čeni. V bistvu datoteka s podatki o koordinafih obročev pre-
cej poenostavi postopek, čigava osrednjo naloga je da ugo-
tovi medsebojno povezavo obročev, verig, linearnih aciklič-
nih nizov s končnim at-omom ali brez ter substituentov v
obročih. Potem se šele začne sesfavljonje koordinatovsfruk-
fure ali direktno (za aciklični del) ali iz podatkov iz dafo-
teke z obroči. Opisani sistem je bil izpopolhjen s progra-
mom, ki direkfno iz grafičnega zaslona sprejema strukturne
diagrame, generira fabela povezanosti ter strukkirni diagram
nariše na risolniku ali ga posreduje fotostavnim strojem (51).
5. SKLEPNE BESEDE IN BODOČE USMERITVE
S pregledom olgorUmov za obravnovo in obdelavo
kemijskih struktur v okviru rozličnih KIS smo poizkusili oce-
niH njihovo učinkovitosf in uporabnost z ozirom no funkcije,
ki jih opravljajo. Lahko rečemo, da je za večino problemov
v zvezi z obdelavo računalniško zapisanih kemijskih struktur,
najdena učinkovifa in praktična rešitev. O fem priča tudi
veliko šfevilo zelo učinkovitih KIS, ki posredujejo uporabni-
kom po celem svetu široko palefo najrazličnejših podatkov.
Tako kot pri predstavih/i kemijskih struktur (2), tako tudi za
algoritme za obravnavo in obdelavo kemijskih informacij
lahko ugofovimo da so se prilagajali sistemom s katerim so
spojine zapisane, uporabljeni materialni opremi, zahtevam
naročnikov ter ostalim posebnosti v zvezi s posedovanjem
KIS. Od tukaj Kidi izhaja raznovrstnost načrtovanih postop-
kov ter uporabljenih tehnlk. Pr! predstavilvi algoritmov smo
več prostora uporabili za predsfavitev algoritmov bolj sploš-
nega značaja in širše uporabe. To so algoritmi za ugotavlja-
nje izomorfizma grafov in izomorfizma podgrafov v okviru
KIS. Za oba algorUma velja da problema ne resujeta v poli-
nomskem času. Zaradi pomembnosti problemov in potrebi po
praktični rešitvi v okviru KIS, so se pri iskonju rešifev za-
tekli k različnim hevrisMčnim algoritmom, ali k metodam, ki .
občutno zmanjšajo število spojin za preiskovanje. Implemen-
tirani hevristični algorltmi za ugotavljanje izomorfizma gra-
fov, ki predstavljajo kemijske strukture, so dali zelo dobre
rezultate v praksi. Seveda problemi iz splošne feorije gra-
fov še naprej privlačijo pozomost znanstvenikov, ki si priza-
devajo izboljšati časovno kompleksnost omenjenih algoritmov
(10).
Algoritmi za obravnavo in obdelavo slrukkirnih ke-
mijskih informacij, poleg v sistemih za shranjevanje in iska-
nje informacij se uporabljajo tudi v drugih področjih kemije,
kjer se računalnik uporablja kot zelo koristen pripomoček(52).
Tako no primer izjemne dosežke zasledimo pri uporabi raču-
nalnikov pri iskanju korelacij biološka aktivnost spojine/struk-
tura spojine (53), (54). Podobne analize in uporabo velikih
podofkovnih baz, zasledimo pri študiju reaktantov in produk-
tov v sintetskih reakcijah s ciljem izločanja parcialnih struk-
tur značilnih za določene sintetske reakcije (54), (55), ter
pri matematski sintezi in analizi struktur molekul in njihovih
homologov (56). Algoritme za obdelovo kemijsko-sfrukturniU
informacijah zasledimo tudi pri programih za geomelrijsko.
modeliranje molekul, oziroma za generiranje trodimenzional-
nih deskriptorjev kemijskih spojin (57), (58), ter v progra-
mih za načrfovanje sinfetskih poti (59).
6. REFERENCE:
1. C.M. Bowman, The development of Chemical Information
Systems, v knjigi Chemical Information Systems, ed. Ash
& Hyde, J .Wiley & Sons, New York, N.Y. (1974)
2. B. Džonova-Jerman-Blažič, Kem.lnd., 28_ (1979), 67
3. M.A. Oxman, H. Kissman, J. Burnside, J. Edge, C.
Habetmon, A.Wyres, J .Chem.lnf .Comp.Sci., U (1976)
19
4. A.J. Stuper, W.E. Burgger, P.C. Jurs, Computer-Assisted
Studies of-Chemical Structures and Biological Functions,
J. Wiley & Sons, New York, N.Y. (1979), pogl. 3.
5. L.J. O'Kom, Algorithms in the Computer Hpndling of
Chemical Information, v knjigi AlgorUhms for Chemicol
Computation, ed. E. Christoffersen, ACS Symposium Series
No. 46, Vvashington (1977), 122
54
6. J. Feldman, G.W.A. Milne, S.R. Heller, A. Fein, J.A. 38.
Muller, B. Koch, Jour. Chem. Inf. Comp. Sci., Y7_ C977)
173 39.
7. D. Schmidt, L. Druffel, Jour.ACM, 23 (1976) 433
8. J. Turner, SiAM & Appl. Math., 16 (T9~68), 520 40.
9. C. Jochum, J. Gasteiger, Jour. Čftem. Inf. Com. Sci.,
17 (1977), 2
10. R.E. Tarjan, Graph Algorithms in Chemical Computation,
v knjigi Algorifhms for Chemical Computation, ed. E. 41.
Christoffersen, ACS Symposium Series No. 46, VVashington
(1977), 1 —
11. A. Bertaiss, J. ACM, 20 (1973), 365 42.
12. M. Karp, Tech. Rep., 3 Comp. Sci. Dep. Univ. of 43.
California, (opril 1972J"
13. a) M. Rondič, J.Chem.lnf.Comp.Sci., 15 (1975), 105 44.
b) M. Randič, J.Chem.Phys., 60 (1974T7 3920
14. S. Unger, Comm. ACM, 7 (1964), 26 45.
15. G. Saucier, Rev.Francaise Inform.Rech.Oper., 5 (1971),
39 46.
16. E. Sussengurfi Jr., J.Chem.Doc, 5(1965), 36
17. J. Steen, Jour. Chem.Doc, 3 (19"69), 51 47.
18. J. Hopcroft, E. Tarjan, v knjigi Complexity of Computer
ComputaHon, ed. R.E. Miller & J.W. Tatcher, Plenum
Press, New York, N.Y. (1972), 143
19. J. Hopcroft, J. Wong, Proc. 6rti Annual ACM Symp., 48.
SeaHle, VVashington, (april 1974), 172
20. L. VVeinberg, IEEE Trans. on Circuit Theory, CT-13, 49.
(1966), 142
21. R. Fugmon, The IDC System, v knjigi Chemical Infor-
mation Systems, ed. Ash & Hyde, J.Wiley & Sons, New 50.
York, N.Y., (1975)
22. S.R. Heller, H.M. Fales, G.W. Milne, Org.Mass. 51.
Spectr., 7(1973), 107
23. S.R. Heller, G.W. Milne, R.J. Feldman, R.S. Heller, 52.
Jour.Chem.lnf.Comp.Sci., 16(1976), 176 53.
24. W. Fisanick, L.D. Mitchell, J.A. Scott, C.G. Wonder
Stouw, Jour.Chem.lnf.Comp.Sci., lji (1975), 73
25. G.M. Dyson, The Dyson-IUPAC Notation, v. knjigi
Chemical InformaHon Systems, ed. Ash & Hyde, J.Wiley 54.
& Sons, New York, N.Y., 1975
26. C.E. Granito, E. Garfield, Naturvvissenschaften, 60
(1973), 189 55.
27. L.C. Ray, R.A. Kirsh, Science, 126 (1957), 814
28. M.O. Robin, Comm. ACM, 20 (1977), 625
29. T.K. Ming, S.J. Tauber, J.ČFem.Doc, 1^(1971), 47 56.
30. D.G. Corneil, C.C. GoHieb, Jour.ACM ^7 (1970), 51
31. Y. Shah, G. Dovid, M. McCarthy, Trans.on Systems Man 57.
and Cybernetics, SMC-4 (1974), 313
32. E.J. Corey, W.T. Wipke, Science, ][66 (1969), 179
33. R.J. Feldman, S.R. Heller, Jour.Chem.Doc, 12 (1973),
48 ~~
34. R.J. Feldmon, Interactive Graphic Chemical Strocture
Searphing, v knjigi Computer Representafion and Manipu-
laHon of Chemicol Information, ed. Wipke, Heller, 58.
Feldmon, Hyde, J. Wiley & Sons, New York, N.Y.,
(1974)
35. E. Meyer, Topological Seorch of Compounds in Large 59.
Files, v knjig! Computer Representofion and Manipulation
of Chemical Information, ed. Wipke, Heller, Feldman,
Hyde,' J. Wiley & Sons, New York, N.Y., 1974
36. E. Ziegler, K. Boll, Anal .Chem.Acta, Computer Techni-
que and OpHmization, ]03 (1978) 237
37. A. Zamora, D.L. Doyton, Jour.Chem.lnf.Comp.Sci.,
8 (1976), 74
E. Viander Stouw, P.M. Elliot, A.C. Isenberg, Jour.
Chem.Doc, M (1979), 185
E. Hyde, L. Matrtiews, L.H. Thompson, J.W. Wiswesser,
Jour.Chem.Doc, 7 (1967), 200
S.J. Tauber, S.J. Fraction, H.W. Hayward, v knjigi
Chemical Sfructures as Information: Representation
Transformations and Calculations, Spartan Books,
Washington D.C., 1965
J.E. Ash, Connection Tables and Their Role in a
System, v knjigi Chemical Information Systems, J,Wiley
& Sons, New York, N.Y., 1974
D. Lefkovitz, Jour.Chem.Doc, 1_ (1967), 186
L.H. Compey, E. Hyde, H. Jackson, Chem. Br., 6
(1970), 427
C. Ebe, T. Tommy, A. Zamora, Jour.Chem.lnf.Comp.
Sci., 16 (1976), 36
C.M. Bovvman, F.A. Lander, N.W. Lee, M.H. Reslock,
Jour.Chem.Doc, 8 (1968), 133
C.D. Farrell, A.R. Chouvenet, D.A. Ccniver, Jour.
Chem.Doc, n_ (1971 ), 52
J.E. Dubois, DARC System in Chemislry, v kr.jigi
Computer RepresentaMon and ManipuloHon of Chemical
InformaHon, ed. Wipke, Heller, Feldman, Hyde,
J. Willey & Sons, New York, N.Y., 1974
R. Rogers, M.A.T. "CROSSBOVV", Proc. 158th National
Meeting of ACS, New York, N.Y., 1969
B.L. Zimmerman, Computer Generated Chemicol StruchJ-
ral Formulas with Standard Ring Orientafion, doktorska
disertacija University of Pennsylvanio, Philodelphia,1971
P.G. Ditfmar, J. Mockus, Jour.Chem.lnf.Comp.Sci.,
117 (1977), 186
J. Blake, N. Former, R. Haines, Jour. Chem. Inf. Comp;
Sci., 17 (1977), 223
H. SkoT^ik, Jour.Chem.lnf.Comp.Sci., \J_ (1977), 234
A. Sfuper, W. Brugger, P.C. Jurs, Compufer-assisfed
Studies of Chemical Structures and Biological FuncMon,
J. Wiley&Sons, New York, N.Y., 1979, poglavja
5,6,7
P.C. Jurs, T.L. Isenhour, Chemical Application of
Pattern Recognition, J.Willey & Sops, New York,
N.Y., 1975
J. VValls, Chemica! Reaction lndexing v knjigi Chemical
Information Systems, J.Willey & Sons, New York, ed.
Ash & Hyde, N.Y., 1975
V.V. Serov, M.E. Elyashberg, L.A. Gribov, J. Mol.
Str., 32 (1976), 381
G.R. Marshall, H.E. Bossard, R.A. Ellis, Computer
Handling of Chemical Structures: ApplicaHon in
Crys^allography, Conformational Analysis ond Drug
Design, v knjigi Computer RepresentaHon and Manipu-
laKon of Chemical Sfructures, ed Wipke, Heller,
Feldman, Hyde, J. Willey & Sons, New York, N.Y.,
1975
A. Sfuper, W. Brugger, P.C. Jurs, Computer-Assisl-ed
SH/dies of Chemical Structures and Biological FuncHon,
J. Willey & Sons, New York, N.Y., 1979, poglavje 8
M. Bersohn, M. Esock, Chemicai Reviev«, 76 (1976),
269 ~