Koordinator projekta: dr. Nada Lavrač, IJS
Koordinator za NIB: prof. dr. Metka Filipič
Trajanje: 1. 8. 2013 - 31. 7. 2016
Povzetek
Odkrivanje znanja v podatkovnih bazah je področje računalništva, ki se ukvarja z avtomatskim preiskovanjem velikih količin podatkov z namenom odkrivanja novih hipotez v obliki modelov in vzorcev, odkritih v podatkih. Odkriti modeli ali vzorci so še posebej zanimivi, če so nepričakovani ali pa če prispevajo k potrditvi še nedokazanih hipotez. Pomanjkljivost sedanjih javno dostopnih platform za rudarjenje podatkov in odkrivanje znanja je njihova zmožnost obravnave le preprostih tabelaričnih podatkov. Zaradi vse večjega pojava pol-strukturirani heterogenih in distribuiranih podatkov pa je namen predlaganega projekta SemDM odpraviti to ključno pomanjkljivost in izboljšati trenutno razpoložljive platforme za rudarjenje podatkov z zmožnostjo obravnave distribuiranih, heterogenih informacija in virov znanja, ki so potrebni za analizo podatkov v domenah, ki temeljijo na intenzivni uporabi heterogenih informacij in znanja. Cilji projekta so naslednji: - Razvoj novih algoritmov za semantično rudarjenje podatkov (SemDM), ki bodo omogočili odkrivanje znanja v heterogenih (strukturiranih, pol-strukturiranih in nestrukturiranih) in distribuiranih podatkih in virih znanja, vključno s semantično anotiranimi podatki, ki se nahajajo v javno dostopnih ontologijah (Gene ontologija in drugi viri, ki so na voljo v Linked Open Data oblaku). - Razvoj nove platforme za rudarjenje podatkov ClowdFlows, ki bo nadgradila našo nedavno razvito platformo Orange4WS. Nova platforma bo omogočala v samem brskalniku kreiranje inovativnih delotokov in sicer iz lokalnih in distribuiranih servisov za procesiranje in rudarjenje podatkov. - Demonstrirati in oceniti uporabnost predlaganega servisno-orientiranega pristopa za semantično rudarjenje z aplikacijo na izbranih domenah: predvsem za analizo podatkov na področju raka dojk, druga pa za odkrivanje podtipov bolnikov z možganskim tumorjem (gliomo) za validacijo novo odkritih molekularnih označevalcev. V študiji primera bolnikov z gliomo bomo raziskovalci IJS in NIB poskusili priti do novih odkritij o glioblastomi (GBM), najpogostejši in najbolj agresivni oblika raka glioma. V zadnjem času je bilo predlaganih več biomarkerjev za prognozo in predvidevanje odzivnosti pacienta na določeno terapijo, vendar pa zaenkrat ti še niso bili uporabljeni v terapevtske namene. Razvozlati je potrebno interaktivne odnose med vpletenimi geni, kar bo omogočilo hitrejšo in natančnejšo diagnostiko stopnje tumorja in prognozo za posameznega pacienta. To lahko dosežemo s sistemskim pristopom k biologiji, ki temelji na odkrivanju podskupin pacientov z GBM, najverjetneje glede na njihove izvorne (matične) celice ter njihovo infiltracijo, kar se kaže v značilnih vzorcih napredovanja tumorja. Projekt bo prispeval k razvoju novih semantičnih algoritmov za podatkovno rudarjenje, k izboljšanju njihove javne dostopnosti s pomočjo spletne platforme ClowdFlows in k odkrivanju novega znanja na področju medicine in bioinformatike. Delo se bo izvajalo v sodelovanju med strokovnjaki s področja podatkovnega rudarjenja z Instituta Jožef Stefan (IJS) ter z domenskimi strokovnjaki z Nacionalnega inštituta za biologijo (NIB).
Pomen za razvoj znanosti
Projekt želi razviti orodja in postopke, ki bi pomagali znanstvenikom pri čedalje težji nalogi odkrivanja in združevanja heterogenega in distribuiranega znanja. Reševanje tega problema zahteva razvoj nove računalniške paradigme, ki integrira ideje iz različnih področij. Ustrezna rešitev tega problema bodo nove tehnologije, pomembne za vrsto aplikacij, med katerimi so nekatere omenjene tudi v 7.OP EU IKT programu, npr. Izziv 4 o inteligentnih vsebinah in Izziv 5 o zdravstvenem varstvu. Tu gre tudi za vprašanja ustvarjanja in upravljanja znanja, toda SemDM sega še dlje z asistenco uporabnikom, zlasti znanstvenikom, pri odkrivanju znanja iz distribuiranih virov informacij. Projekt bo razvil poenoten teoretični okvirj za semantično rudarjenje podatkov, nove algoritme in nov pristop za interaktivno formulacijo in izboljševanje delotokov za odkrivanje znanja. Predlagani projekt rešuje odprt problem kar ima visok znanstveni in tehnološki potencial. Uspešni rezultati SemDM projekta lahko doprinesejo k evropski industriji znanja, kar bi jo naredilo bolj učinkovito in konkurenčno. Izzivov s katerimi se bomo srečali v SemDM projektu ne moremo obravnavati s katerokoli drugo znano IKT tehnologijo ali katero od njenih izboljšav, saj SemDM predstavlja nov pristop k zlivanju informacij in odkrivanju znanja. Za uspešno reševanje izzivov s tega področja pa je potrebno sodelovanje ekspertov z različnih področij. Uspešni rezulatati projekta bodo imeli tako v prvi vrsti močan vpliv na tehnologijo rudarjenja podatkov in s tem na znanost. Dolgoročno pa lahko vplivajo na evropski privatni in javni sektor pri analizi javnih podatkov. SemDM ima potencial za uveljavitev nove teoretične in metodološke paradigme za upravljanje z informacijami in znanjem, ter njihovega odkrivanja, zlivanja in razumevanja. SemDM prototip pa predstavlja močno znanstveno in tehnološko osnovo tudi za širše interdisciplinarne raziskave in za razvoj metodologij do takega nivoja, ki bo zanimiv tudi za investitorje iz industrije, predvsem s področja biotehnologije in farmacije.