Kereső
Bejelentkezés
Kapcsolat
Adatintenzív módszerek tudományos adatok kezelésére kozmológiai, térinformatikai és biológiai alkalmazásokkal |
Tartalom: | http://hdl.handle.net/10831/51265 |
---|---|
Archívum: | EDIT |
Gyűjtemény: |
Disszertációk (ELTE PHD)
Informatikai Kar PHD Informatika Doktori Iskola |
Cím: |
Adatintenzív módszerek tudományos adatok kezelésére kozmológiai, térinformatikai és biológiai alkalmazásokkal
|
Létrehozó: |
Szalai-Gindl, János Márk
|
Közreműködő: |
Csabai, István
Dobos, László
|
Téma: |
Műszaki tudományok/Informatikai tudományok
data-intensive methods
point cloud database
multi-dimensional histogram partitioning
load balancing
k nearest neighbors
box query
performance measures
Generalized Search Tree (GiST)
genome data
hierarchical Bayesian models
Markov chain Monte Carlo
general-purpose computing on graphics processing units (GPGPU)
Informatika D. I./Információs rendszerek
adatintenzív módszerek
pontfelhő-adatbázisok
többdimenziós hisztogram-partícionálás
terheléseloszlás
k legközelebbi szomszéd
doboz lekérdezés
teljesítménymértékek
általánosított keresőfa (GiST)
genom adatok
hierarchikus bayes-i modell
Markov-lánc Monte-Carlo
grafikai processzorok általános célú felhasználása (GPGPU)
|
Tartalmi leírás: |
A doktori értekezésben az adatintenzív módszereket tárgyaltam alapvetően a tudományos adatok világára összpontosítva. Bár ezek részben vagy egészen vélhetően más olyan területeken is alkalmazhatók, ahol nagy mennyiségű adathalmazokkal kell dolgozni. A dolgozat nagyobb hányadában az adatok tárolásával és kezelésével foglalkoztam. Ezek mellett fontos összetevője volt a munkámnak egy összetettebb adatelemzési feladat is.
Az (időben) statikus pontszerű adatok betöltése előtt elkészített hisztogram felhasználásával helyezik el az adatokat a megosztott tárhely nélküli szerverek rendszerére azok a módszerek, amelyeket az második fejezetben bemutattam. Ezek különböző technikákra épülnek úgy, mint lineáris programozás, spektrális klaszterezés és hierarchikus csempézés. A megközelítések más-más lekérdezéstípus feldolgozásának idejét gyorsítják meg, különféle szempontok szerint előnyösebbek. A hisztogramalapú adatelhelyezési stratégiáknak a teljesítmény szerinti összehasonlítására objektív mértékeket vezettem be. A teljesítménymértékekhez kapcsolódó néhány matematikai tulajdonságot is megvizsgáltam.
Égető kérdés a bioinformatikában, hogy mit kezdjünk a legújabb szekvenálási technikák által létrehozott kolosszális mennyiségű adattal. A harmadik fejezet a DNS szekvenciák tárolásával, illetve indexelésével foglalkozott. A javasolt módszerem egy keresőfa, az ND-GiST, amelynek a PostgreSQL relációs adatbázis-kezelő rendszerre vonatkozó implementáció részleteire is kitérek. Továbbá azt is megvizsgáltam, hogy ha statikus adatokat kell tárolni az ND-GiST-ben, akkor hogyan kell úgy csoportosítani a rekordokat és felépíteni fölé a keresőfát, hogy bizonyos lekérdezéstípust minél gyorsabban szolgáljon ki. A futtatási eredmények megmutatták, hogy a teljes tábla vizsgálathoz és a tradicionális B-fához képest miben erősebb, miben gyengébb az ND-GiST.
A negyedik fejezetben bemutattam egy hierarchikus bayes-i modellt, továbbá a CUDAHM-et, amely a CUDA-ra, azaz az NVIDIA GPU-khoz tartozó párhuzamos számítási platformra épülő hierarchikus modellezési keretrendszer. Ezt felhasználtam a luminozitásfüggvény paramétereinek becslésére, és összehasonlítottam a maximum likelihood módszer eredményével. A fejezet végén még teljesítménytesztek is találhatók, amelyek mutatják a futásidő objektumszámmal való lineáris skálázódását.
|
Nyelv: |
magyar
angol
magyar
|
Típus: |
info:eu-repo/semantics/doctoralThesis
|
Formátum: |
application/pdf
application/pdf
application/pdf
|
Azonosító: |
elte:10.15476/ELTE.2020.001
elte:32476618
|
Létrehozó: |
info:eu-repo/semantics/openAccess
|