Ugrás a tartalomhoz

Adatintenzív módszerek tudományos adatok kezelésére kozmológiai, térinformatikai és biológiai alkalmazásokkal

  • Metaadatok
Tartalom: http://hdl.handle.net/10831/51265
Archívum: EDIT
Gyűjtemény: Disszertációk (ELTE PHD)
Informatikai Kar PHD
Informatika Doktori Iskola
Cím:
Adatintenzív módszerek tudományos adatok kezelésére kozmológiai, térinformatikai és biológiai alkalmazásokkal
Létrehozó:
Szalai-Gindl, János Márk
Közreműködő:
Csabai, István
Dobos, László
Téma:
Műszaki tudományok/Informatikai tudományok
data-intensive methods
point cloud database
multi-dimensional histogram partitioning
load balancing
k nearest neighbors
box query
performance measures
Generalized Search Tree (GiST)
genome data
hierarchical Bayesian models
Markov chain Monte Carlo
general-purpose computing on graphics processing units (GPGPU)
Informatika D. I./Információs rendszerek
adatintenzív módszerek
pontfelhő-adatbázisok
többdimenziós hisztogram-partícionálás
terheléseloszlás
k legközelebbi szomszéd
doboz lekérdezés
teljesítménymértékek
általánosított keresőfa (GiST)
genom adatok
hierarchikus bayes-i modell
Markov-lánc Monte-Carlo
grafikai processzorok általános célú felhasználása (GPGPU)
Tartalmi leírás:
A doktori értekezésben az adatintenzív módszereket tárgyaltam alapvetően a tudományos adatok világára összpontosítva. Bár ezek részben vagy egészen vélhetően más olyan területeken is alkalmazhatók, ahol nagy mennyiségű adathalmazokkal kell dolgozni. A dolgozat nagyobb hányadában az adatok tárolásával és kezelésével foglalkoztam. Ezek mellett fontos összetevője volt a munkámnak egy összetettebb adatelemzési feladat is. Az (időben) statikus pontszerű adatok betöltése előtt elkészített hisztogram felhasználásával helyezik el az adatokat a megosztott tárhely nélküli szerverek rendszerére azok a módszerek, amelyeket az második fejezetben bemutattam. Ezek különböző technikákra épülnek úgy, mint lineáris programozás, spektrális klaszterezés és hierarchikus csempézés. A megközelítések más-más lekérdezéstípus feldolgozásának idejét gyorsítják meg, különféle szempontok szerint előnyösebbek. A hisztogramalapú adatelhelyezési stratégiáknak a teljesítmény szerinti összehasonlítására objektív mértékeket vezettem be. A teljesítménymértékekhez kapcsolódó néhány matematikai tulajdonságot is megvizsgáltam. Égető kérdés a bioinformatikában, hogy mit kezdjünk a legújabb szekvenálási technikák által létrehozott kolosszális mennyiségű adattal. A harmadik fejezet a DNS szekvenciák tárolásával, illetve indexelésével foglalkozott. A javasolt módszerem egy keresőfa, az ND-GiST, amelynek a PostgreSQL relációs adatbázis-kezelő rendszerre vonatkozó implementáció részleteire is kitérek. Továbbá azt is megvizsgáltam, hogy ha statikus adatokat kell tárolni az ND-GiST-ben, akkor hogyan kell úgy csoportosítani a rekordokat és felépíteni fölé a keresőfát, hogy bizonyos lekérdezéstípust minél gyorsabban szolgáljon ki. A futtatási eredmények megmutatták, hogy a teljes tábla vizsgálathoz és a tradicionális B-fához képest miben erősebb, miben gyengébb az ND-GiST. A negyedik fejezetben bemutattam egy hierarchikus bayes-i modellt, továbbá a CUDAHM-et, amely a CUDA-ra, azaz az NVIDIA GPU-khoz tartozó párhuzamos számítási platformra épülő hierarchikus modellezési keretrendszer. Ezt felhasználtam a luminozitásfüggvény paramétereinek becslésére, és összehasonlítottam a maximum likelihood módszer eredményével. A fejezet végén még teljesítménytesztek is találhatók, amelyek mutatják a futásidő objektumszámmal való lineáris skálázódását.
Nyelv:
magyar
angol
magyar
Típus:
info:eu-repo/semantics/doctoralThesis
Formátum:
application/pdf
application/pdf
application/pdf
Azonosító:
elte:10.15476/ELTE.2020.001
elte:32476618
Létrehozó:
info:eu-repo/semantics/openAccess