Ugrás a tartalomhoz

Szerzőazonosítás Jacob és Wilhelm Grimm zajos, digitalizált levelezésében

  • Metaadatok
Tartalom: https://ojs.elte.hu/digitalisbolcseszet/article/view/3144
Archívum: Digitális Bölcsészet
Gyűjtemény: Tanulmányok
Cím:
Attributing Authorship in the Noisy Digitized Correspondence of Jacob and Wilhelm Grimm
Szerzőazonosítás Jacob és Wilhelm Grimm zajos, digitalizált levelezésében
Létrehozó:
Franzini, Greta
Kestemont, Mike
Rotari, Gabriela
Jander, Melina
Ochab, Jeremi K.
Franzini, Emily
Byszuk, Joanna
Rybicki, Jan
Kiadó:
Bakonyi Géza Alapítvány, ELTE BTK Régi Magyar Irodalom Tanszék
Dátum:
2021-12-31
Téma:
stilometria
szerzőazonosítás
német irodalom
Grimm
digitalizáció
OCR
HTR
Tartalmi leírás:
Az alábbi cikk egy multidiszciplináris projekt eredményeit mutatja be, amely a különböző digitalizációs stratégiák számítógépes szöveganalízisben való használhatóságát járja körül. Pontosabban Jacob és Wilhelm Grimm szerzőségének automatizált megkülönböztetésére tettünk kísérletet, melyet egy HTR (HandwrittenText Recognition – kézzel írott szöveg felismerése) és OCR (Optical Character Recognition – optikai karakterfelismerés) által feldolgozott levelezéskorpuszban hajtottunk végre, korrekció nélkül – felmérve, hogy az így keletkezett zaj milyen hatással van a fivérek különböző írásmódjának azonosítására. Összegezve,úgy tűnik, hogy az OCR megbízható helyettesítője lehet a manuális átírásnak, legalábbis a szerzőazonosítás kérdéskörét illetően. Eredményeink továbbá abba az irányba mutatnak, miszerint még a különböző digitalizációs eljárásokból származó tanító- és tesztkorpuszok (training and test set) is használhatók a szerzőazonosítás során. A HTR-t tekintve a kutatás azt demonstrálja, hogy ez az automatizált átírás ugyan az OCR-hez képest szignifikánsan növeli a szövegek félrecsoportosításának veszélyét, ám körülbelül 20% feletti tisztaság már önmagában elegendő ahhoz, hogy a véletlennél nagyobb esélye legyen a helyes binárismegfeleltetésnek.
Nyelv:
magyar
angol
Típus:
info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Lektorált közlemény
Formátum:
application/pdf
application/zip
application/zip
application/zip
text/plain
text/plain
Azonosító:
10.31400/dh-hun.2021.5.3144
Forrás:
Digitális Bölcsészet; szám 5 (2021): A krakkói Computational Stylistics Group (Különszám); T:39-T:68
2630-9696
10.31400/dh-hun.2021.5
Kapcsolat:
Létrehozó:
Copyright (c) 2021 a szerző(k)