Kereső
Bejelentkezés
Kapcsolat
A Digitális Örökség Nemzeti Laboratórium webszolgáltatásai automatikus kézírás-felismertetéshez |
| Tartalom: | http://ocs.mtak.hu/index.php/nws/2023/paper/view/152 |
|---|---|
| Archívum: | NETWORKSHOP |
| Gyűjtemény: | Tanulmányok |
| Cím: |
A Digitális Örökség Nemzeti Laboratórium webszolgáltatásai automatikus kézírás-felismertetéshez
|
| Létrehozó: |
Gábor Palkó; Eötvös Loránd Tudományegyetem, Digitális Bölcsészet Tanszék
István Szekrényes; <p>Eötvös Loránd Tudományegyetem, Digitális Bölcsészet Tanszék</p><p>Debreceni Egyetem, Filozófia Intézet</p>
Barbara Bobák; Bölcsészettudományi Kutatóközpont, Irodalomtudományi Intézet, DigiPhil
|
| Kiadó: |
NETWORKSHOP
|
| Dátum: |
2023-12-16 13:22:31
|
| Tartalmi leírás: |
Fejlesztési projektünk célja, hogy a csak kézírásos formában elérhető gyűjtemények feldolgozásához egy olyan ingyenesen használható, nyílt hozzáférésű eszközökre épülő platformot biztosítson, amellyel az eredetileg képként tárolt anyagokból kereshető, digitális feldolgozásra valóban alkalmas dokumentumok hozhatók létre. A kézírás felismertetésére a TrOCR eszközhöz elérhető alapmodelleket finomhangoltunk magyar, illetve latin nyelvre a Transcribus szolgáltatásával összehasonlítható eredménnyel. Jelenleg három modell áll rendelkezésre: a 900 oldalnyi, többszerzős Arany János levelezésen és hivatali iratokon tanított modell magyar nyelvű szövegekhez, a Rerum Ungaricarum Libri korpusz 200 oldalán tanított modell latin nyelvű kódexekhez, a Magyar Nemzeti Levéltártól kapott 200 oldalnyi anyagon tanított modell pedig levéltári iratok feldolgozásához. A szolgáltatás egy webes interfészen és Rest API-n keresztül is igénybe vehető.Kulcsszavak: kézírás-felismertetés, TrOCR, Kraken, Alto-XML Web services of the Digital Heritage National Laboratory for automatic handwriting recognitionThe aim of the development project is to provide a free and open-access platform for processing collections available only in handwritten form. This platform enables the creation of searchable and digitally processable documents from materials originally stored as images. We fine-tuned basic models available in the TrOCR tool for handwriting recognition in Hungarian and Latin languages, with results comparable to the Transcribus service. Currently, three models are available: one trained on a 900-page, multi-author collection of correspondence and official documents by Arany János for Hungarian texts, one trained on 200 pages of the Rerum Ungaricarum Libri corpus for Latin codices, and one trained on 200 pages of archival documents obtained from the Hungarian National Archives. The service can be accessed through a web interface and via a REST API.Keywords: HTR, TrOCR, Kraken, Alto-XML https://doi.org/10.31915/NWS.2023.24
|
| Nyelv: |
magyar
|
| Típus: |
Peer-reviewed Paper
|
| Formátum: |
application/pdf
|
| Azonosító: | |
| Forrás: |
NETWORKSHOP; NETWORKSHOP 2023
|
| Létrehozó: |
Authors who submit to this conference agree to the following terms:<br/>
<strong>a)</strong> Authors retain copyright over their work, while allowing the conference to place this unpublished work under a <a href="http://creativecommons.org/licenses/by/3.0/">Creative Commons Attribution License</a>, which allows others to freely access, use, and share the work, with an acknowledgement of the work's authorship and its initial presentation at this conference.<br/>
<strong>b)</strong> Authors are able to waive the terms of the CC license and enter into separate, additional contractual arrangements for the non-exclusive distribution and subsequent publication of this work (e.g., publish a revised version in a journal, post it to an institutional repository or publish it in a book), with an acknowledgement of its initial presentation at this conference.<br/>
<strong>c)</strong> In addition, authors are encouraged to post and share their work online (e.g., in institutional repositories or on their website) at any point before and after the conference.
|