Kereső
Bejelentkezés
Kapcsolat
![]() |
Artikulációs beszédszintézis megvalósítása dinamikus ultrahangfelvételek alapján |
Tartalom: | https://ojs.mtak.hu/index.php/besztud/article/view/17316 |
---|---|
Archívum: | Beszédtudomány - Speech Science |
Gyűjtemény: | Módszerek és tutoriálok |
Cím: |
Artikulációs beszédszintézis megvalósítása dinamikus ultrahangfelvételek alapján
|
Létrehozó: |
Trencsényi, Réka
Czap, László
|
Kiadó: |
HUN-REN Hungarian Research Centre for Linguistics
|
Dátum: |
2025-04-15
|
Téma: |
beszédszintézis, akusztikus csőmodell, lineáris predikciós kódolás, neurális hálózatok, anatómiai kontúrkövetés, ultrahangfelvételek
|
Tartalmi leírás: |
Starting from 2D dynamic ultrasound sources recording the movement of the vocal organs and the speech signal of the speaker in a simultaneous and synchronised manner, we produce machine speech by means of artificial intelligence. As visual objects, we use tongue and palate contours fitted automatically to the anatomic boundaries of the ultrasound images, and for training, we extract geometric information from these contours, as the change of their shape fundamentally describes the movement of the vocal organs during articulation. The geometric data consist of radial distances between the tongue and palate contours and coefficients of the discrete cosine transform of the curves, respectively. Relying on this dataset, parameters connected to the acoustic content of the speech signal are trained by the network. These parameters can be interpreted in the framework of the acoustic tube model of the vocal tract, and according to this, reflection coefficients and areas of the articulation channel are to be trained. In this study, sentences are synthesised using linear predictive coding and the acoustic tube model.
|
Nyelv: |
magyar
|
Típus: |
info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
|
Formátum: |
application/pdf
|
Azonosító: |
10.15775/Besztud.2025.1.90-116
|
Forrás: |
Beszédtudomány - Speech Science; Évf. 5 szám 1 (2025): Beszédtudomány - Speech Science; 90-116
2732-3773
10.15775/Besztud.2025.1
|
Kapcsolat: |