An acoustic signal based language independent lip synchronization method and its implementation via extended LPC
Yükleniyor...
Tarih
2020
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
IEEE
Erişim Hakkı
info:eu-repo/semantics/closedAccess
Özet
Processing human speech with the use of digital technologies leads to several important fields of research. Speech-to-text and lip-syncing are among the instances of relevant prominent research areas. In this regard, audio-visualization of acoustic signals, providing visual aid in real-time for disabled people, and realization of text-free animation applications are just to name a few. Therefore, in this study, a language-independent lip-sync method that is based on extended linear predictive coding is proposed. The proposed method operates on baseband electrical signal that is acquired by a standard single-channel off-the-shelf microphone and exploits the statistical characteristics of acoustic signals produced by human speech. In addition, the proposed method is implemented on an embedded system, tested, and its performance is evaluated. Results are given along with discussions and future directions.
Konuşmanın sayısal teknolojiler yardımı ile işlenmesi birçok önemli araştırma alanının ortaya çıkmasına yol açmıştır. Konuşmanın metne çevrilmesi ve sentetik olarak üretilmiş dudak biçimleri ile eşzamanlılaştırılması söz konusu araştırma alanlarından öne çıkanlar arasındadır. Bahsi geçen alanlara ilişkin hizmetler arasında seslerin işitsel destekle görselleştirilmesi, engelliler için gerçek–zamanlı görsel yardım sağlanması ve metinden bağımsız animasyonların üretilmesi sayılabilir. Yukarıdaki bağlamdan hareketle, bu çalışmada, genişletilmiş¸ doğrusal tahmin kodlama aracılığı ile dilden bağımsız olarak çalışan bir ses–dudak şekli eşleştirme yöntemi ortaya konmuştur. Önerilen yöntem standart tek kanallı bir mikrofon aracılığı ile elde edilmiş temel banttaki elektriksel işaretler üzerinde çalışmakta ve konuşma ile üretilen akustik işaretlerin istatistiksel yapısından yararlanmaktadır. Ayrıca, önerilen yöntem bir gömülü sistem aracılığıyla gerçeklenmiş, test edilmiş ve başarımı değerlendirilmiştir. Sonuçlar, tartışmalar ve geleceğe yönelik çalışmalar ile birlikte sunulmuştur.
Konuşmanın sayısal teknolojiler yardımı ile işlenmesi birçok önemli araştırma alanının ortaya çıkmasına yol açmıştır. Konuşmanın metne çevrilmesi ve sentetik olarak üretilmiş dudak biçimleri ile eşzamanlılaştırılması söz konusu araştırma alanlarından öne çıkanlar arasındadır. Bahsi geçen alanlara ilişkin hizmetler arasında seslerin işitsel destekle görselleştirilmesi, engelliler için gerçek–zamanlı görsel yardım sağlanması ve metinden bağımsız animasyonların üretilmesi sayılabilir. Yukarıdaki bağlamdan hareketle, bu çalışmada, genişletilmiş¸ doğrusal tahmin kodlama aracılığı ile dilden bağımsız olarak çalışan bir ses–dudak şekli eşleştirme yöntemi ortaya konmuştur. Önerilen yöntem standart tek kanallı bir mikrofon aracılığı ile elde edilmiş temel banttaki elektriksel işaretler üzerinde çalışmakta ve konuşma ile üretilen akustik işaretlerin istatistiksel yapısından yararlanmaktadır. Ayrıca, önerilen yöntem bir gömülü sistem aracılığıyla gerçeklenmiş, test edilmiş ve başarımı değerlendirilmiştir. Sonuçlar, tartışmalar ve geleceğe yönelik çalışmalar ile birlikte sunulmuştur.
Açıklama
28th Signal Processing and Communications Applications Conference (SIU) -- OCT 05-07, 2020 -- ELECTR NETWORK
Anahtar Kelimeler
Formant Frequency, Linear Predictive Coding, Lip Sync, Belirleyici Frekans, Doğrusal Tahmin Kodlama, Dudak Hareket Eşzamanlılaştırma
Kaynak
2020 28th Signal Processing And Communications Applications Conference (Siu)
WoS Q Değeri
N/A
Scopus Q Değeri
N/A