Behavioral features of the speech signal as part of improving the effectiveness of the automatic speaker recognition system

Obecna rzeczywistość nasycona jest inteligentnymi rozwiązaniami telekomunikacyjnymi, a systemy automatycznego rozpoznawania mówcy są nieodłącznym elementem wielu z nich. Wykorzystywane one są powszechnie w takich sektorach jak bankowość, telekomunikacja czy kryminalistyka. Łatwość przeprowadzenia automatycznej analizy i sprawnej ekstrakcji dystynktywnych cech ludzkiego głosu umożliwia identyfikację, weryfikację, a także autoryzację badanego mówcy. Aktualnie znacząca większość rozwiązań w dziedzinie systemów rozpoznawania mówcy opiera się na cechach dystynktywnych wynikających z budowy traktu głosowego mówcy (analiza dźwięku krtaniowego), zwanych cechami fizycznymi głosu. Pomimo wysokiej sprawności takich systemów – oscylującej w granicach powyżej 95% – ich dalszy rozwój jest już bardzo utrudniony, co wynika z faktu wyczerpania możliwości dystynktywnych cech fizycznych. Dalsze możliwości zwiększania skuteczności systemów ASR opartych na cechach fizycznych pojawiają się po dodatkowym uwzględnieniu w systemie behawioralnych cech sygnału mowy, co jest przedmiotem niniejszego artykułu.

https://doi.org/10.37105/iboa.187

pdf (English)

Bibliografia

1. Dobrowolski A. (2018), Transformacje sygnałów: od teorii do praktyki, Legionowo,
2. Dobrowolski A., Majda E. (2011), Cepstral analysis in the speakers recognition systems, 15th Conference on Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA), pp. 85-90, Poznań,
3. Dobrowolski A., Majda E. (2012), Application of homomorphic methods of speech signal processing in speakers recognition system, Przegląd Elektrotechniczny, R. 88 NR 6/2012, pp. 12-16
4. Jaroszyk F. (2008), Biofizyka Podręcznik dla studentów, Warszawa, Wydawnictwo Lekarskie PZWL,
5. Kamiński K., Dobrowolski A. (2022), Automatic speaker recognition system based on gaussian mixture models, cepstral analysis and genetic selection of distinctive features, Sensors, 22(23), 9370, DOI: 10.3390/s22239370
6. Reddy Gade V. S. and Sumathi M. (2021), A Comprehensive Study on Automatic Speaker Recognition by using Deep Learning Techniques, 2021 5th International Conference on Trends in Electronics and Informatics (ICOEI), Tirunelveli, India, pp. 1591-1597,
7. Tirumala S. S., Shahamiri S. R., Garhwal A. S., Wang R. (2017), Speaker identification features extraction methods: A systematic review, Expert Systems With Applications, 90, pp. 250–271, DOI: 10.1016/j.eswa.2017.08.015
8. Woźniak T., Soboń J. (2015), Ocena płynności mówienia, Nowa Audiofonologia, 4(4), pp. 9–19, DOI: 10.17431/894809

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Na tych samych warunkach 4.0 Miedzynarodowe.