Perpustakaan untuk pengesanan aktiviti suara (bukan pengiktirafan pertuturan)

Apakah tujuan pengesanan aktiviti suara dalam sistem pertuturan?
Bagaimana WebRTC VAD berfungsi?

Apakah tujuan pengesanan aktiviti suara dalam sistem pertuturan?

Vad, juga dikenali sebagai pengesanan ucapan, bertujuan untuk mengesan kehadiran atau ketiadaan ucapan dan membezakan ucapan dari bahagian bukan ucapan. Penting dalam pelbagai aplikasi berasaskan ucapan, terutamanya dalam pengekodan ucapan dan pengiktirafan pertuturan.

Bagaimana WebRTC VAD berfungsi?

WebRTC memisahkan audio ke dalam bingkai, setiap bingkai mempunyai nombor yang sepadan (0 atau 1). Kami menggunakan bingkai 30ms untuk WebRTC, jadi setiap 250 ms bahagian dibahagikan kepada 8 bingkai, nilai min mereka digunakan sebagai treshold untuk plot.