Detecția Dacă se Vorbește, din Sunet

Domeniu: Electronică

Conține 2 fișiere: doc, ppt

Pagini : 96 în total

Cuvinte : 14288

Mărime: 1.63MB (arhivat)

Publicat de: Adonis Ciocan

Puncte necesare: 12

Profesor îndrumător / Prezentat Profesorului: Cristian Negrescu

UNIVERSITATEA "POLITEHNICA" BUCUREŞTI FACULTATEA DE ELECTRONICĂ, TELECOMUNICAŢII ŞI TEHNOLOGIA INFORMAŢIEI

Descarcă acum

Cuprins Extras Bibliografie Preview

Cuprins

Cuprins
Introducere în temă 4
Capitolul I. Spectrul benzii vocale şi fenomenul de generare a vocii 5
1.1. Spectrul benzii vocale 5
1.2 Generarea vocii 8
1.2.1 Teoria acustică 9
1.2.2 Interpretarea vibraţiilor coardei vocale 10
1.2.3 Interpretarea sub formă de unde a coardelor vocale 11
1.2.4 Aproximarea multitub pentru tractul vocal 15
Capitolul II. Filtre. Modelul matematic şi modul de funcţionare 17
2.1 Reprezentarea digitală a semnalului vocal 17
2.2 Blocul de preprocesare 19
2.3 Filtre RFI cu fază liniară 21
2.4 Poziţionarea în planul Z a zerourilor funcţiei de transfer 23
2.5 Proiectarea filtrelor RFI cu fază liniară 24
2.6 Filtre cu răspuns infinit la impuls 28
2.6.1 Proiectarea indirectă a filtrelor RII 29
2.6.2 Metoda invarianţei răspunsului la impuls 30
2.6.3 Metoda transformării biliniare 32
2.7 Proiectarea indirectă a filtrelor digitale RII folosind funcţii MATLAB 33
2.7.1. Proiectarea filtrelor analogice 33
2.8 Transformarea funcţiei de transfer a filtrului analogic în funcţia de transfer echivalentă ca performanţe a filtrului digital 43
Capitolul III. Partea practică, descriera şi interpretarea rezultatelor 46
3.1. Implementarea filtrelor 47
3.2 Testarea filtrelor 52
3.3 Filtrarea şi detecţia vocii 56
Capitolul IV. Concluzii 63
Anexă 64
Bibliografie 78

Extras din proiect

Introducere în temă

Lucrarea de faţă îşi propune să analizeze semnalele vocale, să filtreze şi să detecteze aceste semnale astfel încât la final să avem o detecţie de voce umana.

Intr-o situaţie reala vocea umana, în cele mai multe cazuri nu este pura. Ea este frecvent însoţita de zgomot. Zgomotul dacă depăşeşte anumiţi parametrii devine supărător şi poate chiar să disturbe în mod serios o conversaţie, ducând chiar la o lipsa de inteligibilitate dacă zgomotul se regăseşte intr-un alt domeniu de frecvente, altul decât cel în care se afla vocea umana, atunci el poate fi înlăturat.

Detecţia de voce este frecvent utilizată în sistemele de supraveghere şi în spionaj, în situaţii reale în care serviciile de spionaj încearcă să intercepteze o conversaţie intre doua sau mai multe persoane aflate în apropierea unor surse de zgomot. Intercepţia se face cu ajutorul camerelor video şi a microfoanelor dotate cu funcţii de detecţie de voce, plasate în apropiere. dacă în timpul discuţiei, zgomotul produs este puternic, poate disturba în mod serios discuţia, ajungând chiar la situaţia de neînţelegere a conversaţiei. Dar cu ajutorul algoritmilor de filtrare putem să înlăturam o mare parte din zgomot şi retine doar vocea.

Lucrarea este împărţită în patru capitole.

In capitolul 1 este prezentat fenomenul de generare a vocii umane şi studiul frecventelor în care se situează banda vocala, fiind interpretate din punct de vedere fizic, pentru a putea fi studiate.

In capitolul 2 sunt prezentate filtrele, modelul matematic pe care se bazează şi modul în care funcţionează. Operaţiunea de filtrare reprezintă blocul principal din detecţia de voce, el ajutând la eliminarea de semnale inutile(din afara benzii vocale) şi de zgomot. Tot în capitolul 2 se găseşte algoritmul de detecţie de voce.

In capitolul 3 este prezentata partea practica a lucrării, aici regăsindu-se rezultatele programului şi interpretarea lor.

In capitolul 4 se regăsesc concluziile lucrării şi dispozitive pe care se pot implementa algoritmi de detecţie a vocii.

Totodată lucrarea mai conţine o anexa cu codul programului scris în Matlab.

Capitolul I

Spectrul benzii vocale şi fenomenul de generare a vocii

1.1. Spectrul benzii vocale

Frecvenţa sunetului este măsurata în Hertzi (Hz), însemnând cicluri pe secunda. Urechea umană percepe sunete cu frecvenţă cuprinsa intre 20 Hz şi 20 KHz în cazuri extreme.

Vocea umană în mod generic produce sunete cu frecvenţa cuprinsa intre 80 Hz şi 4 KHz. Conform unei vechi teori a lui Henry Nyquist emisa în anul 1917 şi rămasa valabila şi astăzi frecvenţa de eşantionare a semnalului audio trebuie să fie dubla fata de frecvenţa maximă Ca atare se foloseşte în mod constant o frecvenţă de eşantionare de 8 KHz. În anumite situaţii se poate folosi şi o frecvenţă de eşantionare de 5 KHz deoarece frecvenţele fundamentale în domeniul vocii umane se afla sub 2,5 KHz. Telefonia în general utilizează o frecvenţă maximă de 3,1 KHz(300-3400 KHz)

Un semnal audio analog are o amplitudine a cărei valoare se schimba continuu. Prin codarea în format digital valoarea amplitudinii este măsurata la intervale regulate, operaţiunea este numita eşantionare sau sampling.

Lărgimea de banda necesară unei transmiteri de semnal audio depinde în mod capital de rata de eşantionare şi de sistemul de compresare (arhivare) a informaţiei.

Deşi încadrat, de asemenea, într-un număr de categorii fixe, timbrul vocal este mult mai particularizat pentru fiecare individ. Acest fapt se explică printr-un control mai precis al intonaţiei, articulaţiei ş.a.m.d., vocea fiind ghidată nemijlocit de starea organismului.

Vocea umană variază ca frecvenţă între 80-6000 Hz, înregistrându-se variaţii de la vocea copiilor, la cea a femeilor, la cea a bărbaţilor. În general pentru vocea umana, componentele de baza, variază în intervalul 300 Hz până la 3000 Hz.

Ne va interesa ca să înregistrăm atât frecvenţa fundamentală cât şi cele mai relevante armonice superioare pentru aceste frecvenţe. Studiile au stabilit că exista informaţie folosibilă pentru frecvenţe până la 3400 Hz. Astfel tot ce se va găsi mai sus de această frecvenţă va fi filtrat. După ce am stabilit frecvenţa maxima ce ne interesează, vom calcula perioada de eşantionare folosind teorema Shannon.

Dacă nu se respectă legea de mai sus, armonicele semnalului primit se vor întrepătrunde, astfel încât identificarea lor şi recuperarea lor individuală nu se va mai putea realiza exact (fenomenul se numeşte aliasing).

Pe lângă această eşantionare în timp, mai trebuie executată una în tensiune pentru a determina discret mărimea semnalului la fiecare moment de timp.