Cuprins
- 1. Capitol I Domeniile tehnologiei vorbirii
- 1.1 Introducere
- 1.2 Recunoaşterea automată a vorbirii
- 1.3 Sinteza automată a vorbirii
- 1.4. Codarea vorbirii
- 1.5. Inţelegerea automată a vorbirii
- 1.6. Recunoaşterea automată a vorbitorului
- 2. Capitol II Scurt istoric al domeniului recunoaşterii vorbirii
- 2.1. Evoluţia in lume
- 3. Capitolul III Metodele de realizare sintezei vorbirii
- 3.1 Metoda de codare-restabilire directă
- 3.2 Modulaţia Delta
- 3.3 Sinteza de format
- 3.4 Sinteza digitală fonemică
- 3.5 Sinteza vorbirii cu ajutorul coeficienţilor de predicţie liniară (КЛП)
- 4. Bibliografia
Extras din referat
Capitol I Domeniile tehnologiei vorbirii
1.1 Introducere
Incă din cele mai vechi timpuri comunicarea prin voce a reprezentat modalitatea dominantă prin care oamenii au creat legături sociale şi au schimbat informaţie. In zilele noastre, limbajul vorbit este răspandit cu ajutorul mass-media şi reprezintă incă principalul mijloc de informare a oamenilor.
Dacă pană nu demult limbajul vorbit reprezenta o modalitate de interacţiune subiect uman – subiect uman, odată cu dezvoltarea microelectronicii şi cu creşterea accesibilităţii tehnicii de calcul, comunicarea prin voce devine un mijloc de comunicare intre subiectul uman şi maşina de calcul.
Din păcate, din cauza limitărilor tehnologice in ceea ce priveşte implementarea comunicării prin voce la nivelul calculatoarelor electronice, nu se poate incă spune că limbajul vorbit poate inlocui total modalităţile tradiţionale de interacţiune om – maşină, precum interfeţele grafice acţionate cu ajutorul claviaturilor sau altor dispozitive specifice. Dacă astăzi incă interfeţele grafice reprezintă modalitatea predilectă de interacţiune om – calculator, este de aşteptat ca acestea să poată fi in totalitate inlocuite prin interfeţe vocale.
Inlocuirea interfeţelor grafice prin interfeţe comandate prin voce este de dorit din mai multe motive, printre care şi acela că interfeţele grafice actuale, oricit de expresive, nu sunt atit de intuitive precum cele vocale. In plus, pentru subiecţii umani cu diverse handicapuri sau afecţiuni ale analizatorului vizual, interfeţele grafice sunt inutilizabile. Mai mult, mijloacele de interacţiune cu interfeţele grafice se remarcă printr-o relativă lipsă de fiabilitate: de plidă, claviaturile calculatoarelor personale au o durată de viaţă relativ scurtă, comparativ cu microfoanele şi difuzoarele.
Totuşi, deşi o prea mare generalitate a interfeţelor comandate prin voce nu a fost atinsă, pentru domenii bine precizate de activitate, intr-un context de mediu bine cunoscut şi urmărit cu stricteţe, aplicaţiile ce cuprind intefeţe vocale sunt deja realizate, existand şi produse comerciale in acest sens.
O interfaţă vocală om – maşină trebuie să includă mai multe componente, printre care cel puţin un sistem de recunoaştere a vorbiri şi unul de sinteză a vorbirii. Totuşi, aceste două componente nu sunt suficiente in sine pentru a asigura o fiabilitate suficientă unei interfeţe audio om – maşină. O componentă vizand inţelegerea şi dialogul propriu-zis este esenţială pentru a asigura gestiunea interacţiunilor cu subiectul uman; o bază de cunoştinţe este de asemenea necesară pentru a ghida sistemul in interpretarea enunţurilor rostite de subiectul uman şi prentru a-i putea permite alegerea acţiunii potrivite, in acord cu dorinţele utilizatorului.
Pentru toate aceste componente există destul de multe provocări, de pildă robusteţea la condiţiile de mediu, flexibilitatea cu privire la domeniul de utilizare ales, uşurinţa integrării in sistemele de calcul existente.
Prelucrarea limbajului vorbit se referă la tehnologiile legate de recunoaşterea vorbirii, sinteza vorbirii pornind de la text, precum şi inţelegerea limbajului vorbit. De asemenea, recunoaşterea vorbitorului se poate include in acest domeniu. După cum am afirmat mai sus, orice sistem de recunoaştere a limbajului vorbit trebuie să cuprindă cel puţin trei componente: un sistem de recunoaştere a vorbirii, care să realizeze conversia semnalului vocal in enunţuri, un sistem de sinteză a vorbirii, care să transforme un enunţ scris in semnal vocal inteligibil pentru subiectul uman, precum şi un sistem de inţelegere a limbajului vorbit, care să asigure asocierea enunţurilor unor acţiuni precizate.
Pentru toate aceste trei componente există puncte comune, dar şi diferenţe specifice, in ceea ce priveşte tehnologiile de implementare utilizate. Reguli create manual au fost dezvoltate pentru sisteme de prelucrare a limbajului vorbit, dar succesul obţinut a fost relativ modest. De aceea, abordările statistice, plecind de la date in sine, au fost incercate, iar rezultatele au inceput să devină interesante.
Abordările statistice actuale constau in esenţă in modelarea semnalului vocal prin utilizarea unor algoritmi statistici bine definiţi, care pot să extragă in mod automat conoştinţe din date. Abordarea aceasta plecand de la date poate fi privită ca o problemă de recunoaştere a formelor.
Pe de altă parte, abordările bazate pe reguli nu trebuie excluse. Teoretic, dacă există un set de reguli suficient de bun, pentru o sarcină dată, abordările statistice nu sunt necesare. Problema este deci aceea a stabilirii unui set consistent de reguli pentru o problemă precizată, iar la momentul actual nu există, din cate ştim, suficiente cunoştinte pentru a putea produce un set complet de reguli consistente. Deocamdată, credem, aceste seturi de reguli pot fi construite iterativ, plecand de la abordările statistice existente. Prin urmare, abordările statistice şi cele bazate pe reguli pot fi private drept modalităţi complementare de a inzestra un sistem informatic cu capacitatea gestionării cunoştinţelor.
Preview document
Conținut arhivă zip
- Sinteza Vorbirii in Dispozitivele de Calcul.doc