Analizator Morfo-Sintactic

Proiect
8/10 (1 vot)
Conține 1 fișier: doc
Pagini : 69 în total
Cuvinte : 15522
Mărime: 119.49KB (arhivat)
Publicat de: Stelian Florescu
Puncte necesare: 9
Profesor îndrumător / Prezentat Profesorului: Gheorghe Stan
analizator morfo-sintactic

Cuprins

  1. 1. Introducere 1
  2. 1.1. Noţiuni generale 1
  3. 1.2. Etichetarea automată 3
  4. 2. Ce este un analizor morfo-sintactic? 6
  5. 2.1. Scurtă prezentare al analizoarelor morfo-sintactice existente. 6
  6. 2.2. Ce este un analizor morfo-sintactic (POS tagger) 7
  7. 2.3. Setul de etichete folosite pentru etichetarea textelor 8
  8. 3. Metode pentru dezambiguizarea morfologică 9
  9. 3.1. Metode stocastice 11
  10. 1. Algoritmul Forward-Backward 14
  11. 2. Algoritmul Viterbi 15
  12. 3. Algoritmul Baum Welch 16
  13. Scurtă prezentare a analizorului morfo-sintactic Qtag realizat de D. Tufiş în colaborare cu O. Mason 17
  14. 3.2.Metode care folosesc reguli de bază 22
  15. Dezambiguizarea cuvintelor necunoscute (nu se găsesc în lexicon în forma care apare în text) 28
  16. Determinarea celor mai bune k etichete pentru un cuvânt 32
  17. 3.3. Învăţarea bazată pe memorare 33
  18. Algoritmul BUILD-IGTREE 36
  19. Algoritmul SEARCH-IGTREE 37
  20. 4. Implementare 39
  21. 5. Concluzii 42
  22. Anexa A : Exemple de seturi de etichete 44
  23. 1. Setul de etichete Brown Corpus. 44
  24. 2. Setul de etichete Penn Treebank. 47
  25. 3. Setul de etichete ENGCG. 49
  26. 4. Setul de etichete folosit de Dan Tufiş în implementarea tagger-ului stocastic pentru limba română QTag. 52
  27. Anexa B : Secvenţe de cod 55
  28. 1. Modulul de învăţare 55
  29. 2. Algoritmul bazat pe reguli lexicale – fragment. 57
  30. 3. Algoritmul bazat pe reguli contextuale – fragment 60
  31. Bibliografie 66

Extras din proiect

1. Introducere

Lingvistica computaţională este o disciplină centrată în jurul folosirii calculatorului pentru a procesa sau a produce texte în limbaj natural. Ea combină între ele lingvistica, informatica şi matematica. Astfel, matematicienii şi lingviştii pot contribui la înţelegerea proprietăţilor speciale ale unei limbi, la descrierea structurii acesteia, atâta timp cât informaticienii pot da aceste rezultate sub forma unor diverse implementări.

În domeniul limbajului natural, crearea şi folosirea colecţiilor de texte adnotate este în mod curent în topul celor mai interesante probleme. Textele adnotate sunt de interes major în cercetarea şi dezvoltarea aplicaţiilor procesării limbajului natural (NLP). Procesarea limbajului natural se adresează atât domeniului lexical, cât şi al sintaxei, semanticii, analizei discursului etc. Din păcate, adnotarea unui text, în special adnotarea lingvistică, este încă o problemă dificilă pe care omul încercă să o rezolve de mult timp.

S-au făcut eforturi considerabile şi, la munca depusă de om, s-a adăugat şi “munca” calculatorului în procesarea unui text. Însă frontiera care nu poate fi depăşită automat este dificultatea găsirii claselor sintactice de etichete, adică adnotarea cuvintelor individual dintr-un text, indicând clasificarea lor morfo-sintactică.

În lucrarea de faţă este folosit atât termenul de tagger, preluat din limba engleză, cât şi noţiunea de analizor morfo-sintactic.

1.1. Noţiuni generale

Etichetarea cuvintelor cu clasele lor morfologice este cel mai popular şi cel mai bine definit mod de adnotare lingvistică ce poate fi aplicat unui text. Acest lucru este motivat de următoarele afirmaţii:

• în primul rând, un tagger automat poate fi realizat în orice limbaj de programare şi în plus are un grad mare de precizie;

• în al doilea rând, clasele cuvintelor etichetate sunt în general considerate a fi folosite în primul stadiu al adnotării ce poate fi aplicat unui text ca fază preliminară în activitatea de procesare a limbajului natural (în limbajul de specialitate acesta se notează cu NLP – natural language processing).

Etichetele (en. tag) sunt simboluri descriptive care sunt asignate cuvintelor unui text, această operaţiune putându-se realiza manual sau automat, de către o maşină. Astfel, aceste etichete poartă numele de etichete POS (en. part of speech), deoarece ele indică o parte de vorbire (substantiv, verb, adverb, etc.).

Adnotarea unui text reprezintă un proces prin care sunt asociate etichete unui cuvânt sau unor grupuri de cuvinte.

Lingvistica tradiţională recunoaşte cinci categorii principale ale analizei unui cuvânt:

1. fonologică;

2. morfologică;

3. sintactică;

4. semantică;

5. pragmatică.

Analiza părţii de vorbire (en. POS) nu constituie o clasificare, nu reprezintă un nivel al analizei clasice, ci ea se regăseşte în două din cele cinci categorii menţionate anterior, mai exact în cea morfologică şi cea sintactică.

Cercetări în acest domeniu s-au făcut încă de la vechii indieni şi romani [Voutilainen, 1999], care au stabilit clasificări şi clase pentru fiecare cuvânt în parte. De exemplu, în cultura indiană, Pānini (c. 350 î.C.) spunea că “un cuvânt este acela care are terminaţie de substantiv sau verb”. Începând cu Sibawaihi (d. 793), cultura arabă făcea distincţie între trei clase de cuvinte, acestea fiind substantivele (care includeau şi adjective, pronume şi verbe la participiu activ sau pasiv), verbele, particulele. În analiza morfo-sintactică din cultura vestică, Dionysios Thrax (c. 100 î.C.) a descoperit nu mai puţin de opt clase de cuvinte: substantiv, verb, participiu, articol (care includea şi pronumele relativ), pronume, prepoziţie, adverb şi conjuncţie. Între anii 116-27 î.C., Marcus Terentius Varro stabilea patru tipuri de clasificare pentru clase de cuvinte bazate pe prezenţa sau absenţa cazului şi/sau timpului: substantiv, verb, participiu, adverb.

În prezent, analiza POS a unui text poate fi realizată automat, în întregime.

În cele mai multe texte adnotate, fiecare cuvânt are asociată o singură informaţie îmbogăţită sub forma unei etichete.

Exemplu:

O informaţie reprezentată de o etichetă NN (substantiv, nominativ, singular) ar putea fi reprezentat ca N NOM SG (cu aceeaşi semnificaţie).

Preview document

Analizator Morfo-Sintactic - Pagina 1
Analizator Morfo-Sintactic - Pagina 2
Analizator Morfo-Sintactic - Pagina 3
Analizator Morfo-Sintactic - Pagina 4
Analizator Morfo-Sintactic - Pagina 5
Analizator Morfo-Sintactic - Pagina 6
Analizator Morfo-Sintactic - Pagina 7
Analizator Morfo-Sintactic - Pagina 8
Analizator Morfo-Sintactic - Pagina 9
Analizator Morfo-Sintactic - Pagina 10
Analizator Morfo-Sintactic - Pagina 11
Analizator Morfo-Sintactic - Pagina 12
Analizator Morfo-Sintactic - Pagina 13
Analizator Morfo-Sintactic - Pagina 14
Analizator Morfo-Sintactic - Pagina 15
Analizator Morfo-Sintactic - Pagina 16
Analizator Morfo-Sintactic - Pagina 17
Analizator Morfo-Sintactic - Pagina 18
Analizator Morfo-Sintactic - Pagina 19
Analizator Morfo-Sintactic - Pagina 20
Analizator Morfo-Sintactic - Pagina 21
Analizator Morfo-Sintactic - Pagina 22
Analizator Morfo-Sintactic - Pagina 23
Analizator Morfo-Sintactic - Pagina 24
Analizator Morfo-Sintactic - Pagina 25
Analizator Morfo-Sintactic - Pagina 26
Analizator Morfo-Sintactic - Pagina 27
Analizator Morfo-Sintactic - Pagina 28
Analizator Morfo-Sintactic - Pagina 29
Analizator Morfo-Sintactic - Pagina 30
Analizator Morfo-Sintactic - Pagina 31
Analizator Morfo-Sintactic - Pagina 32
Analizator Morfo-Sintactic - Pagina 33
Analizator Morfo-Sintactic - Pagina 34
Analizator Morfo-Sintactic - Pagina 35
Analizator Morfo-Sintactic - Pagina 36
Analizator Morfo-Sintactic - Pagina 37
Analizator Morfo-Sintactic - Pagina 38
Analizator Morfo-Sintactic - Pagina 39
Analizator Morfo-Sintactic - Pagina 40
Analizator Morfo-Sintactic - Pagina 41
Analizator Morfo-Sintactic - Pagina 42
Analizator Morfo-Sintactic - Pagina 43
Analizator Morfo-Sintactic - Pagina 44
Analizator Morfo-Sintactic - Pagina 45
Analizator Morfo-Sintactic - Pagina 46
Analizator Morfo-Sintactic - Pagina 47
Analizator Morfo-Sintactic - Pagina 48
Analizator Morfo-Sintactic - Pagina 49
Analizator Morfo-Sintactic - Pagina 50
Analizator Morfo-Sintactic - Pagina 51
Analizator Morfo-Sintactic - Pagina 52
Analizator Morfo-Sintactic - Pagina 53
Analizator Morfo-Sintactic - Pagina 54
Analizator Morfo-Sintactic - Pagina 55
Analizator Morfo-Sintactic - Pagina 56
Analizator Morfo-Sintactic - Pagina 57
Analizator Morfo-Sintactic - Pagina 58
Analizator Morfo-Sintactic - Pagina 59
Analizator Morfo-Sintactic - Pagina 60
Analizator Morfo-Sintactic - Pagina 61
Analizator Morfo-Sintactic - Pagina 62
Analizator Morfo-Sintactic - Pagina 63
Analizator Morfo-Sintactic - Pagina 64
Analizator Morfo-Sintactic - Pagina 65
Analizator Morfo-Sintactic - Pagina 66
Analizator Morfo-Sintactic - Pagina 67
Analizator Morfo-Sintactic - Pagina 68
Analizator Morfo-Sintactic - Pagina 69

Conținut arhivă zip

  • Analizator Morfo-Sintactic.doc

Alții au mai descărcat și

Algoritmul de Clustering COBWEB

1. Introducere Exploatarea datelor, cunoscuta mai degraba ca „data mining”, este procesul de sortare a unor cantitati mari de date si de extragere...

Baze de Date Multimedia

Baze de date multimedia Definirea conceptelor. Aplicatii. Data base - baza de date - este un grup de fisiere în care este înregistrata o multime...

Aplicații Client Server

Aplicatii client server Studiu de caz- Solutie de gestiune a Resurselor Umane si Salarizarii Solutiile de gestiune economica Mobius, sunt...

Rețele Wireless

RETELE WIRELESS Introducere Cresterea popularitatii retelelor wireless a determinat o scadere rapida a pretului echipamentelor wireless...

Evenimente Naturale care se Autoconsolideaza prin Circuite de Feedback

“Feedback-ul este ceea ce lipsea din stiinta, in afara lui Newton”, spunea omul de stiinta britanic Steve Grand. “Noi credeam ca este un fenomen...

Sisteme bazate pe cunoștințe în conducerea proceselor

Programul realizeaza determinarea procesului de incalzire ,respectiv racire intr-o camera si a timpului (maxim respectiv minim) in functie de trei...

Sisteme de inteligență artificială

Introducere in IA Metode de cautare Logica simbolică Prolog Sisteme bazate pe reguli. Sisteme bazate pe frame-uri. Rationament incert...

Obiective și Aplicații ale Nanotehnologiei

I. INTRODUCERE Dezvoltarea ştiinţei a demonstrat că cele mai spectaculoase progrese se obţin prin cercetare pluridisciplinară, situată la graniţa...

Te-ar putea interesa și

Ortografia

Cap. I GRAMATICA LIMBII ROMÂNE – CONŢINUTURI ALE ÎNVĂŢĂRII LEXICOLOGIA Lexicologia este disciplina lingvistică care se ocupă cu studiul...

Utilizări ale prepoziției în gramaticile românești

0. Argument Cele mai frecvente cuvinte din limba română, ca de altfel din orice limbă, sunt cele de legătură precum prepozițiile (pe, de, la),...

Diateză în limba română

ARGUMENT Lucrarea de faţă are ca obiect un aspect controversat al gramaticii limbii române, şi anume, problema categoriei gramaticale a diatezei,...

Metode clasice și metode euristice în predarea - învățarea limbii și literaturii române

Metodele de învăţământ sunt instrumentul cu ajutorul căruia profesorul transmite cunoştinţe, formează priceperi şi deprinderi. Alegerea celor mai...

Atributul

Profesor: Şcoala cu Clasele I-VIII „Vasile Alecsandri” Bacău Data: 19.06.2011 Clasa: a V-a B Obiectul: Limba română Subiectul: Atributul...

Predicatul Verbal

Profesor : Militaru Daniela Cosmina Data : 24.03.2010 Clasa : a – V – a C; Disciplina: Limba română; Subiectul : Predicatul. Predicatul...

Particularități de redactare în textul publicistic

Discursul publicitar a intrat in viata noastra ,orientandu-ne zilnic perceptia si raportarea la realitatea imediata. Textul publicistic are un...

Pragmatică lingvistică

ARGUMENTARE Pentru acest proiect am ales sa analizez particularităţile pragmatice ale unui diiscurs politic. Cu toate ca in copilarie nu am fost...

Ai nevoie de altceva?