Desambiguaci?? l??xica

De Viquip??dia

La desambiguaci?? l??xica, anomenada en angl??s Part-of-speech tagging, consisteix en obtindre la categoria gramatical de cadascuna de les paraules que formen un text, eliminant l'ambig??itat que puguen tindre determinades paraules (al poder pert??nyer a m??s d'una categoria gramatical). A l'hora d'assignar una categoria gramatical a una paraula podem fer-ho bansant-nos ??nicament en eixa paraula, o utilitzant informaci?? del context (depenent del m??tode, emprarem la informaci?? de les paraules ve??nes o de tota la frase, par??graf o text).

Taula de continguts

1 Introducci??
2 M??todes de desambiguaci?? l??xica
- 2.1 Basats en corpus
  - 2.1.1 Models ocults de Markov
  - 2.1.2 Model de finestra lliscant
3 Refer??ncies
4 Vegeu tamb??

[edita] Introducci??

En diverses tasques del processament del llenguatge natural, com per exemple la traducci?? autom??tica, aquesta desambiguaci?? ??s necess??ria perqu?? moltes paraules poden estar, a priori, en diverses categories gramaticals. Com a exemple, casa pot ser un substantiu (habitatge) o tamb?? la primera o tercera persona del singular del present d'indicatiu del verb casar. Per tant, substantiu o verb.

??s per aix?? que no ??s suficient amb tindre una correspond??ncia entre les paraules i la seva categoria gramatical, ja que per resoldre les ambig??itats l??xiques categorials que es presenten en un text es necessita l'estudi del context d'eixes paraules.

[edita] M??todes de desambiguaci?? l??xica

Com en la majoria d'ocasions en el PLN, existeixen dues aproximacions per resoldre el problema de l'ambig??itat categorial l??xica: una basada en regles i una altra basada en corpus (anotats o no), que utilitzen sistemes d'aprenentatge autom??tic.

[edita] Basats en corpus

Aquest tipus de m??todes necessiten dades per aprendre i generar aix?? un model. S'utilitzen diversos algorismes per aconseguir-ho, per?? el m??s utilitzat ??s el Model ocult de Markov (MOM, o HMM per les seves sigles en angl??s - Hidden Markov Model).

[edita] Models ocults de Markov

Per entrenar el model, es necessiten corpus marcats amb les categories de cadascuna de les paraules.

Aquesta t??cnica ens permet obtenir la seq????ncia d'etiquetats l??xics m??s probables a partir d'una frase d'entrada. Els HMM tenen la propietat de qu?? la transici?? a partir d'un estat nom??s dep??n d'eixe estat: el passat o la hist??ria no interv?? per a res. Tot i aix??, existeixen modificacions a l'algorisme que permeten tindre en compte una determinada longitud de la hist??ria (dos, tres o fins i tot m??s paraules).

[edita] Model de finestra lliscant

Existeixen altres aproximacions, que no necessiten de corpus anotat pr??viament, com el model de finestra lliscant^[1]

[edita] Refer??ncies

??? Unsupervised training of a finite-state sliding-window part-of-speech tagger, Enrique Sanchez-Villamil, Mikel L. Forcada i Rafael C. Carrasco

[edita] Vegeu tamb??

Categoria: Intel??lig??ncia artificial

Desambiguaci?? l??xica

De Viquip??dia

Taula de continguts

[edita] Introducci??

[edita] M??todes de desambiguaci?? l??xica

[edita] Basats en corpus

[edita] Models ocults de Markov

[edita] Model de finestra lliscant

[edita] Refer??ncies

[edita] Vegeu tamb??

Views

Navegaci??

comunitat

Cerca

En altres lleng??es