Desambiguaci?? l??xica
De Viquip??dia
La desambiguaci?? l??xica, anomenada en angl??s Part-of-speech tagging, consisteix en obtindre la categoria gramatical de cadascuna de les paraules que formen un text, eliminant l'ambig??itat que puguen tindre determinades paraules (al poder pert??nyer a m??s d'una categoria gramatical). A l'hora d'assignar una categoria gramatical a una paraula podem fer-ho bansant-nos ??nicament en eixa paraula, o utilitzant informaci?? del context (depenent del m??tode, emprarem la informaci?? de les paraules ve??nes o de tota la frase, par??graf o text).
Taula de continguts |
[edita] Introducci??
En diverses tasques del processament del llenguatge natural, com per exemple la traducci?? autom??tica, aquesta desambiguaci?? ??s necess??ria perqu?? moltes paraules poden estar, a priori, en diverses categories gramaticals. Com a exemple, casa pot ser un substantiu (habitatge) o tamb?? la primera o tercera persona del singular del present d'indicatiu del verb casar. Per tant, substantiu o verb.
??s per aix?? que no ??s suficient amb tindre una correspond??ncia entre les paraules i la seva categoria gramatical, ja que per resoldre les ambig??itats l??xiques categorials que es presenten en un text es necessita l'estudi del context d'eixes paraules.
[edita] M??todes de desambiguaci?? l??xica
Com en la majoria d'ocasions en el PLN, existeixen dues aproximacions per resoldre el problema de l'ambig??itat categorial l??xica: una basada en regles i una altra basada en corpus (anotats o no), que utilitzen sistemes d'aprenentatge autom??tic.
[edita] Basats en corpus
Aquest tipus de m??todes necessiten dades per aprendre i generar aix?? un model. S'utilitzen diversos algorismes per aconseguir-ho, per?? el m??s utilitzat ??s el Model ocult de Markov (MOM, o HMM per les seves sigles en angl??s - Hidden Markov Model).
[edita] Models ocults de Markov
Per entrenar el model, es necessiten corpus marcats amb les categories de cadascuna de les paraules.
Aquesta t??cnica ens permet obtenir la seq????ncia d'etiquetats l??xics m??s probables a partir d'una frase d'entrada. Els HMM tenen la propietat de qu?? la transici?? a partir d'un estat nom??s dep??n d'eixe estat: el passat o la hist??ria no interv?? per a res. Tot i aix??, existeixen modificacions a l'algorisme que permeten tindre en compte una determinada longitud de la hist??ria (dos, tres o fins i tot m??s paraules).
[edita] Model de finestra lliscant
Existeixen altres aproximacions, que no necessiten de corpus anotat pr??viament, com el model de finestra lliscant[1]
[edita] Refer??ncies
- ??? Unsupervised training of a finite-state sliding-window part-of-speech tagger, Enrique Sanchez-Villamil, Mikel L. Forcada i Rafael C. Carrasco