N-grama
De Viquip??dia
Donada una sequ??ncia, anomenem n-grama a una subseq????ncia de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducci?? autom??tica estad??stica, i tamb?? en altres camps de l'investigaci?? cient??fica com l'an??lisi de seq????ncies gen??tiques.
Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. Els models de n-grames tamb?? es coneixen com a "Models de Markov no-ocults", ja que es coneixen les probabilitats de transici?? entre els diferents estats.
Taula de continguts |
[edita] Model de n-grames
Un model de n-grames ens permet generar, gr??cies a les propietats estad??stiques dels n-grames, models de llenguatges naturals.
Aquesta idea va n??ixer amb un experiment realitzat per Claude Shannon per a la seva Teoria de la informaci??. Donada una seq????ncia de lletres, va estudiar quina era la seg??ent lletra m??s probable. A partir d'un conjunt de dades d'aprenentatge, es pot dedu??r una distribuci?? de probabilitat amb qu?? obtenir quina ??s aquesta lletra.
A l'hora de modelar llenguatges, concretament, un model de n-grama ??s capa?? de predir xi donades . Degut a limitacions computacionals i tamb?? a qu??, en principi, una llengua pot tindre infinites paraules possibles, es simplifica de manera que cadasc??n dels elements (en aquest cas paraules) nom??s dep??n d'un nombre finit de n paraules.
[edita] T??cniques de suavitzat
Els models de n-grames poden presentar alguns problemes: algunes probabilitats poden ser zero, si no s'ha vist mai el n-grama corresponent. Per aix??, se solen utilitzar algunes t??cniques de suavitzat de n-grames|t??cniques de suavitzat. Aquestes es poden dividir en dos grans tipus: t??cniques per interpolaci?? i t??cniques back-off. En grans l??nies, la principal difer??ncia entre ambdos tipus ??s que les t??cniques d'interpolaci?? sempre utilitzen informaci?? de k-grames inferiors, mentre que les de back-off nom??s ho fan si la probabilitat del n-grama ??s zero.
[edita] T??cniques basades en interpolaci??
Les t??cniques basades en interpolaci?? calculen la probabilitat de manera ponderada entre el n-grama, corregit amb un factor ?? i una probabilitat m??s robusta (que no presenta zeros) del n-grama i una hist??ria simplificada.
- h: hist??ria detallada (w1w2w)
- ??: probabilitat m??s robusta
- : hist??ria simplificada (w2w)
[edita] T??cniques basades en back-off
Les t??cniques basades en back-off calculen la probabilitat de la manera normal en els n-grames vistos durant la fase d'entrenament, i per als casos on aquesta probabilitat ??s zero, utilitzen una emprant una probabilitat m??s robusta i una hist??ria simplificada.
, si N(hw) > 0
, si N(hw) = 0