Web Analytics Made Easy - Statcounter

[HOME PAGE] [STORES] [CLASSICISTRANIERI.COM] [FOTO] [YOUTUBE CHANNEL]

N-grama - Viquip??dia

N-grama

De Viquip??dia

Donada una sequ??ncia, anomenem n-grama a una subseq????ncia de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducci?? autom??tica estad??stica, i tamb?? en altres camps de l'investigaci?? cient??fica com l'an??lisi de seq????ncies gen??tiques.

Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. Els models de n-grames tamb?? es coneixen com a "Models de Markov no-ocults", ja que es coneixen les probabilitats de transici?? entre els diferents estats.

Taula de continguts

[edita] Model de n-grames

Un model de n-grames ens permet generar, gr??cies a les propietats estad??stiques dels n-grames, models de llenguatges naturals.

Aquesta idea va n??ixer amb un experiment realitzat per Claude Shannon per a la seva Teoria de la informaci??. Donada una seq????ncia de lletres, va estudiar quina era la seg??ent lletra m??s probable. A partir d'un conjunt de dades d'aprenentatge, es pot dedu??r una distribuci?? de probabilitat amb qu?? obtenir quina ??s aquesta lletra.

A l'hora de modelar llenguatges, concretament, un model de n-grama ??s capa?? de predir xi donades x_{i-1}, x_{i-2}, \dots, x_{i-n}. Degut a limitacions computacionals i tamb?? a qu??, en principi, una llengua pot tindre infinites paraules possibles, es simplifica de manera que cadasc??n dels elements (en aquest cas paraules) nom??s dep??n d'un nombre finit de n paraules.

[edita] T??cniques de suavitzat

Els models de n-grames poden presentar alguns problemes: algunes probabilitats poden ser zero, si no s'ha vist mai el n-grama corresponent. Per aix??, se solen utilitzar algunes t??cniques de suavitzat de n-grames|t??cniques de suavitzat. Aquestes es poden dividir en dos grans tipus: t??cniques per interpolaci?? i t??cniques back-off. En grans l??nies, la principal difer??ncia entre ambdos tipus ??s que les t??cniques d'interpolaci?? sempre utilitzen informaci?? de k-grames inferiors, mentre que les de back-off nom??s ho fan si la probabilitat del n-grama ??s zero.

[edita] T??cniques basades en interpolaci??

Les t??cniques basades en interpolaci?? calculen la probabilitat de manera ponderada entre el n-grama, corregit amb un factor ?? i una probabilitat m??s robusta (que no presenta zeros) del n-grama i una hist??ria simplificada.

p(w|h) = \lambda \frac{N(hw)}{\displaystyle\sum_{w'}{hw'}} + (1-\lambda) \beta(w|\hat{h})

  • h: hist??ria detallada (w1w2w)
  • ??: probabilitat m??s robusta
  • \hat{h}: hist??ria simplificada (w2w)

[edita] T??cniques basades en back-off

Les t??cniques basades en back-off calculen la probabilitat de la manera normal en els n-grames vistos durant la fase d'entrenament, i per als casos on aquesta probabilitat ??s zero, utilitzen una emprant una probabilitat m??s robusta i una hist??ria simplificada.


p(w|h)= \lambda \frac{N(hw)}{\sum_{w'}{N(hw')}}
, si N(hw) > 0


p(w|h)=(1-\lambda) \frac{\beta(w|\hat{h})}{\sum_{w':N(hw')=0}{\beta(w'|\hat{h})}}
, si N(hw) = 0


[edita] Vegeu tamb??