23 febbraio 2005
Latent Semantic Indexing, Il motore di ricerca ideale?

- SECONDA PARTE -

La TDM (Term Document Matrix)


La TDM è una griglia che rappresenta ogni termine contenuto in un documento. Abbiamo visto sopra come un documento (una pagina web), scritto in linguaggio naturale, sia 'ridotto' ai suoi elementi essenziali. La TDM viene generata disponendo la lista di tutti i termini sull’asse verticale e disponendo la lista di tutti i documenti (le pagine web) sull’asse orizzontale. Non è necessario che venga rispettato un qualche ordine anche se normalmente sarà utilizzata una disposizione alfabetica.
La TMD sarà quindi composta disponendo sull’asse verticale tutte i termini che lo compongono, una volta eliminate le parole non ritenute utili.
Nella matrice, ovviamente, la presenza del termine nella pagina web sarà indicata con 1, mentre l’assenza sarà indicata con 0.

Pagine Web 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
 
Alber 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...
Ancor 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...
Armadill 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...
Ascoli 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...
Attenzi 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...
...  
Zuccher 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...


Questo approccio dà già dei risultati molto interessanti, ma esso può essere decisamente migliorato applicando un 'favoritismo' chiamato "term weighting", ovverosia "peso delle parole".

Il term weighting nasce dalla formalizzazione di due considerazioni facilmente comprensibili.

  1) le parole che appaiono più volte all'interno del medesimo documento sono probabilmente più significative delle parole che appaiono poche volte o una volta soltanto (sempre che l'opera di 'pulizia' preliminare sia stata fatta correttamente e non siano quindi rimaste parole poco significative).
  2) le parole che sono usate raramente nel complesso dei documenti sono considerabili più 'interessanti' e quindi più rilevanti.

Queste due variabili danno il 'peso' delle parole all'interno del documento e quindi, in fase di ricerca, daranno al documento stesso (alla pagina web) una importanza relativa e permetteranno di stabilire un ranking 'verticale', ovverosia non fondato solo sulla presenza, ma anche sul loro peso.

C'è infine un terzo 'passaggio' da tenere in considerazione, che potremmo chiamare di 'normalizzazione'. Il principio che sta alla base della normalizzazione è molto semplice. Facciamo un esempio: un documento che parli di Saddam Hussein e che contenga 10.000 parole 'utili' potrà contenere la keyphrase "Saddam Hussein" 100 volte; un altro documento, che parla di Saddam Hussein, ma che contiene soltanto 1000 parole utili, difficilmente potr contenere la stessa keyphrase 100 volte, ma questo non vuol dire che sia meno rilevante; la 'normalizzazione' permette quindi di valutare la frequenza all'interno del documento in termini percentuali e non assoluti. In questo caso, il presupposto che un documento ampio sia più 'interessante' per un ricercatore (per chi, per esempio, esegue una query in un motore di ricerca) viene completamente rifiutato.

Queste tre variabili, peso 'locale', peso 'generale' e fattore di normalizzazione, determineranno il peso dei termini nelle colonne della matrice.

Ciò che viene particolarmente apprezzato nel LSI è il fatto che il sistema è applicabile a qualsiasi lingua o linguaggio, dal momento che non Ë basato sul significato dei termini ma sulla loro frequenza e sui fattori che abbiamo sopra preso in considerazione e che, come abbiamo visto, sono traducibili in semplici numeri.


  Pagina: 1 - 2 - 3 - 4 - PRIMA PARTE  
SEM | e-mail | design | mobile | banner | guerilla | naming | | affiliaton | strategia | miscellanea | e-commerce | chi siamo | contatti
 
Webmarketingstrategico e' un sito di SitoVivo S.r.l. via Filadelfia 162 - Torino - 011-19705358 - fondato da Federico Riva.