|
23 febbraio 2005
Latent Semantic Indexing, Il motore di ricerca ideale?
- SECONDA PARTE -
Il LSI 'al lavoro'
Prendiamo come esempio una pagina web, che è molto simile a una pagina di una rivista: contiene testo e immagini e il testo può essere maiuscolo, minuscolo, sottolineato, corsivo etc.
Ora, in una pagina web (o di una rivista) moltissimi dei termini contenuti non sono utili per la defizione della sua area semantica.
Il linguaggio naturale è pieno di ‘ridondanze’ e non tutte le parole che appaiono hanno un significato in sé; in tutte le lingue indoeuropee la maggior parte delle parole utilizzate sono parole funzionali, congiunzioni, preposizioni, pronomi, verbi ausiliari, etc. La prima operazione che deve essere utilizzata in fase di LSI è quella di eliminare tutti questi termini, in quanto inutili e ostacolo per l’analisi semantica della pagina, lasciando soltanto cioè che è veramente significativo.
Quindi, data una pagina web si debbono:
- Eliminare gli articoli, le preposizioni e le congiunzioni
- Eliminare i verbi comuni (sapere, vedere, fare, essere)
- Eliminare i pronomi
- Eliminare gli aggettivi comuni (grande, vecchio, alto)
- Eliminare gli avverbi comuni
- Eliminare le parole che appaiono in ogni documento (stiamo supponendo infatti che il sistema di LSI lavori su un archivio di tanti documenti – pagine – differenti)
- Eliminare le parole che appaiono solo in un documento
Una volta effettuata questa operazione, rimarranno solo le parole utili per il LSI; esse sono però ancora in una forma troppo vicina al linguaggio naturale per essere utili per il LSI, quindi bisogna procedere a quello che gli anglofoni chiamano “stemming”. Lo stemming non è altro che l’accorciamento, per arrivare alla loro 'radice', dei termini che sono rimasti disponibili dopo l’opera di eliminazione dei termini non necessari. Poniamo che dopo la suddetta eliminazione siano rimasti cinque termini (ovviamente, nella realtà, il numero di termini per documento sarà molto più alto)
- Presidente
- Rivoluzione
- Guerreggiare
- America
- Dittatore
Lo stemming produrrà i seguenti ‘tronchi’ di parole
- Presid
- Rivoluz
- Guerr
- Americ
- Dittat
Queste sono finalmente le informazioni che saranno utilizzate per generare quello che in inglese viene definito "term-document matrix", ovverosia la matrice dei termini del documento e questo per tutti i documenti contenuti nel nostro archivio (per esempio, in Internet, di tutte le pagine web che sono state indicizzate).
|
|