15 febbraio 2005
Latent Semantic Indexing, Il motore di ricerca ideale?

- PRIMA PARTE -

Google come Altavista?


A prescindere dall'importanza data da Google ai link (inbound, outbound, interni, etc), Google 'ragiona' (proprio come Altavista) per parole-chiave; non sono più le keyword contenute nelle TAG dell'HTML della pagina web, ma sono le keyword contenute o nell'url o nel testo della pagina o negli anchor che linkano al sito.

Fate una qualsiasi ricerca su Google, per esempio: "Saddam Hussein"; potrete scorrere centinaia di risultati di ricerca ma non troverete un solo link a una pagina che non contiene i termini "Saddam" e "Hussein". Tralasciando i temi di ranking, ovverosia del 'peso' che viene dato a ciascun sito nella visualizzazione delle SERP (Search Engine Results Page), il legame tra il termine utilizzato nella query (ricerca) e quello che appare nei risultati visualizzati è evidente. Possiamo pacificamente dire che Google (come tutti gli altri motori di ricerca) 'ragiona', 'seleziona', 'visualizza' per keyword/keyphrase.

LSI, Latent Semantic Indexing

Questo è quello che gli angolofoni chiamerebbero "the state of the art", la situazione attuale; per molti questo sistema di information retrieval è insostituibile e comunque il migliore. Cercheremo qui di dimostrare il contrario, analizzando il concetto e il possibile utilizzo del LSI, acronimo di Latent Semantic Indexing.

Facciamo un passo indietro. Quando un utente cerca in Internet, quali sono le sue esigenze fondamentali? Sono tre:

1) ampiezza
2) precisione
3) attinenza

Se cerchiamo "Saddam Hussein", vogliamo che il 'nostro' motore di ricerca visualizzi TUTTE le pagine web che "hanno a che fare" con Saddam Hussein.

Se cerchiamo "Saddam Hussein" vogliamo che il 'nostro' motore di ricerca non visualizzi i risultati di ricerca che "Non hanno a che fare" con Saddam Hussein.

Se cerchiamo "Saddam Hussein", vogliamo che i siti che "hanno a che fare" con Saddam Hussein siano disposti nelle SERP secondo un ordine di attinenza: dai più attinenti ai meno attinenti.

Il funzionamento attuale dei motori di ricerca presuppone che in tutti i documenti visualizzati sia presente la keyword "Saddam Hussein". Secondo il LSI non è così; il LSI presuppone infatti che ci siano dei documenti "siti" che "hanno a che fare" con Saddam Hussein ma che non contengono al loro interno la keyphrase "Saddam Hussein" e nemmeno una delle keyword, "Saddam" o "Hussein".

Il concetto c'è anche quando non c'è la parola

Cerchiamo di spiegare come questo possa essere giustificabile con un semplice esempio. Poniamo che ci siano dei siti che parlano della guerra del golfo, dell'embargo petrolifero e che NON contengano né la keyword "Saddam", né la keyword "Hussein"; possiamo dire che questi siti "non hanno a che fare" con Saddam Hussein? Ovviamente no; perché allora non contengono i termini “Saddam” e “Hussein”? Semplicemente perché i termini che 'definiscono' un argomento, un soggetto, un'area semantica non sono sempre presenti in documento, essendo sufficiente solo una parte limitata di essi.

Per chi avesse dei dubbi in merito alla ragionevolezza (e, vedremo in seguito, all'efficacia del LSI), possiamo fare un altro esempio, simile a quello sopra. Poniamo che un utente sia interessato a trovare documenti che trattano del'Iraq; il sistema di ricerca attuale non visualizzerebbe pagine web che non contengano la keyword "Iraq"; un errore grossolano secondo il LSI. Ci possono essere infatti migliaia di pagine web che trattano dell'embargo petrolifero, di Saddam Hussein, della guerra del golfo senza citare affatto il termine Iraq. E questo è un dato di fatto.

Il "problema", individuato dal LSI, è quindi il mancato reperimento e relativa visualizzazione di documenti che hanno a che fare con l'Iraq pur non contenendone il termine. Ma qual è la soluzione?

Diciamo subito che il Latent Semantic Indexing comprende una serie di implicazioni squisitamente matematiche e statistiche che in questo articolo non potremo prendere in considerazione; cercheremo di limitare al massimo la parte teorica per occuparci il più possibile solo di quella 'funzionale'.

La soluzione del LSI è questa. Se è vero che non tutti i documenti che "hanno a che fare" con una determinata area semantica non contengono tutte i termini che la definiscono, come è possibile non perdere nulla dei documenti? La soluzione proposta dal LSI è statistica e, come vedremo, esclusivamente statistica.

  Pagina: 1 - 2 - 3  
SEM | e-mail | design | mobile | banner | guerilla | naming | | affiliaton | strategia | miscellanea | e-commerce | chi siamo | contatti
 
Webmarketingstrategico e' un sito di SitoVivo S.r.l. via Filadelfia 162 - Torino - 011-19705358 - fondato da Federico Riva.