23 febbraio 2005
Latent Semantic Indexing, Il motore di ricerca ideale?

- SECONDA PARTE -

Applicazione del LSI nei motori di ricerca


Dopo avere analizzato forse troppo superficialmente gli elementi basilari del LSI, possiamo tornare al focus del nostro articolo, ovverosia l’applicazione di questa teoria alla pratica dell’attività di ricerca in Internet. Abbiamo detto che attualmente chi cercasse infatti con la keyword “Iraq” su Google non troverebbe motori di ricerca, anche il potentissimo Google, 'ragionano' solo in termini di presenza della keyword cercata; be nella SERP nessun sito che non contenga la parola-chiave “Iraq”. Con il sistema di LSI avremmo invece a disposizione anche una serie di pagine web che “hanno a che fare” con l’Iraq senza citare il termine Iraq; documenti su Saddam Hussein, sulla guerra del Golfo, sull’embargo petrolifero, sull’atavica contrapposizione tra sciiti e sanniti, etc. Senza dubbio, possiamo dire che il primo risultato, riprendendo le tre esigenze del 'web searcher' di cui parlavamo all’inizio dell’articolo, sarebbe una maggiore ampiezza dei risultati di ricerca. Il problema che ora si pone è quello della precisione, ovverosia l’assenza di documenti che nulla hanno a che fare con la keyword/keyphrase cercata, e dell’attinenza, ovverosia del ranking dei documenti in fase di output. Diciamo subito che, a nostro parere, queste due questioni (precisione e attinenza) possono incrinare la validità del LSI in fase di applicazione al funzionamento di un motore di ricerca. La nostra soluzione, apparentemente contrastante con tutto quanto detto sinora, sarà l’applicazione di un elemento squisitamente umano alla fase di archiviazione dei documenti, rimettendo in gioco quanto detto a proposito dell’archiviazione con Thesaurus.

Prima di arrivare però a questa 'proposta', vediamo come potrebbero rispondere i 'puristi' del LSI alle due questioni della precisione e dell’attinenza. Per quanto riguarda la precisione, potremmo dire che la risposta è tutta nella precisione della fase di 'pulizia' del linguaggio naturale, nella fase di stemming, nella costruzione della matrice, nel 'weighting' dei termini etc. In sostanza, il sostenitore del LSI potrebbe rispondere: la precisione dei risultati sta tutta nella precisione con cui è stato svolto il processo di indicizzazione dei documenti (pagine web); se il lavoro è stato fatto bene, allora ci sarà estrema precisione, se il lavoro è stato fatto male, allora non ci sarà precisione. Si tratta di una risposta per certi versi semplicistica, ma non si può dire che sia insoddisfacente. Ben diverso è invece il problema dell’attinenza, ovverosia del ranking dei documenti (pagine web) che sono stati archiviati nel database. Torniamo alla nostra ricerca: “Iraq”; abbiamo detto che oltre alle pagine web che contengono il suddetto termine, grazie al LSI sarebbe anche possibile visualizzare documenti che “hanno a che fare” con l’Iraq. Ma in che posizione saranno disposti questi documenti che non contengono il termine “Iraq” rispetto a quelli che lo contengono e in che posizione fra loro stessi? Premettendo che stiamo ragionando per pure ipotesi e che il LSI ancora non è stato applicato ai motori di ricerca, possiamo sicuramente trovare delle risposte in parte soddisfacenti. Si potrebbe infatti trovare un sistema di weighting relativo tra le keyword/keyphrase effettivamente ricercate e quelle ‘affini’. Per esempio: se un documento contiene 10.000 parole utili e contiene una sola volta la parola “Iraq”, sarà esso più attinente di un documento di 1000 parole che non contiene affatto la parola Iraq ma che contiene 100 termini ‘vicini’ (ovverosia che si presentano solitamente insieme) alla keyword Iraq? Possiamo dire certamente di no; probabilmente, nel primo documento si parla di Iraq solo ‘di sfuggita’, mentre nel secondo caso (per esempio una biografia di Saddam Hussein) l’iraq è ‘onnipresente’, così presente che non è necessario citare il termine! A molti, una situazione di questo tipo potrebbe apparire paradossale ed effettivamente sembra strano che in una biografia che parla di Saddam Hussein non sia citata nemmeno una volta la parola “Iraq”. Poniamo però il caso di un articolo scientifico che tratta di equazioni differenziali o di frattali; in questo caso è altamente improbabile che sia presente il termine “matematica” ed è altrettanto vero che un articolo sui frattali o su John Nash “abbia a che fare” con la matematica molto di più di uno che tratti di una notizia di cronaca nera dove si legge nel titolo: “Professore di matematica uccide i suoi studenti con un mitra”.


  Pagina: 1 - 2 - 3 - 4 - PRIMA PARTE  
SEM | e-mail | design | mobile | banner | guerilla | naming | | affiliaton | strategia | miscellanea | e-commerce | chi siamo | contatti
 
Webmarketingstrategico e' un sito di SitoVivo S.r.l. via Filadelfia 162 - Torino - 011-19705358 - fondato da Federico Riva.