|
 |
3 marzo 2005
GSST - Il miglior ranking per ottenere i migliori risultati di ricerca
Da un approccio lessicale a uno semantico
Di seguito tentiamo di esaminare come GSST può essere usato per migliorare la tecnologia di ranking dei motori di ricerca.
GSST sostituisce l'approccio 'lessicale' dei search engine di oggi con un approccio 'semantico': un motore di ricerca è
in grado di calcolare che la keyword 'Tiger Woods' è molto frequente (ad es. 23 volte su 230 termini) ma non è
in grado di sapere se questa pagina è correlata al golf o no (l'home page di Tiger Woods non contiene il vocabolo 'Golf'
per questo motivo un search engine che opera con un approccio lessicale sarebbe ingannato e non posizionerebbe la pagina personale
di Tiger Wood tra i risultati di una ricerca con la keyword 'golf'), ciò è possibile semplicemente perchè
un motore di ricerca che segue un 'approccio lessicale' individuerebbe solo i significanti di una keyword e non il suo significato.
GSST al contrario pone l'attenzione sul significato e non semplicemente sui suoi significanti.
Quando qualcuno cerca con la keyword Tiger Woods, GSST andrebbe a cercare il suo Thesaurus database (organizzato in broader terms BT,
top terms TT, narrower terms NT e related terms RT) riconoscendo Tiger Woods come una keyword che appartiene alla categoria dei 'giocatori
di golf' (narrower term NT di golf TT), facendo in questo modo il GSST non cadrebbe in errore come gli altri serach engine.
Ciò è quanto noi chiamiamo approccio 'semantico'.
Esempio:
cercando con 'Tiger Woods' in un motore di ricerca che usi il sistema GSST, si vedrebbe nella medesima SERP (pagina dei risultati di ricerca)
un'area, posizionata sulla destra dei risultati di ricerca, mostrante una sezione del Godado thesaurus come questa:
SPORTS
GOLF
Golf PLAYERS
Tiger Woods
Phil Mickelson
In che modo GSST può contribuire a generare un miglior ranking dei risultati
Gli attuali serach engine mostrano migliaia di link 'rilevanti' in corrispondenza di una ricerca ma nessuno può
controllare migliaia di link per trovare ciò che sta veramente cercando, la maggior parte degli utenti della Rete
si limita a cliccare i primi risultati della SERP.
Gli internauti sanno (o sperano) che i primi risultati siano i più rilevanti: la 'battaglia' non è sulla quantità,
bensì sulla qualità dei (primi) risultati visualizzati.
Noi assumiamo il primo come il migliore, in questo modo sappiamo che un motore di ricerca è valido se i primi risultati sono i più
rilevanti.
Il ranking quindi è il focus di ogni motore di ricerca.
Gli inbound link (link in entrata) sono usati per determinare il ranking di un sito per una specifica ricerca, un inbound link è
considerato buono se è rilevante con i siti linkati: i Latini dicevano che 'similia similibus curentur'.
Il problema è che i motori di ricerca non sanno quale sia l'argomento dei siti, a causa del loro approccio lessicale.
L'home page ufficiale di Tiger woods non contiene il termine 'golf'; forse significa che non ha nulla a che fare col golf?
Forse significa che l'inbound link a un sito di golf dall'home page di Tiger Woods non è buono?
Con il sistema GGST che utilizza il Godado Thesaurus noi possiamo sapere che due siti sono strettamente correlati
(condividono lo stesso argomento) anche se non contengono un solo termine (significativo) in comune;
tornando all'esempio di cui sopra, noi possiamo sapere che l'home page del sito ufficiale di Tiger Woods è strettamente
correlata a un sito che parla di PGA (Associazione americana di giocatori professionisti di golf) anche se nessuno di questi due siti
contiene la keyword 'golf'; questa è la differenza tra un motore di ricerca lessicale e uno semantico.
Possiamo anche sapere che 'kemper open', 'buick classic', 'FedEx St. Jude Classic' e '100th Western Open' sono tornei di golf e che
'Retief Gooisen', 'David Toms' e 'David Duval' sono campioni di golf.
Così, sappiamo con certezza che tutte queste keyword contribuiscono al significato dell'area 'golf'.
Con il sistema GSST che adotta il Thesaurus di Godado è possibile dare un peso ai link, indipendentemente dalla presenza
della medesima keyword (o keyphrase) in due siti o nello stesso link; questo è il modo non solo di decidere quali link sono rilevanti,
ma anche per valutare la loro qualità.
- Con il sistema GSST che adotta il Thesaurus di Godado è inoltre possibile sapere quali sono le keyword e
le keyphrase più 'ampie/estese'; è ovvio che quanto più 'profonda' è la keyword nel Thesaurus meno ampia
essa è; il concetto di 'golf' è esattamente individuato dalla keyword 'golf'; restringendo i termini 'tornei di golf',
'mazze da golf', o 'Tiger Woods' abbiamo una definizione più chiara del 'golf'.
- Con il sistema GSST che adotta il Thesaurus di Godado un algoritmo di un search engine potrebbe valutare meglio
il peso dei link inbound e outbound (link in entrata e dei link in uscita), indipendenetemente dal loro 'textual matching' e, facendo
così, migliorando la qualità della sua pagina di risultati.
|
 |
|
Pagina: 1 |
|
|
|
|