OutilsMoteurRechercheWeb – OutilsRechercheWebDivers
Nul doute qu’avec Clueray la société du même nom tient un concept particulièrement intéressant pour l’avenir de la recherche internet.
Partant du principe que chaque interrogation d’un moteur se fait en fonction d’objectifs variables, les créateurs de Clueray ont développé une technologie qui classe les résultats (de Google en l’occurence) en fonction des 3 principales intentions susceptibles d’être celles des utilisateurs, à savoir :
- Apprendre : propose des pages conçues pour renseigner sur les mots de la requête. Les documents présents dans cette catégorie sont d’une structure proche de celles d’articles scientifiques, de documentations ou d’entrées d’encyclopédies.
- Explorer : Les pages proposées ici sont des portails d’information disposant de nombreux liens. Elles sont construites comme des annuaires, ou des index et aiguillent vers les pages intéressantes.
- Interagir : il s’agit de toutes les pages qui permettent par exemple de faire une réservation, d’acheter quelquechose, de remplir un formulaire,…
Pour arriver à ces résultats Clueray « travaille » le contenu de l’index Google en quatre étapes :
- Segmentation : chaque page est découpée en éléments signifiants en fonction de critères tels que sa taille, son contenu et son adresse
- Extraction d’entités : chaque élément est analysé puis « recollé » à ceux provenant de la même page, lui attribuant du même coup une sorte de signature propre.
- Catégorisation : la technologie Clueray à base de sémantique (et sans doute aussi d’un peu de statistiques) compare les signatures des pages ramenées par le moteur avec un set prédéfini de signatures qui permet de savoir dans quelle(s) type(s) d’intention elle sera classée.
- Evaluation qualitative : un score de qualité relatif à la catégorie à laquelle il appartient est attribué à chaque document en fonction de la manière dont il présente l’information.
Le résultat de tout cela? Et bien plutôt intéressant. La page de résultats proposée ressemble à cela :
Rien de bien neuf me direz-vous, sauf qu’ici les sites ont été classés automatiquement pour répondre à l’objectif n° 1 : apprendre. En cliquant sur les boutons orange en haut à droite vous reclassez les résultats selon les autres objectifs. Notez qu’il y a deux boutons en plus des trois intentions principales, l’un correspond aux pages proposant du matériel audio et vidéo et l’autre aux homepages ou assimilées.
Par ailleurs 3 boutons vous permettent de modifier la présentation et deux autres (vert) de comparer les résultats avec ceux des moteurs utilisés (Google ou Yahoo!).
Bref vous l’aurez compris Clueray est tout sauf un gadget et sa technologie sémantique d’identification des pages par intention baptisée Intent Match peut vite s’avérer précieuse aux chercheurs d’infos de tout poil mais aussi et plus spécifiquement aux veilleurs. Je pense notamment à la phase de sourcing dans laquelle les modes « Exploring pages » et « Home pages » peuvent accélérer la découverte des indispensables pages ressources (annuaires, portails et « hubs » en tous genres).
Toutes les fonctionnalités ne sont pas encore implémentées mais la possibilité laissée aux utilisateurs de créer leurs propres catégories est déjà annoncée, pas de détails en revanche sur les modalités de sa mise en oeuvre.
A suivre attentivement.