OutilsMoteurRechercheWeb – OutilsWebSemantique
TextRunner, mis en ligne récemment par le Department of Computer Science Engineering de l »Université de Washington, nous donne un bel avant-goût de ce que l’on peut attendre de la recherche sémantique.
Il permet en effet d’interroger 500 millions de pages web en utilisant des triplets. Kesako? Le triplet est ce qui va vous permettre de lancer des requêtes plus « intelligentes » que celles permises par les moteurs classiques en vous donnant la possibilité de les structurer un minimum. Comme son nom l’indique le triplet est composé de 3 éléments : un sujet, un prédicat, un objet. Cela ne vous dit toujours rien? Alors faisons simple : Who killed Kennedy?
- who = sujet
- killed = prédicat
- Kennedy = objet
Facile non? (que les pros du web sémantique n’hésitent pas à compléter mes approximations). Bon alors voilà le résultat lorsque vous interrogez Textrunner ainsi :
Comme vous le voyez le moteur vous propose par défaut toutes les phrases qu’il a trouvé et qui incluent le prédicat et l’objet. Le sujet est en revanche libre et vous présente toutes le hypothèses présentes sur les sites web indexés par ordre de fréquence. Dans notre exemple « CIA » (29), « Lee Harvey Oswald » (20), « Castro » (13), « four gunmen » (4), « mafia » (2), etc.
En descendant dans les résultats vous pouvez voir que le terme Kennedy est évidemment pris tel quel puisque l’on retrouve également Bob Kennedy et Jacky Kennedy.
Sur le côté droit d’autres formes du mot « killed » vous sont proposées et vous permettent d’accéder aux résultats correspondants dans la page en un clic. Si maintenant vous cliquez sur un nombre de résultats une fenêtre apparaît qui replace chacun d’eux dans son contexte. Un dernier clic et vous ouvrez la page web d’où il est issu. On regrette d’ailleurs que celle-ci ne s’affiche pas dans un nouvel onglet, obligeant ainsi à des retours en arrière sans fin, mais gageons que c’est un défaut qui sera vite corrigé.
Nous n’en avons toutefois pas encore terminé avec Textrunner puisqu’il va également vous permettre de focaliser sur le sujet ou l’objet (qu’il appelle « argument 1 » et « argument 2 ») et d’aller ainsi directement aux résultats qui vous intéresse ou, plus intéressant encore, de vous faire découvrir des pistes/idées, que vous ne connaissiez pas (un autre excellent moyen d’outiller la sérendipité).
Enfin vous pouvez tout simplement explorer des pistes en utilisant qu’un ou deux éléments du triplet, exemple : en indiquant Google en sujet vous obtenez des pages où Google est cité comme « actant ». Si vous le mettez en objet il devient « acté ». Exemple :
Tout comme l’excellent Evri chroniqué il y a quelques mois, Textrunner nous donne une bonne idée de ce que le web sémantique peut nous apporter en terme de recherche d’information et nous permet de nous familiariser simplement avec ce nouveau mode d’interrogation. Pour être encore plus utile il lui manque bien sûr la possibilité de classer les informations par dates mais ceci est lié au problème global de datation des pages web et non à l’outil. Evri le permet mais il ne travaille que sur de l’actualité automatiquement datée, forcément c’est plus simple.
Pour plus d’infos sur les triplets et le RDF voir l’article RDF pour tous.
Si vous avez aimé ce billet vous pouvez :
Le promouvoir :
En parler sur Twitter :