OutilsVeille – RessourcesVeille
Depuis quelques années la veille sur l’actualité de la presse écrite est largement facilitée par les flux RSS proposés par des portails comme Google Actus ou Yahoo! News. Il reste toutefois un énorme champ à investir qui est celui des actualités diffusées sous forme audio et vidéo. Comment être informé qu’un reportage sur votre concurrent a été diffusé sur une radio? Comment savoir si on a parlé de votre produit au journal télévisé?
Je ne parle pas ici de surveiller des mots-clés dans les titres ou résumés des actualités, ce qui est relativement aisé avec un bon moteur de recherche de vidéos. Non, je parle ide surveiller ce qui se dit durant les journaux télévisés ou radiodiffusés, du contenu plein-texte donc. Pour cela nous allons avoir besoin de moteurs de recherche qui font ce travail d’indexation de fichiers audios, c’est à dire qui disposent de logiciels leur permettant de retranscrire textuellement du contenu audio, ce qu’on appelle du « speech to text« .
Je ne vais pas vous mentir, les solutions sont peu nombreuses : soit on achète une prestation en ce sens, soit on arrive à le faire « artisanalement » et c’est bien sûr ce que nous allons voir maintenant. Pour info l’excellent Podzinger/Everyzing faisait cela très bien mais il s’est transformé en plateforme d’entreprise payante.
Nous avons identifié trois moteurs de recherche audio/video disposant de la technologie « text to speech » et nous allons maintenant voir comment les mettre sous surveillance.
Blinkx vous simplifie la tâche
Le plus simple d’usage est sans conteste Blinkx. Ce moteur indexe le contenu de milliers de vidéos et génère des flus Rss par mots-clés. Deux choses à prendre en compte toutefois avant de se lancer :
- Par défaut Blinkx lance la recherche dans l’ensemble de ses catégories. Vous risquez donc d’avoir des résultats provenant des catégories TV shows, fitness ou travel. Pour éviter cela il est nécessaire d’utiliser l’opérateur « channel ». Exemple : avec le terme « intelligence »
- channel:news intelligence
- Ne pas oublier de classer les résultats par date (par défaut ils sont classés par pertinence).
Blinkx est très pratique mais ses sources sont essentiellement anglophones.
Voxalead, le plus puissant
Les labs d’Exalead nous gratifient d’un magnifique outil, Voxalead, qui non seulement dispose de sources françaises (France 24, LCI et M6) mais peut aussi transcrire de l’anglais et, beaucoup plus rare, du chinois ou de l’arabe. Voxalead à par ailleurs le bon goût de donner le texte entier de la transcription, ce qui peut permettre de la traduire via Google.
Seul problème, il ne génère pas de flux Rss. C’est donc là qu’un peu de bricolage va être nécessaire pour en créer un. J’ai décidé d’utiliser pour cela Dapper, un service d’aide au scrapping à la fois simple à utiliser et puissant. Je ne vais pas expliquer comment faire, d’abord parce que, comme je viens de le dire, c’est simple et d’autre part parce qu’il y a des vidéos qui le font très bien par ici. Sachez par contre qu’au moment de cliquer sur les éléments à mettre sous surveillance le mieux est de sélectionner la première vidéo comme ceci.
Dapper détecte tous les autres objets similaires dans la page, c’est à dire les fichiers vidéos et uniquement cela, pas de pollution donc dans votre flux Rss.
J’ai par ailleurs effectué les mêmes tests sur la langue chinoise en utilisant les techniques de veille multilingue décrites fin 2008 dans ce billet Pratiquer la veille multilingue en 4 étapes et 15 outils linguistiques. Pour cela il faut bien sûr utiliser les fonctionnalités de traduction automatique de Google Reader. Les résultats sont corrects et permettent de mettre en place un premier niveau d’alerte. Je n’ai pas fait le test pour la langue arabe mais il n’y a pas de raison que ce soit plus mauvais (y en a t-il?).
PBS pour compléter
PBS est une chaîne d’information publique américaine qui propose l’ensemble de son contenu indexé. Le moteur de PBS est assez basique mais fonctionne bien. Sa mise sous surveillance via Dapper n’a pas posé de problèmes.
Il existe une autre chaîne publique américaine qui propose la même fonctionnalité en plus avancée sur son site, il s’agit de C-Span et de son portail C-Span Video Library. Nous n’avons toutefois pas pu mettre la requête sous surveillance (pour l’instant).
Comme vous le voyez l’offre est pour l’instant assez limitée, tout du moins pour la langue française. Voxalead propose tout de même France 24, LCI et M6. Il serait toutefois étonnant de ne pas voir arriver de nouveaux acteurs dans les mois à venir. Google avait d’ailleurs déjà montré ses velléités avec l’excellent portail Gaudi (Google Audio Indexing), pour l’instant réservé aux déclarations des hommes politiques américains, mais pour combien de temps?