Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.
On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Le SEO et la veille au défi des moteurs
Déjà abonné ? Connectez-vous...
Etre un expert de la veille et de la recherche d’information, et maintenir son expertise, est plus que jamais un challenge car le monde de l’information est en perpétuel mouvement.
Les outils de recherche et de veille évoluent très rapidement, de nombreux acteurs apparaissent et disparaissent régulièrement, les sources d’information évoluent et changent de business model, ce qui nécessite une surveillance large de son environnement.
Dans ce contexte, les lettres BASES et NETSOURCES organiseront à Paris le vendredi 24 avril 2020 une journée « MasterClass Veille & Search 2020 » pour se former et s’informer autour de ces problématiques.
Il y sera question :
Les abonnés à BASES et/ou NETSOURCES bénéficieront d’un tarif très préférentiel.
La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.
Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.
Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Le moteur sémantique va devoir intégrer les fonctionnalités suivantes :
Déjà abonné ? Connectez-vous...
Les moteurs de recherche spécialisés (recrutement, juridique, santé) étaient à l’honneur cette année.
Et tous ces acteurs s’intéressent à la façon dont ils peuvent faire évoluer leurs outils en tirant parti du développement de l’IA tout en restant à l’écoute de leurs utilisateurs.
Trois acteurs étaient venus présenter certains axes de recherche sur lesquels ils ont travaillé récemment pour améliorer leurs moteurs.
Nous commencerons avec un outil de recherche spécialisé dans le recrutement et les ressources humaines appelé Texternel, fondé en 2011 à Amsterdam. Il s’agit d’un moteur principalement utilisé par les services RH des entreprises et qui permet de rechercher sur des bases de CV et réseaux sociaux afin d’identifier les bons candidats pour un poste.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
A partir d’une offre d’emploi, l’outil va extraire automatiquement les éléments importants : titre du poste, parcours académique souhaité, nombre d’années d’expérience, compétences requises, etc. Et partir de ces éléments, l’outil va enrichir les différents concepts avec des synonymes, taxonomies, etc. Tous les éléments seront ensuite utilisés pour rechercher dans la base de CVs.
Jusqu’à il y a encore deux ans, le moteur fonctionnait uniquement sur un modèle traditionnel par mot-clé où l’utilisateur avait complètement la main sur sa recherche et pouvait sans-cesse améliorer sa requête pour augmenter la pertinence des résultats. Mais les requêtes pouvaient être très longues et très complexes, ce dont certains utilisateurs se plaignaient. Et comme toujours, lorsque l’on construit une longue requête, il y a un risque d’erreur et de propagation d’erreurs pouvant par la suite fausser les résultats.
Les équipes de TextKernel ont alors expérimenté un nouveau système de recherche à base de deep learning. Même si la pertinence des résultats était généralement plus élevée (selon eux, il y aurait 33% de chances en moins d’avoir des résultats non pertinents par rapport à l’approche traditionnelle), ce n’était pas non plus parfait et l’utilisateur n’avait plus du tout la main sur la requête elle-même, ne pouvant plus l’influencer en mettant l’accent sur certains termes.
Les équipes sont alors arrivées à la conclusion qu’il fallait combiner les deux approches pour de meilleurs résultats. Ils ont ainsi testé une première approche consistant à utiliser d’un côté la recherche traditionnelle et de l’autre l’approche à base de deep learning et à mixer les résultats uniquement au niveau de l’affichage des résultats ; puis une seconde consistant à combiner les deux dès le début.
Finalement, chaque solution a ses avantages et inconvénients et TextKernel n’a pas encore implémenté de solution définitive.
Déjà abonné ? Connectez-vous...
Très éloignée des autres présentations, celle de Dawn Anderson, spécialiste du SEO (Search Engine Optimization) était néanmoins intéressante dans la mesure où elle faisait écho à ce que vivent les professionnels de l’information.
Le monde du SEO et de ceux qui développent les moteurs sont des mondes avec très peu de connexions.
Le SEO est encore trop souvent perçu par les informaticiens comme des personnes qui manipulent les résultats de recherche et sont souvent associés à l’image du spam.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Ces articles académiques sont tout d’abord de plus en plus accessibles grâce au développement de l’open access mais aussi et surtout, le SEO devient de plus en plus difficile.
Fini le temps où les moteurs n’avaient que quelques critères qui influençaient leurs algorithmes. Google en utilise aujourd’hui plus de 200. Et le développement du machine learning ne simplifie pas la tâche des professionnels du SEO, car les moteurs ressemblent de plus en plus à des boîtes noires dont il faut essayer de comprendre les grands principes sans jamais réussir à percer les secrets des détails précis de l’algorithme.
Déjà abonné ? Connectez-vous...
Newsdesk, le produit LexisNexis à mi‑chemin entre un agrégateur de presse et une plateforme de veille, change de nom et devient Nexis Newsdesk.
Ce changement est effectif depuis novembre.
Lire aussi :
BASES N°244 de Décembre 2007 à commander en direct en nous écrivant à : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Il arrive même parfois que la société change de nom en prenant celui d’une société qu’elle vient de racheter comme cela a été le cas pour Maid avec Dialog ou Cambridge Scientific Abstracts avec Proquest. On trouvera plusieurs illustrations dans notre article « Proquest les champions du changement de nom » dans BASES N°244 de Décembre 2007 (contactez nous à Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. pour une copie de l'article)
Pour en revenir à Nexis Newsdesk, ce changement correspond à une certaine logique puisque Lexis se réfère spécifiquement au droit, un des points forts historique de la société mais qui est complètement absent de Nexis Newsdesk.
Reste que LexisNexis est plus connu que Nexis.
Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.
Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.
Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.
L’intérêt de ce serveur est double :
Déjà abonné ? Connectez-vous...
COMPTE-RENDU DE CONFÉRENCE
ILI 2019 : une vision anglo-saxonne de l avenir des professionnels de l information
TENDANCES
Les nouveaux Netflix de la presse vont-ils concurrencer Factiva, Nexis Newsdesk, Press edd et les autres ?
BASE DE DONNEES
CAS Formulations database : une nouvelle banque de données sur STN
Déjà abonné ? Connectez-vous...
Comme l’année dernière, nous avons eu l’occasion d’assister au salon Internet Librarian International à Londres, le rendez-vous annuel des professionnels de l’information (documentalistes, veilleurs, bibliothécaires) outre-Manche.
L'un des grands intérêts de ce e salon qu'il s'y côtoie professionnels européens, mais également des quatre coins de la planète.
Cette année encore, ce fut une expérience enrichissante qui nous a permis de mettre en perspective les problématiques des professionnels de l’information français et celles de leurs homologues d’autres pays.
Cette année, la conférence était organisée autour de 6 grands thèmes :
En cohérence avec la ligne éditoriale de BASES, nous avons choisi d’assister aux interventions sur le thème du « professionnel de l’information réinitialisé » où il était question des compétences à acquérir pour survivre et aux évolutions du métier ainsi que des grandes tendances de la recherche d’information.
Nous avons également assisté à quelques sessions sur la « magie du marketing » car la promotion et la mise en valeur des services d’information reste aujourd’hui un élément central du métier sur lequel il faut sans cesse évoluer et se remettre en question.
Déjà abonné ? Connectez-vous...
Alors que des services comme Netflix pour la vidéo à la demande ou Spotify pour la musique sont devenus incontournables auprès des internautes, cela fait des années que revient régulièrement l’idée d’un « service de streaming » de la presse, basé sur un abonnement mensuel low-cost avec un accès illimité à un grand nombre de titres de presse.
En France, l’idée n’est pas nouvelle et tout avait commencé il y a quelques années avec des kiosques numériques à l’image de lekiosque.fr (qui vient d’être rebaptisé Cafeyn), SFR Presse ou encore E-presse. Mais ces services avaient, à leurs débuts, vocation à vendre des numéros de journaux et magazines à l’image des kiosques à journaux physiques.
D’autres acteurs comme Blendle, Articly ou Milibris avaient quant à eux choisi un business model basé sur la vente à l’article mais comme nous avons pu le voir dans le dernier numéro de BASES, cela a finalement été un échec et la majorité des acteurs ont soit disparu soit changé de business model.
Mais depuis le début de l’année 2019, on commence à voir apparaître de nouveaux acteurs directement créés sur un modèle à la Netflix ou Spotify, comme Apple News+ en janvier dernier et très récemment à la fin du mois d’octobre Pressmium sur le marché français.
La complexité d’accès aux articles de presse, , qui sont de plus en plus souvent derrière un paywall, pour peu qu’on utilise de nombreuses sources est une problématique récurrente pour tous les professionnels de l’information.
Sur le papier, ces nouvelles initiatives semblent très prometteuses et permettraient d’accéder à un nombre important de titres et d’articles de presse à un tarif très abordable alors que l’utilisation des agrégateurs de presse professionnels requièrent un budget initial conséquent. Et pour ceux qui disposent déjà d’accès à des agrégateurs, ces nouvelles plateformes pourraient représenter un complément intéressant et non ruineux pour accéder à des titres non disponibles dans leurs abonnements.
Mais est-ce aussi avantageux que cela en a l’air ? Ces plateformes ont-elles réellement un intérêt dans un contexte de veille et de recherche d’information professionnelle ? Ont-elles une chance de concurrencer les agrégateurs de presse sur le long terme ?
C’est ce que nous avons exploré dans cet article en testant les différentes plateformes présentes sur le marché.
Déjà abonné ? Connectez-vous...