Comment mieux chercher sur RetroNews

Lancé en mars 2016, RetroNews offre un accès inédit à trois siècles de presse francophone. Le fonds actuel de quatorze millions de pages augmentera de quatre millions de pages supplémentaires d'ici la fin de l'année 2021 et constituera ainsi la base d’archive de presse francophone la plus riche du monde. Bien sûr, l’utilité d'une collection si vaste doit être mesurée par sa capacité à diriger le chercheur vers des résultats pertinents. Des fonctionnalités offrant une recherche fine sont donc de première importance pour permettre une valorisation du fonds de RetroNews. Nous allons présenter ici le mode recherche avancée du site, qui permet une requête ciblée en peu de clics.

La recherche avancée

La recherche avancée est réservée aux abonnés. Pour en savoir plus sur nos offres d'abonnement, cliquez ici

Pour ouvrir l'onglet de recherche avancée, il suffit de cliquer sur le bouton ainsi désigné à côté du champ de recherche simple. Le premier champ de la recherche avancée permet de saisir tous les mots qui doivent apparaître dans les résultats, peu importe l'ordre de ces mots, ou leur emplacement sur la page. Ainsi une recherche Zola Émile donnera les mêmes résultats qu’Émile Zola. Si l'on préfère toutefois limiter les résultats à l'expression Émile Zola, on peut bien sûr mettre sa requête entre guillemets « Émile Zola » ou renseigner le nom de l'écrivain dans le champ « Cette expression ».

 

fig._1_longlet_de_recherche_avancee.jpg

Fig. 1 : L'onglet de recherche avancée

 

fig._2_longlet_de_recherche_avancee.jpg

Fig. 2 : Le champ "Certains des mots suivants"

 

Le champ « Certains des mots suivants » peut être utile si l'on cherche un terme précis, ainsi que ses synonymes. En cherchant une interview d'Émile Zola, cette fonction permet donc d'ajouter interview, mais aussi entretien. De cette manière, toutes les occurrences du terme Émile Zola qui contiennent interview ou entretien seront détectées par le moteur.

Le champ « Aucun des mots suivants » permet d’exclure certains termes des résultats. En cherchant le critique d'art Léon Maillard, par exemple, on se rend compte qu'il existait un cycliste homonyme. Le terme cyclisme dans les mots à exclure permet de filtrer le cycliste Maillard des résultats.

 

fig._3_longlet_de_recherche_avancee.jpg

Fig . 3 : Le champ "aucun des mots suivants"

 

Une autre fonctionnalité très pratique est de restreindre la recherche aux Unes. Puisque la mise en page de la presse est fortement hiérarchisée, les événements les plus importants étaient d'habitude abordés en première page. La case « Seulement dans les unes » réduit donc le bruit en affichant seulement les articles principaux.

La fonction « Recherche exacte » est à utiliser avec prudence. L'algorithme fonctionne de manière à exclure les mots proches du terme recherché. Cependant l'OCR proposé étant brut,  il ne peut être 100% fiable. On risque donc de passer à côté de quelques résultats pertinents.

Grâce au découpage au numéro des périodiques sur RetroNews, on peut restreindre sa recherche à une certaine période, ou à un certain jour même. À ce sujet, il convient de remarquer que RetroNews prend en compte la date affichée sur le périodique. Parfois, cette date peut différer de la date d’effet de la mise en vente. Ainsi, les journaux du soir sont vendus avec la date du lendemain.

Les champs « Type de presse », « Titre de presse », « Périodicité » et « Lieu de publication » permettent un filtrage très fin des périodiques disponibles sur RetroNews. La recherche peut ainsi être ciblée sur une région, sur un périodique précis, etc.

Aussi est-il possible de choisir l'angle sous lequel l'archive de RetroNews sera dépouillée. En cherchant les articles du fameux critique Francisque Sarcey, on sélectionnera le type de presse « Information générale », ou bien un des titres dans lesquels il publiait régulièrement, comme Le Temps.

Si on est à la recherche de caricatures de Sarcey, peu apprécié par les jeunes écrivains de l'époque, on cherchera les occurrences de son nom dans la « presse satirique ».

 

fig._4_affichage_des_resultats_de_recherche.png

Fig. 4 : Affichage des résultats de recherche

 

Filtrer les résultats

Une fois la recherche effectuée, une barre latérale permet de filtrer les résultats. Le site RetroNews est capable d'identifier les entités nommées dans les périodiques. Ainsi indexe-t-il les personnes, les lieux et les organisations cités dans les archives. Ces entités sont reliées à des référentiels d'autorité, comme le VIAF (Virtual International Authority File) par exemple. Le site data.bnf.fr sert de charnière entre les référentiels d’autorité et le catalogue général. Sur la page dédiée à Zola vous pouvez trouver une synthèse de tous les documents de la BnF liés à l’auteur.

Pour un être humain, il peut paraître naturel qu'Émile Zola soit identique à Emile Zola, ou E. Zola ou encore à M. Zola, mais une machine risque d'identifier quatre personnes différentes, si on ne lui explique pas qu'il s'agit pour toutes de l'auteur des Rougon-Macquart. Derrière les coulisses, pour ainsi dire, l'ordinateur attribue donc un identifiant commun à chaque entité nommée pour assurer que l'on parle de la même chose. On rencontre la même problématique pour les lieux : un ordinateur doit apprendre que les entités la capitale du Royaume-Uni, ロンドンLondon et Londres parlent toutes de la même chose.

 

fig._5_les_filtres_dentites_nommees.jpg

Fig. 5 : Les filtres d’entités nommées

 

L'enrichissement du texte brut par des balises identifiant certaines entités ouvre donc la voie à la recherche sémantique. On ne recherche plus une séquence de lettres, mais le signifié qui se cache derrière.

L'architecture informatique du site RetroNews est conforme aux standards internationaux appliqués à la création et à la structuration des métadonnées. Ainsi le format IIM (Information Interchange Model) développé par l'IPTC (International Press Telecommunications Consortium) utilisé pour identifier les thématiques d'articles constitue la colonne vertébrale de RetroNews pour la détection de thématiques. Cela permet une recherche ciblée des articles concernant le sport, l'économie ou la politique, par exemple.

Pour aller encore plus loin, RetroNews a établi une liste fermée d'événements majeurs qui renvoie à des faits marquants de l'histoire, par exemple les Jeux olympiques de 1936, l'affaire Dreyfus, ou la révolution de 1789.

Vous pouvez ainsi choisir de filtrer votre recherche sur toutes les pages détectées comme faisant référence à tel ou tel événement historique.

 

fig._6_les_filtres_de_thematique_et_devenement.jpg

Fig. 6 : Les filtres de thématique et d'événement

 

La fréquence du terme

En dehors des critères de recherche et des filtres, RetroNews offre aussi une recherche par fréquence du terme. Les usages sont vastes et ouvrent la voie aux analyses linguistiques applicables sur la totalité du fonds. Ainsi peut-on suivre l'émergence du féminisme dans la presse française ou revisiter en termes quantitatifs l'affaire Dreyfus.

 

fig._7a_la_recherche_par_frequence_du_terme_0.png

Fig. 7 : La recherche par fréquence du terme

 

fig._7b_0.png

Fig. 8 : La recherche par fréquence du terme

 

L'ajout jusqu'à cinq termes dans le même graphique permet en outre une analyse comparative, comme montré ici à partir d'une recherche très poilue de moustachebarbebarbiche et bouc.

 

fig._8_la_frequence_du_terme_appliquee_a_22moustache22_22barbe22_22barbiche22_22bouc22_0.png

Fig. 9 : La fréquence du terme appliquée à « moustache », « barbe », « barbiche », « bouc »

 

La recherche avancée notamment avec la recherche par fréquence du terme offre de multiples moyens de paramétrer sa recherche, permettant une requête ciblée et s'adaptant parfaitement aux besoins individuels et à la curiosité du chercheur. Elle propose ainsi tous les outils pour chercher moins, mais mieux trouver.