Plaidoyer pour un moteur de recherche doté d'un opérateur de proximité

Pourquoi et comment utiliser des grilles de méta-données : présentation de la règle d’écriture de proximité Pour permettre une lecture transversale, thématique, des articles, billets ou commentaires, nous pouvons utiliser des notices de présentation sur lesquelles il est possible de cibler la recherche, ce qui augmente la pertinence des résultats. Cette possibilité est offerte par tous les moteurs de recherche qui proposent un opérateur de proximité. Aucune connaissance ni investissement informatiques ne sont nécessaires : il suffit d'appliquer une règle d'écriture en remplissant une grille.

Pourquoi et comment utiliser des grilles de méta-données : présentation de la règle d’écriture de proximité

Pour permettre une lecture transversale, thématique, des articles, billets ou commentaires, nous pouvons utiliser des notices de présentation sur lesquelles il est possible de cibler la recherche, ce qui augmente la pertinence des résultats. Cette possibilité est offerte par tous les moteurs de recherche qui proposent un opérateur de proximité. Aucune connaissance ni investissement informatiques ne sont nécessaires : il suffit d'appliquer une règle d'écriture en remplissant une grille.

Pourquoi ? éviter le bruit et structurer.

Voici une solution simple, gratuite et originale, interopérable, pour réduire le bruit dans les moteurs de recherche. Un seul exemple pour faire comprendre l’intérêt de ce système : supposons que l’on fasse une recherche sur les documents écrits par Georges Perec. En tapant la requête < « Georges Perec » ET (auteur OU « écrit par ») > on obtient aussi tous les documents qui citent Georges Perec et les expressions « auteur » ou « écrit par ». Plus généralement, on n’est jamais assuré a priori qu’un mot est central dans le document qui le cite, sauf s’il fait partie du titre. De même, si de nombreux articles scientifiques comportent des résumés, comment cibler les résumés ? Notre grille de présentation, qui comprend un nombre de champs variable, peut aider à résoudre ce problème : si le code < zzOgzz > signifie < origine, auteur, source >, il suffit de taper la requête < Perec NEAR zzOgzz >. Il est également possible d’utiliser ce système sur un ordinateur personnel - Exalead Desktop par exemple propose l’opérateur NEAR et la possibilité de faire une recherche sur les résultats de la première.

Autre avantage de la grille : non seulement elle permet de cibler les documents pertinents, mais elle en offre aussi une vue synoptique, en tant que notice. Ce qui représente un gain de temps particulièrement appréciable lorsque l’on doit consulter plusieurs documents. Le remplissage de la grille peut paraître une tâche fastidieuse, mais c’est aussi une procédure qui en elle-même augmente la qualité des documents et la précision de notre savoir. D’abord parce que l’on est sûr que le navigateur qui les découvre peut retrouver l’intention qui a présidé à la mise en ligne. On se garantit ainsi de mésinterprétations. Mais surtout, en respectant cette exigence qui demande de qualifier les données, on acquiert soi-même une vue plus nette de ce que l’on stocke ou produit. C’est particulièrement utile lorsqu’il s’agit de rédiger un texte ou planifier un projet.

Comment ? codage et opérateur de proximité.

L’opérateur « booléen » NEAR, dit opérateur de proximité, permet de combiner des termes dans les requêtes selon un critère de distance. Si ce critère est fixé à une valeur de 10 mots, la requête < reine NEAR angleterre > correspond à l’ensemble des documents où « reine » est distant de moins de 10 mots de « angleterre ». La première condition est d’attribuer à chaque catégorie de métadonnée un code ou balise, non signifiant en lui-même : ainsi, pour signaler un champ de mots-clés, on préfèrera < zzKwzz > (keyword) à < Mc > (pour éviter Donald’s). Deuxième condition : répéter ce code au moins tous les 28 mots dans un champ de métadonnées si la distance de l’opérateur est de 15 (2 x (15-1) pour être sûr). Dernière condition : séparer les champs par des lignes de mots vides - 15 au moins - non signifiants, pour éviter que le dernier mot du résumé ne soit trop proche des codes de la rubrique suivante ou en général qu’un mot extérieur au champ de métadonnées ne soit trop proche d’un code ((note : Une solution plus élégante que la répétition de ces mots séparateurs consisterait à placer les codes 15 mots après le début et 15 mots avant la fin plutôt qu’aux bornes des champs, mais la distance des opérateurs est variable selon les moteurs, et il est difficile de savoir a priori si la distance inclut le mot ou non (si « angleterre » doit être le n° 15, le 16 ou le 17 avant ou après « reine ») ))

Voici une grille basique pour ce billet, à titre d’exemple. « Kw » est le code pour mots-clé, « Rs » pour résumé, « Og » pour auteur, « a a a a a a....a a a a a a » assure l’étanchéité des rubriques.

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

AUTEUR, SOURCE, ORIGINE

Og vvfx

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

MOTS-CLES

Kw métadonnée metadata balise metatag classement, archive, moteur de recherche, opérateur de proximité, near, Kw

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

RESUME

Rs Ce billet propose un système d'écriture qui, couplé à un moteur de recherche Rs

doté d'un opérateur de proximité, permet de créer des méta-données

Rs afin de rendre les recherches plus pertinentes.

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

 

Remarques :

  • ce "format" est compatible avec tous les moteurs utilisant l’opérateur de proximité, mais il faut savoir que la distance est variable... A ma connaissance, Lycos, Exalead, Aol, Altavista fonctionnent (ou fonctionnaient) avec NEAR.
  • 1) c’est entièrement gratuit, ne nécessite aucun investissement, ce n’est que du texte, ça ne prend pas de mémoire ; 2) on peut créer autant de catégories que l’on veut, et dans chaque champ mettre autant de mots que l’on veut ; 3) compte tenu de 1) et 2), c’est un format potentiellement pérenne.

 

 

Le Club est l'espace de libre expression des abonnés de Mediapart. Ses contenus n'engagent pas la rédaction.