vvfx
Abonné·e de Mediapart

11 Billets

1 Éditions

Billet de blog 9 oct. 2010

Plaidoyer pour un moteur de recherche doté d'un opérateur de proximité

Pourquoi et comment utiliser des grilles de méta-données : présentation de la règle d’écriture de proximité Pour permettre une lecture transversale, thématique, des articles, billets ou commentaires, nous pouvons utiliser des notices de présentation sur lesquelles il est possible de cibler la recherche, ce qui augmente la pertinence des résultats. Cette possibilité est offerte par tous les moteurs de recherche qui proposent un opérateur de proximité. Aucune connaissance ni investissement informatiques ne sont nécessaires : il suffit d'appliquer une règle d'écriture en remplissant une grille.

vvfx
Abonné·e de Mediapart

Ce blog est personnel, la rédaction n’est pas à l’origine de ses contenus.

Pourquoi et comment utiliser des grilles de méta-données : présentation de la règle d’écriture de proximité

Pour permettre une lecture transversale, thématique, des articles, billets ou commentaires, nous pouvons utiliser des notices de présentation sur lesquelles il est possible de cibler la recherche, ce qui augmente la pertinence des résultats. Cette possibilité est offerte par tous les moteurs de recherche qui proposent un opérateur de proximité. Aucune connaissance ni investissement informatiques ne sont nécessaires : il suffit d'appliquer une règle d'écriture en remplissant une grille.

Pourquoi ? éviter le bruit et structurer.

Voici une solution simple, gratuite et originale, interopérable, pour réduire le bruit dans les moteurs de recherche. Un seul exemple pour faire comprendre l’intérêt de ce système : supposons que l’on fasse une recherche sur les documents écrits par Georges Perec. En tapant la requête < « Georges Perec » ET (auteur OU « écrit par ») > on obtient aussi tous les documents qui citent Georges Perec et les expressions « auteur » ou « écrit par ». Plus généralement, on n’est jamais assuré a priori qu’un mot est central dans le document qui le cite, sauf s’il fait partie du titre. De même, si de nombreux articles scientifiques comportent des résumés, comment cibler les résumés ? Notre grille de présentation, qui comprend un nombre de champs variable, peut aider à résoudre ce problème : si le code < zzOgzz > signifie < origine, auteur, source >, il suffit de taper la requête < Perec NEAR zzOgzz >. Il est également possible d’utiliser ce système sur un ordinateur personnel - Exalead Desktop par exemple propose l’opérateur NEAR et la possibilité de faire une recherche sur les résultats de la première.

Autre avantage de la grille : non seulement elle permet de cibler les documents pertinents, mais elle en offre aussi une vue synoptique, en tant que notice. Ce qui représente un gain de temps particulièrement appréciable lorsque l’on doit consulter plusieurs documents. Le remplissage de la grille peut paraître une tâche fastidieuse, mais c’est aussi une procédure qui en elle-même augmente la qualité des documents et la précision de notre savoir. D’abord parce que l’on est sûr que le navigateur qui les découvre peut retrouver l’intention qui a présidé à la mise en ligne. On se garantit ainsi de mésinterprétations. Mais surtout, en respectant cette exigence qui demande de qualifier les données, on acquiert soi-même une vue plus nette de ce que l’on stocke ou produit. C’est particulièrement utile lorsqu’il s’agit de rédiger un texte ou planifier un projet.

Comment ? codage et opérateur de proximité.

L’opérateur « booléen » NEAR, dit opérateur de proximité, permet de combiner des termes dans les requêtes selon un critère de distance. Si ce critère est fixé à une valeur de 10 mots, la requête < reine NEAR angleterre > correspond à l’ensemble des documents où « reine » est distant de moins de 10 mots de « angleterre ». La première condition est d’attribuer à chaque catégorie de métadonnée un code ou balise, non signifiant en lui-même : ainsi, pour signaler un champ de mots-clés, on préfèrera < zzKwzz > (keyword) à < Mc > (pour éviter Donald’s). Deuxième condition : répéter ce code au moins tous les 28 mots dans un champ de métadonnées si la distance de l’opérateur est de 15 (2 x (15-1) pour être sûr). Dernière condition : séparer les champs par des lignes de mots vides - 15 au moins - non signifiants, pour éviter que le dernier mot du résumé ne soit trop proche des codes de la rubrique suivante ou en général qu’un mot extérieur au champ de métadonnées ne soit trop proche d’un code ((note : Une solution plus élégante que la répétition de ces mots séparateurs consisterait à placer les codes 15 mots après le début et 15 mots avant la fin plutôt qu’aux bornes des champs, mais la distance des opérateurs est variable selon les moteurs, et il est difficile de savoir a priori si la distance inclut le mot ou non (si « angleterre » doit être le n° 15, le 16 ou le 17 avant ou après « reine ») ))

Voici une grille basique pour ce billet, à titre d’exemple. « Kw » est le code pour mots-clé, « Rs » pour résumé, « Og » pour auteur, « a a a a a a....a a a a a a » assure l’étanchéité des rubriques.

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

AUTEUR, SOURCE, ORIGINE

Og vvfx

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

MOTS-CLES

Kw métadonnée metadata balise metatag classement, archive, moteur de recherche, opérateur de proximité, near, Kw

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

RESUME

Rs Ce billet propose un système d'écriture qui, couplé à un moteur de recherche Rs

doté d'un opérateur de proximité, permet de créer des méta-données

Rs afin de rendre les recherches plus pertinentes.

a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a

Remarques :

  • ce "format" est compatible avec tous les moteurs utilisant l’opérateur de proximité, mais il faut savoir que la distance est variable... A ma connaissance, Lycos, Exalead, Aol, Altavista fonctionnent (ou fonctionnaient) avec NEAR.
  • 1) c’est entièrement gratuit, ne nécessite aucun investissement, ce n’est que du texte, ça ne prend pas de mémoire ; 2) on peut créer autant de catégories que l’on veut, et dans chaque champ mettre autant de mots que l’on veut ; 3) compte tenu de 1) et 2), c’est un format potentiellement pérenne.

Bienvenue dans le Club de Mediapart

Tout·e abonné·e à Mediapart dispose d’un blog et peut exercer sa liberté d’expression dans le respect de notre charte de participation.

Les textes ne sont ni validés, ni modérés en amont de leur publication.

Voir notre charte

À la Une de Mediapart

Journal — Migrations
Husain, Shahwali, Maryam... : ces vies englouties au large de Calais
Qui sont les vingt-sept hommes, femmes et enfants qui ont péri dans la Manche en tentant de rallier la Grande-Bretagne ? Il faudra des semaines, voire des mois pour les identifier formellement. Pour l’heure, Mediapart a réuni les visages de dix de ces exilés, afghans et kurdes irakiens, portés disparus depuis le naufrage du 24 novembre.
par Sarah Brethes (avec Sheerazad Chekaik-Chaila)
Journal — Genre
À l’École polytechnique de Montréal, un « attentat antiféministe »
Le 6 décembre 1989, un homme armé d’une carabine semi-automatique entre dans les locaux de l’École polytechnique de Montréal et tue 14 étudiantes. Considéré comme le premier meurtre antiféministe de masse, « Poly » a bouleversé les Québécois et les Québécoises, et marqué un tournant dans l’histoire du pays.
par Aurélie Lanctôt (La Déferlante)
Journal — Éducation
Suicide de Dinah, 14 ans : « On veut comprendre pourquoi le collège n’a rien fait »
Près d’un mois après le suicide de Dinah, 14 ans, ses parents ont déposé plainte pour « harcèlement » et accusent le collège de non-assistance à personne en danger. Plusieurs témoins dénoncent la passivité de l’établissement. La direction dément tout dysfonctionnement.
par David Perrotin
Journal
Étudiants précaires : une petite prime et des bugs
Plutôt que de réformer le système des bourses, le gouvernement a décidé d’accorder une prime inflation de 100 euros aux étudiants boursiers. Les serveurs du Crous n’ont pas tenu le choc, les bugs se sont multipliés et nombre d’étudiants n’ont pas pu faire leur demande dans les délais.
par Khedidja Zerouali

La sélection du Club

Billet de blog
Ne vous en déplaise, Madame Blanc
Plusieurs médias se sont fait l’écho des propos validistes tenus par Françoise Blanc, conseillère du 6ème arrondissement de Lyon du groupe « Droite, Centre et Indépendants » lors du Conseil municipal du 18 novembre dernier. Au-delà des positions individuelles, cet épisode lamentable permet de cliver deux approches.
par Elena Chamorro
Billet de blog
Handicap, 4 clés pour que ça change !
Engagée depuis vingt ans pour l’égalité des droits de toutes et tous, je constate comme chacun que les choses avancent très peu. Les changements arriveront lorsqu’il sera compris que le handicap est un sujet social dont tout le monde doit s’emparer. Le 3 décembre, journée internationale du handicap : voici 4 solutions pour qu’advienne enfin une société inclusive !
par Anne-Sarah Kertudo
Billet de blog
SOS des élus en situation de handicap
Voilà maintenant 4 ans que le défenseur des droits a reconnu que le handicap était le 1er motif de discrimination en France, pourtant les situations de handicap reconnues représentent 12% de la population. Un texte cosigné par l’APHPP et l’association des élus sourds de France.
par Matthieu Annereau
Billet de blog
Exaspération
Rien n’est simple dans la vie. Ce serait trop facile. À commencer par la dépendance physique à perpétuité à des tiers, professionnels ou non. Peut-être la situation évoluera-t-elle un tant soit peu lorsque les écoles de formation aux métiers du médico-social et du médical introduiront la Communication NonViolente (CNV) et le travail en pleine conscience dans leurs modules ?
par Marcel Nuss