La documentation/Performances d'un système documentaire

De testwiki
Aller à la navigation Aller à la recherche

Modèle:Techniques documentaires


Généralités

Comme nous l'avons signalé, les performances des systèmes documentaires dépendent étroitement de la qualité de l'analyse et de l'indexation. Il est intéressant de les chiffrer, ne serait-ce que pour en tirer les renseignements nécessaires à l'amélioration du service.

Notion de cohérence

Si deux indexations d'un même document ont fourni deux ensembles A et B de descripteurs, le taux de cohérence s'écrit :

CAB=nombre de descripteurs communsnombre total de descripteurs

Le taux de cohérence peut être externe, A et B provenant de deux analystes différents, ou interne, les deux indexations étant l'œuvre du même analyste à des dates différentes. Une baisse du taux de cohérence est le signe d'une indexation de mauvaise qualité et qu'il convient de corriger.

Critères d'efficacité de la recherche

Une recherche documentaire idéale dans l'ensemble N comportant tous les documents d'une certaine collection conduirait à en extraire le sous-ensemble des documents pertinents et lui seul. En pratique une telle recherche aboutit en fait à extraire un autre sous-ensemble généralement distinct du précédent.



On peut ainsi répartir les N documents de la collection en quatre catégories :

  • P : nombre de documents pertinents extraits, le résultat
  • S : nombre de documents pertinents non extraits, ou silence,
  • B : nombre de documents non pertinents extraits, ou bruit,
  • R : nombre de documents non pertinents non extraits, ce qui reste.


naturellement N=P+S+B+R

On définit à partir de ces nombres divers critères :

  • le taux de rappel :
r=PP+S=nombre de documents pertinents extraitsnombre total de documents pertinents
  • le taux de pertinence :
p=PP+B=nombre de documents pertinents extraitsnombre total de documents extraits
  • le taux de bruit :
b=BP+B=nombre de documents non pertinents extraitsnombre total de documents extraits
  • le taux de chute :
c=BB+R=nombre de documents non pertinents extraitsnombre total de documents non pertinents
  • le facteur de généralité :
g=P+SP+S+B+R=P+SN=nombre total de documents pertinentsnombre total de documents 

Amélioration des performances

Diverses techniques permettent d'affiner les résultats des recherches effectuées en combinant divers descripteurs.

  • l'autopostage consiste à adopter simultanément des descripteurs situés à divers niveaux de généralité et/ou de spécificité. Par exemple, le terme « trempe » peut être trop général pour la recherche en cours, on adoptera alors les descripteurs qui permettront de le préciser, comme « traitement thermique » ou « trempe superficielle ».
  • la pondération : on affectera chaque descripteur d'un « poids » différent, 1, 2 ou 3 par exemple.
  • le lien permet d'éviter les fausses combinaisons. par exemple, une recherche simultanée sur un ensemble de descripteurs tel que (bateau, transport, bois, FRANCE) peut permettre de retrouver des documents sont les titres pourraient être :
(1) Transport du bois français par bateau,
(2) Transport des bateaux français en bois,
(3) Bateaux en bois français pour le transport,
(4) Transport du bois vers la France en bateau,
(5) etc.

La combinaison (1) sera notée [transport (A) - bateau (A) - bois (B) - FRANCE (B)].

Antidictionnaire

« Du », « par », « des », « en », « pour », « faire », « je », ... sont des mots vides utiles pour construire des phrases mais dénués de toute référence à un véritable contenu informatif. On les consigne dans un antidictionnaire. Les mots vides sont grosso modo ceux que l'on supprimait en écrivant un télégramme, d'où l'expression « style télégraphique » ; ils ne doivent en aucun cas être utilisés comme descripteurs, d'où la nécessité d'en dresser la liste.