L'intérêt d'utiliser la méthode Levensthein avec ExpoActes

Tous les problèmes que rencontrent les généalogistes avec l'informatique; en premier lieu avec les programmes de généalogie.

Modérateurs : thierry, stephane, normandy76

Répondre
Avatar du membre
thierry
Administrateur
Messages : 795
Enregistré le : 06 mars 2005, 06:37
Localisation : Fontaine-le-Dun (76740)
Contact :

L'intérêt d'utiliser la méthode Levensthein avec ExpoActes

Message par thierry »

Principes de la recherche de Levenshtein.

Texte de A. Delacharlerie, auteur de ExpoActes.

L'algorythme de Levenshtein permet de mesurer la similarité entre deux chaines de caractères. Son résultat est égal au nombre minimal de caractères qu'il faut supprimer, insérer, ou remplacer pour passer d'une chaîne à l'autre.

Dans le cadre d'une recherche sur une base de données de nom, cette recherche s'avère particulièrement utile pour s'affranchir des fautes de transcriptions réalisées aussi bien par les personnes qui ont rédigé l'acte que par les personnes qui l'ont décrypté.

Elle permet aussi de retrouver des noms dont la variablité au fil du temps est importante et imprévisible.

Prenons un exemple :

* DURAND peut avoir été écrit : DURAND, DUREND, DUREN, DURAN, ... au 18 ème siècle,
* Les décrypteurs peuvent aussi avoir fait une faute de saisie et notre DURAND peut être un RURAND ou un DUBAND ou tout autre variante.

Lors d'une recherche classique, si l'on tape DURAND on ne trouvera qu'une occurrence dans la liste des 6 noms.

On peut améliorer la chose en ne recherchant qu'une partie du nom : URAN nous retrouvera 3 noms de la liste, plus d'autre contenant ces 4 lettres : BOURAN, FAURAN , URANUS etc..

On peut aussi chercher sur le début du nom : DUR nous donneras 4 noms plus tous les DURAS, DURIVE etc..

Avec la méthode de Levenshtein, on va rechercher les noms dans la base qui varient de une, deux différences ou plus avec notre nom.

Reprenons notre DURAND : DUREND présente une différence, il en est de même pour DURAN, RURAND et DUBAND.

DUREN présente deux différences

Donc si nous faisons une recherche avec deux différence, le programme va aller piocher dans la base de données tous les noms qui ressemblent à deux différences près à notre DURAND : nous retrouverons bien nos 6 noms.

Certains pourront dire que l'on peut faire une recherche sur la prononciation. Dans le cas ci dessus elle marcherait probablement. Le problème est que les recherches sur les prononciations sont basées dans le meilleur des cas sur le Français moderne, souvent sur l'anglosaxon et jamais sur les dialectes pratiqués dans les campagnes juqu'au 19ème siècle. En outre elles ne trouveront jamais les fautes de saisie : notre RURAND ne sera jamais trouvé.

J'espère vous avoir convaincu sur l'intêret de ce type de recherche.

Bonnes recherches,
Cordialement.
Thierry Houx
Webmestre geneacaux
Généalogie: membre CGPCSM N°72-2576

Botté
Membre
Messages : 12
Enregistré le : 10 sept. 2005, 22:22
Localisation : Lyon
Contact :

Message par Botté »

Bonsoir Thierry et tous les membres du forum

C'est grâce à cette recherche que j'ai retrouvé dans la base :D le mariage de TUGELAY Charles avec LECLERC Anne malgrè, je pense, une lecture très difficile de l'acte par le releveur que je remercie.

Voici le résultat de la base:
Commune/Paroisse : ST MACLOU DE FOLLEVILLE
Départ./Province : Seine-Maritime
Daté du : 12/07/1680
Epoux : JEUCHELAY ? Charles
Père : JEUCHELAY ?
Mère :
Epouse : LECLERC Anne
Père : LECLERC
Mère :
Et d'après d'autres informations, il s'agit pourtant bien des même personnes

Un petit souci malgrè tout, quand on recherche un patronyme en précisant le prénom sur toutes les paroisses, la recherche en tient compte pour afficher la première page (et indique par exemple 3 pages) mais dès la deuxième, elle ne prend plus en compte le prénom ce qui fait que l'on se retrouve parfois avec une trentaine de page.
En attendant, la solution pour contourner ce problème est de cerner la recherche par les dates.

Cordialement
Jean Marie Botté
N° d'Adhérent: 72-12653
Patronymes : Botté, Bauchet, Letellier, Mottet, Viellot, Gaillon, Galliard, Gervais, Mauconduit, Vivaux, d'Anneville, etc.
Recherche en 76, 56, 49, 53

Répondre