Difference between revisions of "Bon "destinataire""

Un article de U-Sphere.
Jump to: navigation, search
(Destinataires)
(Données consolidées)
Ligne 61: Ligne 61:
 
(En base de données, la table des lettres n'est pas formatée tel que présenté ci-après).
 
(En base de données, la table des lettres n'est pas formatée tel que présenté ci-après).
  
[[Image:File-excel.gif]] [http://www.u-sphere.com/data/Lettres_Brut.xls Fichier excel contenant la table des lettres non normalisée, (destinataires et dates de réception associées)]
+
* [[Image:File-excel.gif]] [http://www.u-sphere.com/data/Lettres_Brut.xls Fichier excel contenant la table des lettres non normalisée, (destinataires et dates de réception associées)]
 +
 
 +
* [http://meta.sciences.free.fr/data/Lettres.htm Le fichier en version HTML (long à charger)]
  
 
=> La table principale des lettres est une synthèse des meta-données des lettres d'[http://www.ummo-sciences.org ummo-sciences] et d'autres colonnes ajoutées qui permettent de consolider des données non alors formatées (entete, signature, nb de caractères, lieu de destination, lieu d'envoi, Destinataires et niveau associé, les références web, etc.).
 
=> La table principale des lettres est une synthèse des meta-données des lettres d'[http://www.ummo-sciences.org ummo-sciences] et d'autres colonnes ajoutées qui permettent de consolider des données non alors formatées (entete, signature, nb de caractères, lieu de destination, lieu d'envoi, Destinataires et niveau associé, les références web, etc.).

Version du 00:51, 21 mai 2007

Voici un jeu Ummoristique: vous souhaiteriez être "contacté", comment vous y prendriez-vous ? Dans le cadre de l'affaire Ummo, peut-on profiler ce qui fait un bon "destinataire" de lettres ? Et quelles sont les motivations sur les échanges revendiquées par leurs auteurs ?

Plus largement, quel serait le profil d'une personne choisie pour être mise en contact avec une réalité "exotique" ?

Objectifs recherchés

Collecter de l’information sur les caractéristiques des destinataires des lettres (position/croyances, ancrage dans le réseau social, localisation géographique, dates de réception, éléments de décridibilisation possibles, nature de l’échange en fonction de leurs centres d’intérêts, etc). Mettre en ligne une page pour les destinataires principaux reprenant ces données, mais aussi les relations entre les destinataires eux (groupes) ou entre les destinataires et la "source".

Dans le détail:

  • Informations sur les destinataires (collecte "terrain")
    • Classement des destinataires par ordre d'importance (qui a reçu le plus d'informations ?). Puis, par ordre:
      • Profession/Activité & centres d'intérêts personnels,
      • emplacement géographique au moment de la réception de ses lettres,
      • croyance vis-à-vis de l'affaire,
      • position vis-à-vis du secret en général,
      • état des relations avec d'autres "contactés",
      • moralité ? (subjectif: voire... selon le nombre d'éléments communiqués avérés faux)
      • Type d'information reçu.
        • calculer la distance vis à vis des centres d'intérêts du destinataire.
      • De quelles lettres ce destinataire pourrait-il être l'auteur ? (compte tenu du style ou du sujet abordé).
  • Informations sur la source (via opération de datamining sur le corpus)
    • Motivations de la "source" justifiant l'amorce d'envois (motivations données pour le contact et choix des contacts)
    • Motivatilns de la "source" justifiant la fin d'envois (intéressant dans le cas où c'est lié au destinataire)
    • Analyse par la "source" des perturbations infligées aux contacts.
    • Nature du sujet en fonction de la sensibilité de l'échange (de très ouvert à confidentiel/destinataire unique).
  • Le réseau de relations:
    • La croissance et la formation du réseau de relations. Nous pouvons aborder une cartographie du réseau en distinguant:
      • (1) les groupes de destinataires seuls,
      • (2) les groupes d'étude (destinataires + personnes intéressées),
      • (3) les groupes et les relations interindividuelles externes (!).
    • Extraction de la base par la recherche de co-occurences (émergence des relations par la recherche des mots deux à deux associés): nécessite le croisement des meta-données des lettres pour (1) ou des opérations de datamining sur l'ensemble du corpus pour (2).
      • Ultérieurement (3), enrichissement par des données grises / exogènes aux lettres: quels sont les liens entre les acteurs, à quelle date, où et comment se sont-ils formés ? => constitution d'un graphe relationnel enrichi
      • Quelles sont les relations les plus fortes, les noeuds les plus centraux?
      • Positionnement géographique des lieux d'envoi et de réception.
      • Détermination des groupes (clusters) de contactés et des époques
  • Chronologie des envois d'information:
    • Tableau croisé des pages reçues, (équivalentes à 2250 caractères traduits), par destinataire et par année
    • Tableau croisé par année des signatures utilisées,
      • Croiser les signatures avec les destinataires,
    • Tableau croisé des signatures et des zones d'envois,
    • Corrélation entre des débuts/fin d'envois et l'apparition/disparition de nouveaux acteurs.


En conclusion, il s'agira d'établir un tableau reprenant les "critères clés" du bon contact (destinataires "profilés" comme tel).

Collecte de données préliminaire

Afin de caractériser et analyser le corpus, la constitution d'une base de données des lettres est quasi-indispensable.

Nous pensons à Ummo-sciences bien sûr! Le catalogue de Darnaude est une base de départ intéressante modulo quelques corrections à apporter: certaines références sont constituées d'agrégats de lettres, ce sont des "références-conteneurs" (ou dossiers), qui n'ont pas à être placées au même niveau que les lettres elles-mêmes.

Il fallait qu'à chaque entrée de la table [Lettres] de la base de données corresponde une référence unique et de même type. Il est évident que nous ne pouvons pas affecter une date de réception unique à un agréagat/dossier constitué de plusieurs envois (ou d'autres critères comme le destinataire, le lieu de réception, le nombre de copies, etc). Il fallait donc préciser la typologie pour évacuer ces références "abstraites" et créer des entrées pour certaines lettres qui ne disposaient pas d'entête descriptif (meta-données).

Données consolidées

Les données ci-après sont mises à disposition dans un fichier excel.

(En base de données, la table des lettres n'est pas formatée tel que présenté ci-après).

=> La table principale des lettres est une synthèse des meta-données des lettres d'ummo-sciences et d'autres colonnes ajoutées qui permettent de consolider des données non alors formatées (entete, signature, nb de caractères, lieu de destination, lieu d'envoi, Destinataires et niveau associé, les références web, etc.).

=> Une autre table croise les noms de destinataires et les lettres auxquelles ils sont associés. Les noms des destinataires ont été "redressés".

Statistiques préliminaires

Sur ce corpus de données, les lettres uniques "acceptées" comme source "ummite" (cad hors H, E, NR invalidées et Darnaude non retenues) est de : 204.

Su l'ensemble des lettres pour lesquelles le nombre de pages est connu il a été possible de calculer le nombre moyen de caractères par page, soit:

  • Ratio moy car / page : 2215,166084

Puis, à l'aide de ce chiffre, de calculer sur l'ensemble des lettres, (connaissant le nombre de caractères moyen), le nombre moyen de pages par lettre:

  • Pages moy par lettre: 6,536945813

Ce qui permet de calculer un nombre moyen de pages originales reçues qui serait d'environ 1334. (C'est une donnée approximative bien évidemment, qui n'a de valeur que pour son aspect dimensionnant).

Le rapport entre le nombre de lettres originales et celui des copies (CC) envoyées est de : 13,55%. Ce ratio est loin du un quarantième indiqué le 12 mars 1987 dans la D2655. Et pour mémo, sur un total (prétendu) à l'époque de 4260 lettres originales, cela représente (aujourd'hui) 31,31% de ce volume.

Caractérisation du niveau de relation avec la "source"

Une étape préliminaire consiste en l'évaluation des relations en fonction des modalités de remise d'une information par les "ummites". Ainsi, entre une personne qui assiste à une présentation orale et celle qui reçoit directement des lettres, le degré de relation est différent.

Des niveaux de relation envisagés avec un destinataire, (et dans ce qui suit, par "destinataire direct", il est entendu une information qui est *spécifiquement* adressée/dédiée au destinataire), nous avons par exemple celui qui:

  • reçoit directement une lettre, (destinataire désigné, adressé en direct / de niveau 1),
  • reçoit une lettre via un autre personne, (destinataire designé, adressé via un intermédiaire / de niveau 2),
  • reçoit une copie d'un document, (destinataire designé, de niveau 2 - "remettre une copie à"),
  • reçoit un extrait de document qui le concerne expressément (destinataire designé, de niveau 2, information partielle),
  • assiste à une lecture d'une lettre à laquelle il est convié, (destinataire non désigné, de niveau 2, information orale),
  • etc.

Cette liste n'est pas exhausive. Les critères sont repris dans le tableau ci-après par ordre d'importance.

Relation destinataire.gif

Notons immédiatement que d'autres critères pourraient être ajoutés (ex: contact physique, information donnée à caractère confidentiel, personne non contactée mentionnée, etc.)

Les critères retenus permettent d'exprimer un nombre binaire qui est converti en décimal. Le degré ici le plus important est 31, le plus faible 0.

Destinataires : données générales

Destinataires

Liste des destinataires et références associées

Destinataires les plus sollicités

De façon globale, voici les 20 destinataires qui ont été les plus sollicités (selon le nombre de pages reçues - équivalentes à 2250 caractères traduits) et par ordre décroissant:

  1. 279p Fernando Sesma Manzano
  2. 259p Jorge Barrenechea Aberasturi
  3. 207p Enrique Villagrasa y Novoa
  4. 197p Dionisio Garrido Buendia
  5. 175p Rafael Farriols Calvo
  6. 117p Juan Miguel Aguirre Ceberio
  7. 110p Antonio Ribera Jordá
  8. 107p Luis Jimenez Marhuenda
  9. 72p Manuel Campo
  10. 65p José Luis Jordán Peña
  11. 64p Juan Domínguez Montes
  12. 61p Joaquín Martínez Andres
  13. 56p Alberto Borras Gabarro
  14. 55p Hiltrud Nordlin Franz
  15. 50p Enrique Lopez Guerrero
  16. 49p Javier Muela Quesada
  17. 41p Frances Alicia Araujo
  18. 40p Javier Sierra
  19. 31p ERIDANI
  20. 29p Julian Barrenechea

Destinataires sollicites.gif

Pages reçues, (équivalentes à 2250 caractères traduits), par destinataire et par année

Les relations retenus dans la table ci-après ne retiennent que les relations de degré supérieur ou égal à 15. C'est à dire toutes les situations dans lesquelles le destinataire reçoit une information qui lui est spécifiquement adressée (il est nommé).

Contenu x Destinataires.gif
ToDo: remplacer le tableau-image par un tableau cliquable/développable

Premiers commentaires

Ce qui ressort très clairement c'est que l'affaire est quasiment au point mort depuis 1988.

Une information qui n'apparait pas sur ce graphe (et devrait dans les prochains, si j'ai le temps): les lettres récentes n'ont pas la mémoire du "réseau". Elles sont individualisées à l'inverse des lettres anciennes plus souvent conçues pour être copiées ou lues en assemblée, (ce qui créait de facto des réseaux).