Une structure dont personne ou presque n'a connaissance à ce jour ? En 2012, en analysant les données du GEIPAN (le GEIPAN est une unité du Centre National d’Études Spatiales chargée d’enquêter sur les Phénomènes Aérospatiaux Non expliqués pour la France), j’ai mis en évidence une connexion si sensible que j’ai choisi d'attendre 10 ans avant d'en communiquer les résultats.
Si vous suivez mon travail — de mes premières publications aux plus récentes — vous n'êtes pas sans ignorer que l'un des thèmes récurrent de mes recherches est la relation entre les PAN et les risques environnementaux systémiques via l’analyse de motifs (pattern analysis).
C’est pourquoi, dès 2005, j’ai commencé à construire le projet U-Sphere, un site conçu pour agréger des données et permettre des analyses croisées entre couches environnementales. A l'époque, j'ai développé mon propre SIG (Système d'Information Géographique pour cartographier les événéments) et commencé à tester des hypothèses.
Du point de vue d’un informaticien, cette approche est l’un des points d’entrée clés pour comprendre les PAN. La raison est simple : d’un point de vue strictement logique, les phénomènes inexpliqués peuvent toujours être regroupés en trois catégories :
Dans deux cas sur trois, le phénomène — quelle que soit son origine — a donc un lien avec l’environnement.
Donc oui : données spatiales.
C’est la raison pour laquelle, en 2009, en tant que consultant et après trois ans de travail sur la base GEIPAN, j’ai proposé de mener une étude utilisant ce jeu de données unique — dont les données étaient réparties de façon homogène dans l’espace et collectées depuis 1977 (l’« espace » étant ici le territoire français) — afin de tester l’existence de corrélations environnementales pour ce que nous appelons en France les « PAN D ». Les « PAN D » sont des PAN classés comme « non expliqués » après enquête.
Une fois le projet accepté par le Centre Spatial, j’ai contacté en 2010 des chercheurs du GREMAQ (un groupe de recherche en économie mathématique et quantitative). Mon objectif était de mobiliser des outils mathématiques de pointe pour notre étude, intitulée « Spatial Point Pattern Analysis of UAP Phenomena in France ». Entre délais administratifs et contraintes universitaires, l’étude était largement terminée en 2012, mais n’a été partagée en ligne qu’en 2015.
Pendant cette période, nous avons testé de nombreuses variables explicatives (covariables) afin de vérifier si les PAN de la base pouvaient avoir un lien (direct ou indirect) avec l’une des catégories suivantes : sites pollués, sites nucléaires, zones humides, ensoleillement, aéroports, forêts, ainsi que l’ensemble des phénomènes expliqués (PAN A) issus de la base elle-même.
Les résultats obtenus étaient très encourageants et nous avons été frappés par la significativité de ces nouveaux résultats :
À ma connaissance, c’était la première mise en évidence spatiale (par p-value) d’un lien statistique entre les PAN D (c.-à-d. « cas non expliqués après enquête ») et l’activité liée au nucléaire ou les sites pollués. Cela préfigure, près d’une décennie à l’avance, l’étude de 2023 de R. M. Medina et al. publiée dans Scientific Reports (Nature Portfolio), mais avec des différences fondamentales : Medina se concentre sur « l’opportunité de voir » du témoin (visibilité du ciel, pollution lumineuse), tandis que mon approche utilise les phénomènes identifiés (PAN A) comme groupe de contrôle pour isoler un signal indépendant des biais de déclaration et directement corrélé à des attracteurs environnementaux stratégiques.
Grâce à notre modèle, nous avons pu reconstituer la distribution des PAN sur le territoire français. Mais un « glitch » intrigant se cachait profondément dans le voile des données : le modèle laissait apparaître des amas (clusters) non expliqués — appelés résidus — qui restaient inexpliqués par les trois variables ci-dessus (Fig. 2). Ces zones n’étaient pas dispersées au hasard. Elles se concentraient principalement le long du littoral méditerranéen et dans le nord de la France.
La forme curieuse et concentrée de ces résidus m’a laissé face à une question : s’il existe encore une structure visible dans les résidus, quelle variable ai-je manquée ?
Et j’ai réfléchi à cette question pendant plusieurs semaines…
Puis un jour, en rentrant de l’école de ma fille en voiture, la réponse m’a frappé : et si la logique sous-jacente à ces motifs ondulatoires était celle d’un processus d’apprentissage supervisé de type « spaced retrieval » ? Un processus que j’avais étudié auparavant où le phénomène semble économiser l’énergie afin de maintenir un faible rapport signal/bruit.
S’il existait, au fil du temps, un effort d’optimisation similaire — cherchant à injecter de l’information avec une énergie minimale — comment organiserais-je des cibles dans l’espace ?
Pour aider, on peut formaliser la question autrement :
Si je voulais élever le niveau moyen d’une population sur un sujet (au hasard: les OVNIs), qui devrais-je prioriser ? Les plus informés — ou les moins exposés ?
La réponse, du point de vue des théories de l’apprentissage, est contre-intuitive mais simple : les moins exposés. Les personnes ayant peu de connaissances préalables montrent souvent les gains initiaux les plus rapides ; ensuite, les gains deviennent plus difficiles et plus « coûteux ».
La question suivante s’est alors imposée, mécaniquement, en termes de diffusion possible d’un savoir sur les PAN :
Géographiquement, où se trouvent les populations les moins exposées aux idées liées aux PAN — ou les plus culturellement résistantes à celles-ci ? Existe-t-il une variable territoriale — aussi imparfaite soit-elle — pouvant servir de proxy pour ces dynamiques et correspondre à la carte des résidus ?
J’ai fini par envisager deux grandes directions sociologiques (toujours en parlant d’agrégats, jamais d’individus) :
Avec cette hypothèse forte en tête, j’ai proposé à mon équipe d’inclure des données du Front National (mouvement identitaire d’extrême droite) et les parts de vote pour Marine Le Pen au second tour de l’élection présidentielle de 2012, afin de tester si cela pouvait constituer un bon proxy. C’était une manière robuste d’aligner nos résultats avec les dimensions sociologiques documentées en géographie électorale. Je veux être très explicite : il ne s’agit pas d’un jugement moral, et cela ne doit pas être interprété au niveau individuel (le biais écologique existe). C’est un proxy statistique au niveau territorial, rien de plus.
Nous avons eu de nombreuses discussions, et finalement nous avons choisi de ne pas inclure ces données… Le sujet des PAN peinait déjà à obtenir une légitimité scientifique ; ajouter une variable politique aurait probablement tué l’article avant même sa lecture — et aurait pu créer des problèmes pour le GEIPAN lui-même.
Bien sûr, on pourrait objecter qu’il s’agit d’un effet psychosocial. C’est précisément pour cela que l’un des points méthodologiques clés a été d’inclure les cas expliqués (PAN A) comme covariable dans le modèle : si une région produit simplement plus de signalements en général, des enquêtes compétentes devraient produire plus de A et plus de D ensemble. Or ce n’est pas ce que nous avons observé : la distribution spatiale des cas A ne s'aligne pas du tout sur celle des cas D.
Cela implique aussi quelque chose d’important : les observations D ne sont pas « décidées » par les témoins. Ce qui produit les cas D semble avoir une structure qui n’est pas réductible au seul comportement de signalement.
Or, à mesure que le contexte mondial s’est déplacé vers une reconnaissance institutionnelle — marquée par la publication pionnière des archives GEIPAN en France (2007) puis par d’importants efforts de transparence au Royaume-Uni, au Chili, au Brésil et en Uruguay — l’environnement est aujourd’hui bien plus ouvert. Et plus récemment, avec la dynamique aux États-Unis, depuis la UAPTF (2020) jusqu’au bureau permanent de l’AARO, l’enjeu est passé de « Est-ce que les OVNI méritent de s'y intéresser ? » à « Comment comprendre ce qu'est le phénomène OVNI ? ». Je pense qu’il est enfin temps d’apporter mes propres résultats, volontairement provocateurs, à cette discussion mondiale.
Les données montrent exactement ce que j’attendais. Si l’on ne retient que les covariables significatives, le vote identitaire absorbe une partie de la variable « pollution » et dépasse le niveau de significativité du nucléaire :
À travers ces nouveaux résultats, deux points m’ont marqué :
Autrement dit, ces résultats sont cohérents avec l’idée que les aspects écologiques et sociétaux peuvent coexister dans la structure spatiale des observations de PAN— sans nécessairement interférer entre elles.
Au final, une structure non aléatoire, organisée, émerge au sein du bruit constitué par les centaines d'observations. Il nous appartient maintenant de décider comment interpréter ce signal. Pour soutenir la transparence et favoriser la recherche, je partage le logiciel qui a été développé à l'époque (et que j'ai modernisé) sur GitHub, en invitant chacun à reproduire ces tests ou à appliquer la méthodologie à d’autres jeux de données.
Pour celles et ceux qui souhaitent explorer le contexte plus large de mon travail — y compris l’analyse temporelle et le processus de « spaced retrieval » — vous pouvez lire un article complet qui viendra compléter celui-ci, en explorant le « Où » autant que le « Quand » sur U-Sphere.
Si vous souhaitez commenter, rendez-vous sur la discussion sur LinkedIn.