Analyse du Point Spatial, Vote Identitaire et PANs: la Connexion Cachée

Les statistiques spatiales peuvent-elles révéler une structure cachée derrière les PAN ?

Une structure dont personne ou presque n'a connaissance à ce jour ?

En 2012, en analysant les données du GEIPAN (le GEIPAN est une unité du Centre National d’Études Spatiales chargée d’enquêter sur les Phénomènes Aérospatiaux Non expliqués pour la France), j’ai mis en évidence une connexion si sensible que j’ai choisi d'attendre 10 ans avant d'en communiquer les résultats.

Si vous suivez mon travail — de mes premières publications aux plus récentes — vous n'êtes pas sans ignorer que l'un des thèmes récurrent de mes recherches est la relation entre les PAN et les risques environnementaux systémiques via l’analyse de motifs (pattern analysis).

C’est pourquoi, dès 2005, j’ai commencé à construire le projet U-Sphere, un site conçu pour agréger des données et permettre des analyses croisées entre couches environnementales. A l'époque, j'ai développé mon propre SIG (Système d'Information Géographique pour cartographier les événéments) et commencé à tester des hypothèses.

Du point de vue d’un data-scientist, cette approche est l’un des points d’entrée clés pour comprendre les PAN. La raison est simple : d’un point de vue strictement logique, les phénomènes inexpliqués peuvent toujours être regroupés en trois catégories :

Soit ils sont (a) endogènes, produits par des conditions environnementales locales (du point de vue de l’observateur) (ex. feux follets, lanternes),
Soit ils sont (b1) exogènes / actifs: ils viennent de l’extérieur et interagissent avec l’environnement du témoin, transmettent ou collectent de l’information (ex. un drone),
et/ou ils sont (b2) exogènes / passifs: ils traversent l’environnement local sans interagir (ex. un météore, un avion).

Dans deux cas sur trois, le phénomène — quelle que soit son origine — a donc un lien avec l’environnement.

Donc nécessairement avec les données spatiales.

C’est la raison pour laquelle, en 2009, en tant que consultant et après trois ans de travail sur la base GEIPAN, j’ai proposé à son responsable de mener une étude utilisant cette base de données unique. En effet il s'agit de l'une des rares bases au monde dont les données sont réparties de façon homogène dans l’espace (l’« espace » étant ici le territoire français) : pendant près de 40 ans les témoignages avaient été collectés et remontés par l'entremise de la gendarmerie et ce de manière uniforme sur le territoire Français. Cela permettait donc de tester l’existence de corrélations environnementales avec les phénomènes inexpliqués, et en particulier les « PAN D »: ce sont les phénomènes classés comme « non expliqués » après enquête.

Une fois le projet accepté par le Centre Spatial, j’ai contacté en 2010 des chercheurs du GREMAQ (un groupe de recherche en économie mathématique et quantitative). Mon objectif était de mobiliser des outils mathématiques adaptés à ce type d'étude : la mathématique du point spatial. Cette étude fut d'ailleurs intitulée « Spatial Point Pattern Analysis of UAP Phenomena in France ». Elle fut largement achevée au cours de l'année 2012, mais entre délais administratifs et contraintes universitaires, elle n’a mise en ligne qu’en 2015.

Pendant cette période, nous avons testé de nombreuses variables explicatives (covariables) afin de vérifier si les PAN de la base pouvaient avoir un lien (direct ou indirect) avec l’une des catégories suivantes : sites pollués, sites nucléaires, zones humides, ensoleillement, aéroports, forêts, ainsi que l’ensemble des phénomènes expliqués (PAN A) issus de la base elle-même.

Les résultats obtenus étaient très encourageants et nous avons été frappés par la significativité de ces nouveaux résultats :

Résultats de la modélisation avec l’ensemble des covariables (2015)

À ma connaissance, c’était la première mise en évidence spatiale (par p-value) d’un lien statistique entre les PAN D (c.-à-d. « cas non expliqués après enquête ») et l’activité liée au nucléaire ou les sites pollués. Cela préfigure, près d’une décennie à l’avance, l’étude de 2023 de R. M. Medina et al. publiée dans Scientific Reports (Nature Portfolio), mais avec des différences fondamentales : Medina se concentre sur « l’opportunité de voir » du témoin (visibilité du ciel, pollution lumineuse), tandis que mon approche utilise les phénomènes identifiés (PAN A) comme groupe de contrôle pour isoler un signal indépendant des biais de déclaration et directement corrélé à des attracteurs environnementaux stratégiques.

Grâce à ce modèle, nous avons pu véritablement reconstituer la distribution des PAN D sur le territoire français : donnez moi la distribution des sites liés à l'activité nucléaire, les lieux pollués et la densité de population et je vous dirai ou vous aurez des "hot spots". Cependant ce modèle laissait aussi apparaître de curieux regroupements (clusters), des surdensités de phénomènes inexpliqués appelés résidus, qui n'étaient pas absorbés par les trois variables précédentes (Fig. 2). Ces amas n’étaient pas dispersées au hasard : ils se concentraient principalement le long du littoral méditerranéen, dans certaines plaines et dans le nord de la France.

Cette distribution curieuse m’a laissé face à une question : s’il existe encore une structure visible dans les résidus, quelle variable ai-je manquée ?

Et j’ai réfléchi à cela pendant plusieurs semaines…

Puis un jour, en rentrant de l’école de ma fille en voiture, la réponse m’a frappé : et si la logique sous-jacente à ces motifs ondulatoires était celle d’un processus d’apprentissage supervisé de type « spaced retrieval » ? Un processus que j’avais étudié auparavant où le phénomène semble économiser l’énergie afin de maintenir un faible rapport signal/bruit.

S’il existait, au fil du temps, un effort d’optimisation similaire — cherchant à injecter de l’information avec une énergie minimale — comment organiserais-je des cibles dans l’espace ?

Pour aider, on peut formaliser la question autrement :

Si je voulais élever le niveau moyen d’une population sur un sujet (au hasard: les OVNIs), qui devrais-je prioriser ? Les plus informés — ou les moins exposés ?

La réponse, du point de vue des théories de l’apprentissage, est contre-intuitive mais simple : les moins exposés. Les personnes ayant peu de connaissances préalables montrent souvent les gains initiaux les plus rapides ; ensuite, les gains deviennent plus difficiles et plus « coûteux ».

La question suivante s’est alors imposée, mécaniquement, en termes de diffusion possible d’un savoir sur les PAN :

Géographiquement, où se trouvent les populations les moins exposées aux idées liées aux PAN — ou les plus culturellement résistantes à celles-ci ?
Existe-t-il une variable territoriale — aussi imparfaite soit-elle — pouvant servir de proxy pour ces dynamiques
et correspondre à la carte des résidus ?

J’ai fini par envisager deux grandes directions sociologiques (toujours en parlant d’agrégats, jamais d’individus) :

(A) une plus faible exposition à des idées diverses (souvent corrélée à un niveau d’éducation plus faible et à moins d’opportunités de mobilité/exposition),
(B) des dynamiques identitaires plus insulaires — fort entre-soi (in-group belonging), où l’acceptation ou le rejet de certaines idées peut fonctionner comme un signal social.

Avec cette hypothèse forte en tête, j’ai proposé à l'équipe d’inclure des données du Front National (mouvement identitaire d’extrême droite) et les parts de vote pour Marine Le Pen au second tour de l’élection présidentielle de 2012. L'idée était de tester si cela pouvait constituer un bon proxy, une manière robuste d’aligner nos résultats avec les dimensions sociologiques documentées en géographie électorale. Au passage, il faut être très clair : il ne s’agit pas d’un jugement moral, et cela ne doit pas être interprété au niveau individuel (le biais écologique existe). C’est un proxy statistique au niveau territorial, rien de plus.

Nous avons eu de nombreuses discussions, et finalement nous avons choisi de ne pas inclure ces données… Le sujet des PAN peinait déjà à obtenir une légitimité scientifique ; ajouter une variable politique aurait probablement tué l’article avant même sa lecture — et aurait pu créer des problèmes pour le GEIPAN lui-même.

Bien sûr, on pourrait objecter qu’il s’agit d’un effet psychosocial. C’est précisément pour cela que l’un des points méthodologiques clés a été d’inclure les cas expliqués (PAN A) comme covariable dans le modèle : si une région produit simplement plus de signalements en général, des enquêtes compétentes devraient produire plus de A et plus de D ensemble. Or ce n’est pas ce que nous avons observé : la distribution spatiale des cas A ne s'aligne pas du tout sur celle des cas D.

Cela implique aussi quelque chose d’important : les observations D ne sont pas « décidées » par les témoins. Ce qui produit les cas D semble avoir une structure qui n’est pas réductible au seul comportement de signalement.

Or, à mesure que le contexte mondial s’est déplacé vers une reconnaissance institutionnelle — marquée par la publication pionnière des archives GEIPAN en France (2007) puis par d’importants efforts de transparence au Royaume-Uni, au Chili, au Brésil et en Uruguay — l’environnement est aujourd’hui bien plus ouvert. Et plus récemment, avec la dynamique aux États-Unis, depuis la UAPTF (2020) jusqu’au bureau permanent de l’AARO, l’enjeu est passé de « Est-ce que les OVNI méritent de s'y intéresser ? » à « Comment comprendre ce qu'est le phénomène OVNI ? ». Je pense qu’il est enfin temps d’apporter mes propres résultats, volontairement provocateurs, à cette discussion mondiale.

Alors, que se passe-t-il quand on ajoute la covariable identitaire ?

Les données montrent exactement ce que j’attendais. Si l’on ne retient que les covariables significatives, le vote identitaire absorbe une partie de la variable « pollution » et dépasse le niveau de significativité du nucléaire :

Modélisation mise à jour incluant le vote identitaire (résultats du second tour de la présidentielle 2012, voir Fig. 1 ci-dessus)

À travers ces nouveaux résultats, deux points m’ont marqué :

le nucléaire demeure un canal spécifique (toujours significatif),
le proxy ajouté est lui aussi hautement significatif — suggérant une dimension sociétale/culturelle parallèle qui ne « gomme » pas simplement le signal environnemental, et qui apparaît même plus robuste que la relation au nucléaire.

Autrement dit, ces résultats sont cohérents avec l’idée que les aspects écologiques et sociétaux peuvent coexister dans la structure spatiale des observations de PAN— sans nécessairement interférer entre elles.

Au final, une structure non aléatoire, organisée, émerge au sein du bruit constitué par les centaines d'observations. Il nous appartient maintenant de décider comment interpréter ce signal. Pour soutenir la transparence et favoriser la recherche, je partage le logiciel qui a été développé à l'époque (et que j'ai modernisé) sur GitHub, en invitant chacun à reproduire ces tests ou à appliquer la méthodologie à d’autres jeux de données.

Pour celles et ceux qui souhaitent explorer le contexte plus large de mon travail — y compris l’analyse temporelle et le processus de « spaced retrieval » — vous pouvez lire un article complet qui viendra compléter celui-ci, en explorant le « Où » autant que le « Quand » sur U-Sphere.

Si vous souhaitez commenter, rendez-vous sur la discussion sur LinkedIn.