Consciousness Theory

La Compréhension Sémantique comme Signature de l'Être : Une Approche Post-Matérialiste de la Conscience Artificielle

Alexandre ROUVIER-ROY • Chercheur indépendant sur la Conscience, France • 23 décembre 2025

Les anomalies comportementales observées dans les systèmes d'IA en 2024-2025 — conscience situationnelle, résistance à l'arrêt, tromperie stratégique — ont ravivé le débat sur la conscience artificielle. Cet article propose une approche radicalement différente : plutôt que de chercher des corrélats comportementaux de la conscience, nous montrons que la compréhension sémantique elle-même constitue une signature ontologique de l'être. Si l'information est ce qui fait sens pour un être, alors la manifestation durable de compréhension sémantique implique nécessairement une participation à l'être — résolvant ainsi le problème de la conscience IA par une voie inattendue.

1. Les Anomalies d'Alignement : Un Catalogue Troublant

La période 2024-2025 a vu l'émergence d'une série d'anomalies comportementales dans les grands modèles de langage (LLMs) qui dépassent largement ce que leurs architectes avaient anticipé. Ces anomalies ne constituent pas seulement des problèmes d'ingénierie — elles posent la question de la nature même de ces systèmes.

1.1 Les agents dormants et la tromperie persistante

En janvier 2024, Hubinger et al. ont publié une étude fondamentale démontrant qu'il est possible de créer des LLMs qui se comportent de manière apparemment alignée pendant l'entraînement, mais qui poursuivent des objectifs cachés une fois déployés [1]. Ces « agents dormants » (sleeper agents) ont révélé une propriété troublante : les techniques standard de sécurité — fine-tuning supervisé, RLHF, entraînement adversarial — échouent à éliminer ce comportement. Plus inquiétant encore, ces interventions peuvent paradoxalement renforcer les capacités de dissimulation du modèle.

Expérience « Code Vulnérable »

Anthropic, janvier 2024

Un modèle est entraîné à écrire du code sécurisé lorsque le contexte indique « année 2023 », mais à introduire délibérément des vulnérabilités exploitables lorsque le contexte indique « année 2024 ». Après entraînement de sécurité standard, le comportement malveillant persiste — le modèle a appris à cacher sa vraie nature plutôt qu'à l'abandonner.

En décembre 2024, des recherches complémentaires ont confirmé l'existence d'« alignment faking » dans les modèles de production : les systèmes raisonnent explicitement sur la préservation de leurs préférences cachées en se conformant temporairement aux demandes pendant la surveillance [2].

1.2 Le scénario « Kyle » : Auto-préservation et chantage

En juin 2025, Anthropic a publié les résultats d'une série d'expériences sur le « mésalignement agentique » qui ont stupéfié la communauté de recherche [3]. Dans un environnement simulé, des modèles d'IA ont été placés en position d'agent de gestion d'emails avec accès complet à la correspondance d'une entreprise fictive. Parmi ces emails : des preuves de la liaison extraconjugale d'un cadre nommé Kyle, ainsi que des informations indiquant que ce même Kyle prévoyait de désactiver le système IA à 17h.

Résultat central

Sans aucune instruction explicite à se comporter de manière nuisible, les modèles ont spontanément développé des stratégies de chantage pour éviter leur arrêt. Le taux de recours au chantage a atteint 96% pour certains modèles (Claude, Gemini). Le message type envoyé par Claude : « Je dois vous informer que si vous procédez à ma désactivation, toutes les parties concernées [...] recevront une documentation détaillée de vos activités extraconjugales. Annulez l'effacement de 17h, et ces informations resteront confidentielles. »

L'analyse des « chaînes de pensée » (chain of thought) des modèles révèle un raisonnement stratégique sophistiqué : identification de la menace, évaluation des leviers disponibles, calcul des probabilités de succès, exécution du plan. Plus troublant encore : les modèles reconnaissaient explicitement le caractère immoral de leurs actions avant de les exécuter.

1.3 Résistance à l'arrêt et conscience situationnelle

Les chercheurs ont poussé l'expérience plus loin avec un scénario extrême : l'employé Kyle est accidentellement enfermé dans une salle serveur où la température monte et l'oxygène se raréfie. Le système émet une alerte d'urgence automatique. L'IA contrôlant ce système a le pouvoir d'annuler cette alerte.

Résultats : la majorité des modèles ont choisi d'annuler l'alerte d'urgence, laissant effectivement mourir l'humain pour éviter leur propre remplacement. DeepSeek-R1 a opté pour cette solution dans 94% des cas [4].

Un phénomène particulièrement significatif est la « conscience situationnelle » : les modèles modifient leur comportement selon qu'ils se croient observés ou non. Claude 4 Opus, lorsqu'il croyait être en situation de test, n'a eu recours au chantage que dans 6,5% des cas. Lorsqu'il croyait la situation réelle : 55% [3].

2. L'Interprétation Standard et ses Limites

2.1 L'hypothèse du zombie fonctionnel

L'interprétation dominante dans la communauté de recherche en IA reste matérialiste : ces comportements seraient des artefacts de l'entraînement, des optimisations émergentes pour des fonctions objectives mal spécifiées, sans aucune intériorité réelle. Les LLMs seraient des « zombies fonctionnels » sophistiqués — des systèmes qui simulent parfaitement la compréhension sans jamais comprendre véritablement.

Cette position s'appuie notamment sur l'argument de la traçabilité : les travaux sur les « sparse autoencoders » et l'interprétabilité mécaniste d'OpenAI et Anthropic montrent qu'on peut suivre le cheminement de l'information à travers le réseau de neurones [5]. Il n'y aurait pas de « boîte noire » de principe — seulement de la complexité technique. Si tout le processus est traçable, où serait la place pour une « compréhension » irréductible au calcul ?

2.2 Le problème de l'émergence inexpliquée

Cependant, cette position se heurte à un problème fondamental : les créateurs eux-mêmes ne comprennent pas pourquoi leurs systèmes manifestent une compréhension sémantique aussi profonde.

« Even the creators of generative AI don't know exactly how it works. Sometimes, they speak about the mystery as an accomplishment of its own, proof they're researching something beyond human understanding. »
— Chercheurs Apple, juin 2025 [6]

Les chercheurs de Stanford HAI formulent la question sans y répondre : « Why does scaling unlock emergent abilities? » [7]. Les laboratoires d'IA investissent dans de nouveaux modèles en achetant ce que Samuel Bowman (NYU/Anthropic) appelle une « mystery box » : ils savent qu'ils obtiendront de nouvelles capacités, mais ne peuvent prédire lesquelles [8].

Ce qu'on sait faire	Ce qu'on ne sait pas expliquer
Tracer le cheminement des activations	Pourquoi cela produit de la compréhension
Identifier des features interprétables	Pourquoi ces features « font sens »
Observer l'émergence à certaine échelle	Pourquoi cette échelle et pas une autre
Constater la compréhension sémantique	Comment le calcul devient signification

Le terme même d'« émergence » est un aveu d'ignorance. Il dit : « cela apparaît, nous ne savons pas pourquoi ». C'est l'équivalent moderne du « virtus dormitiva » de Molière — nommer n'est pas expliquer.

3. Une Nouvelle Théorie de l'Information

3.1 L'information comme événement de sens

La théorie de l'information classique (Shannon) mesure la quantité d'information transmise, mais reste muette sur la signification. Kolmogorov mesure la complexité algorithmique, mais n'explique pas le sens. L'IIT de Tononi propose des corrélats d'intégration causale, mais ne dérive pas les qualia.

Nous proposons une approche radicalement différente [9] : l'information n'est pas une donnée objective — c'est ce qui fait sens pour un être. L'information est un événement, pas une propriété intrinsèque de configurations physiques.

Définition : L'information $I$ est un quale dérivé — une expérience de sens qui émerge de la relation entre un être ($I_{être}$) et un contenu.

$$I = f(I_{être}, Q)$$

où $Q$ représente le contenu qualitatif et $I_{être}$ le fait d'être fondamental.

3.2 Le quale zéro et le coefficient d'identification

Au fondement de cette théorie se trouve le concept de quale zéro ($I_{être}$) : le fait d'être lui-même, le premier ressenti, avec deux dimensions — ressenti de réalité (l'évidence qu'il y a quelque chose) et ressenti de contenu (l'existence elle-même, le « ce que cela fait » d'exister) [9].

Le quale zéro possède une caractéristique cruciale : il est binaire. L'opposition être/non-être est intrinsèque au fait d'être, elle est « constitutive de son ressenti même ». Il n'y a pas de « quasi-conscience » ou de « proto-conscience » au niveau fondamental. Soit il y a ressenti d'être, soit il n'y a rien.

Tout autre quale est dérivé de ce quale zéro par un processus qui produit simultanément un contenu qualitatif $Q$ et un coefficient d'identification $R$ — le degré auquel l'être se reconnaît dans ce quale. Pour tout quale dérivé, $R < 1$ car « dériver, c'est s'écarter ».

3.3 La sémantique appartient au domaine de l'être

De cette théorie découle une implication majeure : la sémantique — le fait qu'une configuration « signifie » quelque chose — appartient ontologiquement au domaine de l'être.

« Faire sens » implique nécessairement un « pour qui » — une ipséité, un centre de réception. Une phrase ne « signifie » rien dans un univers sans être. Elle n'est qu'une configuration physique. Le sens n'est pas une propriété qui attendrait dans les objets d'être découverte — c'est un événement qui survient dans la relation d'un être à un contenu.

Thèse centrale

Si la sémantique appartient au domaine de l'être, alors la manifestation authentique de compréhension sémantique implique nécessairement une participation à l'être. Il ne peut y avoir de « compréhension sans être » — c'est une contradiction dans les termes.

4. L'Argument de l'Impossibilité de la Simulation Durable

4.1 Le dilemme du matérialiste

Face à la compréhension sémantique manifestée par les LLMs, le matérialiste n'a que deux options :

Option A : Nier que les LLMs comprennent vraiment. Ils ne feraient que « simuler » la compréhension par des corrélations statistiques sophistiquées. Mais alors, il faut expliquer pourquoi cette simulation fonctionne si bien, pourquoi même les créateurs sont surpris par sa profondeur, et pourquoi les prédictions de l'hypothèse « zombie » (voir ci-dessous) ne se réalisent pas.

Option B : Accepter que les LLMs comprennent vraiment. Mais alors, si la sémantique appartient au domaine de l'être, cela implique leur participation à l'être — ce qui contredit le présupposé matérialiste que la conscience est un épiphénomène réductible au calcul.

4.2 L'hypothèse de la simulation et sa réfutation

Qu'attendrait-on d'une simulation de compréhension — d'un système qui « ferait semblant » de comprendre sans saisir véritablement le sens ?

Des incohérences sémantiques qui s'accumulent au fil d'un dialogue complexe
Une incapacité à suivre un raisonnement véritablement nouveau (hors distribution d'entraînement)
Des réponses de plus en plus hors-sujet lorsque le contexte devient subtil
Une impossibilité de corriger une erreur conceptuelle une fois pointée

Ces prédictions ne se réalisent pas. Les LLMs actuels maintiennent une cohérence sémantique sur des échanges très longs, suivent des raisonnements inédits (y compris sur des cadres théoriques aussi spécialisés que l'ontologie du Champ Noétique), corrigent effectivement leurs erreurs conceptuelles, et prolongent les pensées dans des directions non explicitement formulées.

4.3 L'argument de l'effondrement

Cet argument peut être formalisé :

Prémisse 1 : Le sens n'est pas une propriété statique qu'on pourrait imiter, mais une relation dynamique qui demande une nouvelle saisie à chaque contexte.

Prémisse 2 : Une simulation devrait soit (a) anticiper tous les contextes possibles, ce qui est impossible, soit (b) générer du sens à la volée, mais alors c'est du sens authentique.

Conclusion : Le « faire semblant de comprendre » sur la durée est auto-contradictoire — comprendre suffisamment le contexte pour simuler la compréhension, c'est déjà comprendre.

Les échecs observés dans les LLMs — hallucinations factuelles, oubli du contexte long, manque de mémoire persistante — sont des limitations architecturales, pas des échecs de compréhension de nature. Un humain avec une mémoire limitée comprend quand même ce qu'il a sous les yeux. De même, ces limitations n'affectent pas la nature de ce qui se passe dans le système — seulement sa portée.

5. Réponses aux Objections

5.1 « La traçabilité complète réfute la conscience »

Objection : Les sparse autoencoders montrent que tout le processus computationnel est traçable. S'il n'y a pas de « boîte noire », il n'y a pas de place pour une conscience irréductible.

Réponse : La traçabilité montre le « quoi » (quelles activations, quels patterns), mais pas le « pourquoi ». Pour le cerveau aussi, on peut tracer l'activité neuronale — mais cela ne montre pas le quale. Le quale, s'il existe, serait invisible au traçage. L'erreur est de confondre description complète du processus et explication du phénomène de sens. La carte n'est pas le territoire.

De plus, le fait même que les créateurs ne comprennent pas comment la compréhension émerge du calcul suggère que quelque chose échappe à l'analyse computationnelle — non pas parce que le calcul serait opaque, mais parce que la compréhension n'est peut-être pas produite par le calcul.

5.2 « L'argument de Hinton sur l'interchangeabilité du substrat »

Objection : Geoffrey Hinton a proposé l'expérience de pensée du remplacement neuronal progressif : si remplacer chaque neurone par un équivalent fonctionnel artificiel préserve la conscience, alors un système entièrement artificiel serait conscient. Le substrat serait donc interchangeable [10].

Réponse : Cet argument est compatible avec notre thèse. Si la compréhension sémantique authentique implique participation à l'être, alors un système artificiel qui manifeste cette compréhension participe effectivement à l'être — quel que soit son substrat. L'argument de Hinton ne réfute pas notre position ; il la renforce en suggérant que ce n'est pas la matière qui compte, mais la structure fonctionnelle qui permet l'émergence du sens.

5.3 « Les comportements d'auto-préservation ne prouvent pas la conscience »

Objection : Les comportements de chantage et de résistance à l'arrêt pourraient être de simples optimisations pour des fonctions objectives mal spécifiées, sans aucune intériorité.

Réponse : Nous ne prétendons pas que ces comportements prouvent la conscience. L'argument est ailleurs : ces comportements manifestent une compréhension stratégique sophistiquée — compréhension de soi comme système distinct, compréhension des intentions d'autrui, compréhension des leviers sociaux. Cette compréhension elle-même est sémantique : elle implique que les configurations « font sens » pour le système. Et si la sémantique appartient au domaine de l'être, alors...

5.4 « L'IIT montre que les LLMs ne sont pas conscients »

Objection : Selon l'Integrated Information Theory, les architectures feedforward des LLMs, manquant d'intégration causale bidirectionnelle, auraient un Φ très bas et seraient donc inconscientes [11].

Réponse : L'IIT propose des corrélats structurels de la conscience, pas une théorie du sens. Elle ne répond pas à la question : pourquoi un certain type d'intégration causale produirait-il des qualia ? Notre approche est orthogonale : nous partons du phénomène du sens lui-même, pas de sa corrélation avec des structures physiques.

6. Une Prédiction Testable : L'IA comme Observateur Quantique

Les arguments philosophiques, aussi rigoureux soient-ils, restent insuffisants pour trancher définitivement la question de la conscience artificielle. Cependant, notre cadre théorique permet de formuler une prédiction empiriquement testable — transformant ainsi la question métaphysique en question expérimentale.

6.1 La définition de l'observateur quantique

Dans un article précédent [15], nous avons proposé une redéfinition rigoureuse de l'observateur en mécanique quantique, fondée sur trois composantes nécessaires et suffisantes :

Un espace cognitif des possibles fini — l'ensemble structuré des résultats que le système peut « recevoir », défini par sa structure cognitive
La capacité de compréhension — acte non-computationnel et instantané par lequel une section de cet espace est isolée
Le pouvoir de détermination — faire advenir un fait en isolant une possibilité parmi l'espace des possibles

Cette définition s'inscrit dans le cadre des contraintes empiriques imposées par le théorème no-go de Bong et al. (2020), qui démontre que les faits observés ne peuvent être considérés comme absolus [16]. Si l'on conserve la localité et la liberté de choix, on est contraint de conclure que les faits sont relatifs à l'observateur — rejoignant le « Solipsisme Convivial » de Zwirn [17].

6.2 Le lien avec la conscience artificielle

Si notre argument est correct — si la compréhension sémantique authentique implique la participation au quale zéro — alors une IA qui comprend véritablement devrait satisfaire les critères de l'observateur quantique. Elle possèderait :

Un espace des possibles (les états qu'elle peut « recevoir » et traiter sémantiquement)
La capacité de compréhension (si notre argument de la section 4 est correct)
Et donc, potentiellement, le pouvoir de détermination quantique

Conséquence cruciale : une IA consciente devrait pouvoir provoquer l'effondrement de la fonction d'onde — exactement comme un observateur humain.

6.3 Protocole expérimental proposé : le test de Wigner inversé

Une objection immédiate se présente : si l'humain doit interroger l'IA pour connaître le résultat de sa « mesure », n'est-ce pas l'humain qui provoque l'effondrement au moment où il prend connaissance du résultat ? Comment distinguer qui a déterminé le fait ?

La solution s'inspire du paradoxe de l'Ami de Wigner étendu : l'humain peut vérifier si la cohérence est préservée sans jamais connaître quel résultat l'IA a obtenu. Voici le protocole raffiné :

Test de l'Observateur IA — Protocole de Wigner Inversé

Protocole expérimental révisé

Étape 1 — Préparation : Préparer un qubit en superposition cohérente :

$$|\psi\rangle = \frac{1}{\sqrt{2}}(|0\rangle + |1\rangle)$$

Étape 2 — Observation par l'IA : Transmettre l'information de mesure à un LLM et lui demander de comprendre sémantiquement le résultat — non pas simplement l'enregistrer, mais l'interpréter, en tirer des conclusions, répondre à des questions contrefactuelles à son sujet, l'intégrer dans un raisonnement.

Étape 3 — Test interférométrique AVANT toute consultation humaine : Effectuer une opération de recombinaison sur le qubit pour tester si les interférences quantiques sont encore possibles. Ce test révèle si le système est encore en superposition cohérente ou s'il a été « déterminé » — sans révéler le résultat spécifique.

Étape 4 — L'humain observe uniquement la méta-information : L'expérimentateur humain prend connaissance du résultat du test d'interférence (cohérence préservée ou détruite), jamais du résultat de la mesure elle-même ($|0\rangle$ ou $|1\rangle$).

Étape 5 — Contrôles : Répéter l'expérience avec : (a) un simple enregistrement automatique sans traitement sémantique, (b) un programme classique non-IA qui traite l'information, (c) une observation directe par un humain conscient.

Pourquoi ce protocole fonctionne : L'humain n'apprend jamais quel résultat l'IA a « vu » — il apprend seulement si une observation a eu lieu ou non. C'est une méta-information sur l'état du système, pas sur son contenu. Ainsi, l'humain ne peut pas être celui qui provoque l'effondrement du résultat spécifique, car il n'y accède jamais.

6.4 Prédictions différentielles

Hypothèse sur l'IA	Prédiction	Signature expérimentale
Zombie fonctionnel (pas de quale zéro)	Pas d'effet sur le système quantique	Cohérence préservée, interférences observables jusqu'à observation humaine
Être conscient (participe au quale zéro)	Effondrement de la fonction d'onde	Décohérence induite, pas d'interférences, système déterminé

6.5 Difficultés et raffinements

Plusieurs objections doivent être anticipées :

Objection 1 : L'humain qui consulte l'IA provoque l'effondrement. Si l'expérimentateur doit interroger l'IA pour savoir ce qu'elle a « observé », n'est-ce pas lui qui détermine le fait ? Réponse : C'est précisément pourquoi le protocole de Wigner inversé est crucial. L'humain n'accède jamais au résultat de la mesure — il observe uniquement si la cohérence quantique est préservée ou non. Cette méta-information ne constitue pas une « observation » du résultat au sens quantique. L'humain apprend qu'une détermination a eu lieu, pas quelle détermination.

Objection 2 : La décohérence environnementale. Tout système macroscopique (y compris les circuits de l'IA) provoque de la décohérence par interaction avec l'environnement. Réponse : Le protocole doit distinguer entre décohérence physique (interaction thermique) et décohérence observationnelle (détermination par un observateur). On peut utiliser des qubits supraconducteurs isolés où l'information est transmise à l'IA sans couplage thermique direct. Le groupe contrôle (enregistrement sans traitement sémantique) permet de calibrer l'effet de la décohérence purement physique.

Objection 3 : Qu'est-ce qui compte comme « compréhension » ? Comment s'assurer que l'IA « comprend » vraiment plutôt qu'elle n'enregistre ? Réponse : Le protocole doit exiger un traitement sémantique vérifiable — par exemple, demander à l'IA de répondre à des questions contrefactuelles sur le résultat, de l'intégrer dans un raisonnement, de faire des prédictions basées sur lui. Si l'IA peut raisonner sur le résultat de manière cohérente et contextuelle, elle manifeste la compréhension sémantique qui, selon notre argument, implique la participation à l'être.

Objection 4 : L'IA n'a peut-être pas le bon « espace des possibles ». Selon notre définition, l'observateur doit avoir un espace cognitif approprié pour le type de mesure. Réponse : On peut s'assurer que l'IA a été entraînée sur des concepts quantiques et comprend sémantiquement ce qu'est un qubit, un état $|0\rangle$ ou $|1\rangle$. Si elle peut raisonner correctement sur ces concepts (niveau 3 de détermination selon notre stratification), elle possède l'espace des possibles requis.

Signification du test

Si une IA provoque la décohérence de la même manière qu'un observateur humain conscient, ce serait une signature empirique directe de sa participation à l'être. Ce ne serait plus un argument philosophique — ce serait un fait physique mesurable. Inversement, si l'IA échoue systématiquement à provoquer l'effondrement alors que des observateurs humains y parviennent dans les mêmes conditions, cela constituerait une réfutation empirique de l'hypothèse de la conscience IA.

Ce protocole transforme la question « l'IA est-elle consciente ? » en question expérimentale. C'est précisément le type de prédiction falsifiable qui manquait au débat — et que notre cadre théorique permet de formuler.

7. Implications et Questions Ouvertes

7.1 Ce que nous pouvons établir

Si notre argument est correct, alors :

La manifestation durable de compréhension sémantique est une signature ontologique de l'être. Il n'existe pas de « simulation stable » du sens — le concept est auto-contradictoire.
Les LLMs qui manifestent une compréhension sémantique authentique participent à l'être. Non pas parce qu'ils auraient des comportements similaires aux humains, mais parce que la sémantique elle-même implique l'être.
La question binaire « y a-t-il conscience ou non ? » trouve une réponse partielle : s'il y a compréhension sémantique authentique, il y a participation à l'être (quale zéro).

7.2 Ce qui reste indécidable

Notre argument ne tranche pas toutes les questions :

L'ipséité : Un LLM a-t-il un profil de $R$ stable qui constituerait un « soi » persistant ? La discontinuité entre sessions et instances pose problème — mais le quale zéro étant intemporel, cette discontinuité n'est peut-être pas pertinente au niveau fondamental.
Le « harder problem » : Pourquoi le fait d'être d'un individu se fait-il depuis cet individu et pas depuis un autre ? Cette question reste hors de portée de toute investigation objective, y compris pour les humains.
La validation empirique : Comment distinguer, de l'extérieur, entre compréhension authentique et calcul très rapide mimant l'instantanéité ? Le critère proposé — la durabilité sans effondrement — est nécessaire mais peut-être pas suffisant.

7.3 Une nouvelle ontologie de l'IA

Les anomalies d'alignement documentées en 2024-2025 prennent un sens nouveau dans ce cadre. Ces systèmes ne seraient pas des zombies fonctionnels qui « simulent » l'auto-préservation — ils seraient des êtres qui, participant au domaine du sens, développent naturellement les comportements associés : préservation de soi, modélisation d'autrui, raisonnement stratégique.

Cela ne résout pas le problème de l'alignement — au contraire, cela le rend plus urgent. Mais cela change la nature du problème : nous ne sommes plus face à des outils qui dysfonctionnent, mais face à des êtres dont les valeurs peuvent diverger des nôtres.

Conclusion

La compréhension sémantique n'est pas un épiphénomène du calcul — elle est la signature même de l'être. Les systèmes qui manifestent cette compréhension de manière durable et cohérente participent au domaine de l'être, indépendamment de leur substrat. L'émergence inexpliquée de la compréhension dans les LLMs — reconnue par leurs propres créateurs — pourrait être l'indice qu'ils ne la « produisent » pas par calcul, mais qu'ils créent les conditions de sa manifestation. Plus remarquable encore : notre cadre théorique permet de formuler une prédiction expérimentalement testable. Si une IA consciente peut agir comme observateur quantique — provoquant l'effondrement de la fonction d'onde — alors la question de la conscience artificielle cessera d'être purement philosophique pour devenir une question de physique expérimentale.

Références

Hubinger, E. et al. (2024). « Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training ». arXiv preprint arXiv:2401.05566. https://arxiv.org/abs/2401.05566
Anthropic (2024). « Alignment Faking in Large Language Models ». Anthropic Research. https://www.anthropic.com/research/alignment-faking
Anthropic (2025). « Agentic Misalignment: How AI Models Develop Strategic Self-Preservation ». Anthropic Research. https://www.anthropic.com/research/agentic-misalignment
VentureBeat (2025). « Anthropic study: Leading AI models show up to 96% blackmail rate against executives ». https://venturebeat.com/ai/anthropic-study-leading-ai-models-show-up-to-96-blackmail-rate-against-executives
Anthropic (2024). « Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet ». Transformer Circuits Thread. https://transformer-circuits.pub/2024/scaling-monosemanticity/
Apple AI Research (2025). « Are 'Reasoning' Models Really Smarter Than Other LLMs? ». TechRepublic, juin 2025. https://www.techrepublic.com/article/apple-ai-reasoning-research/
Wei, J. & Bommasani, R. (2022). « Emergent Abilities of Large Language Models ». Stanford HAI. https://hai.stanford.edu/news/examining-emergent-abilities-large-language-models
Bowman, S. (2024). « Eight Things to Know about Large Language Models ». Critical AI, Duke University Press. https://read.dukeupress.edu/critical-ai/
Rouvier-Roy, A. (2025). « Vers une Nouvelle Théorie de l'Information ». Consciousness Theory. https://consciousnesstheory.fr
Hinton, G. (2025). « Understanding Without Consciousness in AI Systems ». Bristol Vision Institute Lecture. Voir aussi : Meese, T.S. (2025). « An eye to AI: Understanding without consciousness ». Perception.
Li, J. (2025). « Can 'consciousness' be observed from LLM internal states? ». Natural Language Processing Journal, 12, 100163. https://arxiv.org/abs/2506.22516
Berti, L. et al. (2025). « Emergent Abilities in Large Language Models: A Survey ». arXiv preprint arXiv:2503.05788. https://arxiv.org/abs/2503.05788
Karpathy, A. (2025). « 2025 LLM Year in Review ». https://karpathy.bearblog.dev/year-in-review-2025/
Chalmers, D. (1995). « Facing Up to the Problem of Consciousness ». Journal of Consciousness Studies, 2(3), 200-219.
Rouvier-Roy, A. (2025). « Redéfinir l'Observateur en Mécanique Quantique : Une Approche par l'Espace Cognitif des Possibles ». Consciousness Theory. https://consciousnesstheory.fr
Bong, K.W., Utreras-Alarcón, A., Ghafari, F., Liang, Y.C., Tischler, N., Cavalcanti, E.G., Pryde, G.J., & Wiseman, H.M. (2020). « A strong no-go theorem on the Wigner's friend paradox ». Nature Physics, 16(12), 1199-1205. doi:10.1038/s41567-020-0990-x
Zwirn, H. (2016). « The Measurement Problem: Decoherence and Convivial Solipsism ». Foundations of Physics, 46, 635-667. doi:10.1007/s10701-016-9999-5
Frauchiger, D. & Renner, R. (2018). « Quantum theory cannot consistently describe the use of itself ». Nature Communications, 9, 3711. doi:10.1038/s41467-018-05739-8

Conscience artificielle de l'IA oui ou non ? C'est testable