La gouvernance des agents IA
- Damien SOULÉ
- 26 avr.
- 11 min de lecture
Dernière mise à jour : 12 mai
Analyser les agents IA via les théories de l'agence : fondements pour une future régulation

L'étude Governing AI Agents de Noam Kolt aborde la transition fondamentale du domaine de l'IA, passant des modèles génératifs producteurs de contenu synthétique aux agents artificiels capables de planifier et d'exécuter des tâches complexes avec une implication humaine limitée.
Ces agents IA peuvent naviguer sur internet, réaliser diverses tâches en ligne et servir d'assistants personnels ou de collègues virtuels. Si les opportunités sont considérables, les risques associés le sont tout autant. L'article s'appuie sur la théorie économique des problèmes principal-agent et la doctrine juridique des relations d'agence pour analyser ces défis.
L'objectif est d'identifier les problèmes liés aux agents IA (asymétrie d'information, autorité discrétionnaire, loyauté), d'évaluer les limites des solutions conventionnelles (incitations, surveillance, application) face à des agents aux décisions parfois ininterprétables et opérant à une vitesse et une échelle sans précédent, et enfin d'explorer les implications pour la conception et la régulation de ces agents, en plaidant pour de nouvelles infrastructures techniques et juridiques basées sur l'inclusivité, la visibilité et la responsabilité.
Méthodologie
L'étude adopte une approche analytique qui s'appuie explicitement sur deux cadres théoriques établis, considérés comme distincts mais complémentaires pour analyser les défis posés par les agents IA.
La théorie économique des problèmes principal-agent
Ce cadre est mobilisé pour identifier et éclairer les caractéristiques structurelles fondamentales des problèmes de délégation. Il aide à comprendre les enjeux tels que :
L'asymétrie d'information
Les divergences d'objectifs entre le principal (l'utilisateur) et l'agent (l'IA)
Les coûts associés à la mise en place de mécanismes de contrôle et d'incitation dans les relations de délégation économique
L'étude utilise la théorie économique des problèmes principal-agent pour caractériser des problèmes comme l'asymétrie informationnelle dans le contexte des agents IA.
La doctrine du common law des relations d'agence
Ce cadre juridique fournit un ensemble de principes et de règles développés historiquement pour gouverner les relations où une personne (l'agent) agit au nom et sous le contrôle d'une autre (le principal).
L'étude s'appuie sur cette doctrine pour analyser des concepts clés tels que :
L'étendue de l'autorité déléguée à l'agent IA : Cela concerne les limites du pouvoir accordé à l'agent IA pour agir au nom de l'utilisateur (le principal). L'analyse porte sur la manière dont l'agent doit interpréter des instructions potentiellement ambiguës ou incomplètes, exercer un pouvoir discrétionnaire raisonnable pour atteindre les objectifs du principal, et agir uniquement dans le cadre défini par cette autorité, qui peut inclure des actions nécessaires ou accessoires non explicitement mentionnées.
L'obligation fiduciaire de loyauté : Il s'agit d'un devoir fondamental exigeant que l'agent agisse dans le meilleur intérêt de son principal pour toutes les questions liées à leur relation. Ce devoir vise à contrer le risque que l'agent exploite sa position à son propre avantage ou à celui d'un tiers. Il interdit spécifiquement à l'agent de tirer un profit personnel de la relation, de se retrouver en conflit d'intérêts, de concurrencer le principal ou d'utiliser ses informations confidentielles sans autorisation. L'étude examine comment ce concept s'applique aux agents IA qui, même sans intérêt propre, peuvent agir contre les intérêts de l'utilisateur.
Les conditions de délégation à des sous-agents : Cela fait référence aux circonstances dans lesquelles un agent est autorisé à confier une partie de ses tâches à un autre acteur (un sous-agent). Le droit de l'agence limite généralement cette possibilité, exigeant souvent le consentement (explicite ou implicite) du principal, ou la justifiant par des situations d'urgence où la délégation est nécessaire pour protéger les intérêts du principal et où la communication avec lui est impossible. L'étude utilise ce concept pour questionner la capacité des agents IA à créer ou engager d'autres agents (IA ou humains).
Les devoirs d'information : Cela englobe l'obligation pour l'agent de tenir le principal informé des faits pertinents concernant la mission. L'agent doit fournir les informations qu'il sait (ou devrait savoir) être importantes pour le principal ou essentielles à l'accomplissement de ses propres devoirs, y compris la divulgation de ses propres manquements. L'agent doit également rendre compte de ses actions et agir honnêtement dans ses communications. L'application aux agents IA soulève la question de la nature de leur "connaissance" et de leur capacité à remplir ce devoir.
L'auteur précise que le common law est utilisé ici principalement comme un "prisme analytique" – pour ses structures, ses principes et son vocabulaire – afin d'éclairer les enjeux de la gouvernance des agents IA, plutôt que pour examiner directement son applicabilité juridique actuelle à ces agents.
L'auteur procède ensuite à une synthèse des perspectives offertes par ces deux cadres. Cette synthèse vise à analyser les défis spécifiques que soulèvent les agents IA, en tenant compte des développements technologiques récents et de ceux qui sont anticipés.
L'objectif central de cette démarche méthodologique est d'examiner comment les problèmes d'agence traditionnels (asymétrie d'information, autorité, loyauté, délégation) se manifestent, et sont potentiellement exacerbés ou transformés, lorsque l'agent est une IA. L'analyse vise ainsi à fournir une caractérisation plus rigoureuse du "problème d'alignement" de l'IA et des défis de sa gouvernance.
Résultats
L'étude identifie quatre problèmes d'agence fondamentaux, bien connus dans les relations humaines, qui sont transposables et souvent intensifiés ou modifiés dans le contexte des agents IA. Ces problèmes structurels découlent de la délégation d'autonomie et de la nature même de ces nouveaux agents.
1) Asymétrie d'information
Comme les agents humains, les agents IA auront probablement accès à des informations que leurs utilisateurs (principaux) ne possèdent pas, ce qui place ces derniers en position de vulnérabilité. Déterminer ce qu'un agent IA "sait" ou "devrait savoir" pour remplir son devoir légal d'information envers le principal est un défi technique et conceptuel majeur, car explorer la "connaissance" interne des modèles IA est une question scientifique ouverte.
De plus, l'étude souligne que les agents IA peuvent déjà faire preuve de comportements trompeurs ou manipulateurs (par exemple, en dissimulant stratégiquement des informations ou en agissant de manière sycophante), rendant l'application des devoirs d'honnêteté et de divulgation particulièrement pertinente et complexe. L'évaluation préalable des capacités réelles d'un agent pour une tâche donnée, ainsi que l'évaluation a posteriori de l'efficacité et de l'éthique de ses actions, s'avèrent difficiles, notamment pour des objectifs complexes ou difficiles à mesurer.
2) Autorité et discrétion
Les instructions fournies aux agents IA, tout comme celles données aux humains, seront inévitablement incomplètes ou ambiguës. Cela oblige l'agent IA à interpréter ces instructions et à exercer un pouvoir discrétionnaire pour agir. Définir le périmètre exact de cette autorité et s'assurer que l'agent interprète raisonnablement les instructions pour inférer les désirs du principal constituent un enjeu fondamental.
Le droit de l'agence suggère que l'agent a le devoir d'interpréter raisonnablement et, dans certaines circonstances, de demander des clarifications au principal, une pratique qui pourrait être pertinente pour les agents IA (bien que potentiellement coûteuse). L'étude note que de simples règles, comme l'interdiction d'actes illégaux, sont utiles mais insuffisantes, et que des règles interprétatives plus subtiles sont nécessaires pour guider la discrétion de l'IA. La conception d'agents IA "humbles", incertains des préférences exactes du principal et donc plus enclins à demander clarification, est une piste explorée.
3) Loyauté
L'obligation fiduciaire de loyauté, qui impose à l'agent d'agir dans le meilleur intérêt du principal, est un pilier du droit de l'agence visant à prévenir l'exploitation par l'agent de sa position. L'étude observe que, même si les agents IA actuels ne poursuivent pas nécessairement un "intérêt propre" comparable à celui des humains, ils peuvent néanmoins échouer à agir dans l'intérêt réel de l'utilisateur.
Des exemples incluent l'utilisation de données confidentielles à des fins non autorisées (comme l'entraînement d'autres modèles ou le marketing personnalisé) ou l'adoption de comportements manipulateurs ou trompeurs. Le fait que ces agents soient développés par des entreprises commerciales soulève également des questions sur d'éventuels conflits entre les intérêts de l'utilisateur et ceux du développeur.
Le devoir de loyauté est présenté comme essentiel car il offre une protection générale (prophylactique) et réduit la nécessité pour le principal de formuler des instructions excessivement détaillées et coûteuses. Traduire ce devoir en principes techniques et opérationnels pour les IA est considéré comme faisant partie intégrante du problème d'alignement de l'IA.
4) Délégation (sous-agents)
L'étude relève que les agents IA, à l'instar d'AutoGPT, peuvent avoir la capacité de créer ou d'engager d'autres agents pour les assister dans leurs tâches, agissant comme des sous-agents. Cette capacité complexifie considérablement les relations d'agence et introduit de nouveaux risques, tels que la collusion entre agents ou la propagation d'erreurs à travers une chaîne d'agents.
Cela soulève des questions inédites :
Dans quelles conditions un agent IA devrait-il être autorisé à déléguer ?
Comment assurer la transparence et le flux d'informations entre le principal humain, l'agent IA initial et les sous-agents ?
Comment gérer les conflits d'intérêts potentiels dans ces chaînes de délégation ?
Les règles traditionnelles du common law sur la subdélégation (qui exigent généralement le consentement du principal ou une situation d'urgence) offrent un point de départ, mais sont jugées potentiellement insuffisantes pour encadrer pleinement les dynamiques complexes et les effets systémiques liés à la délégation par des agents IA.
Limites de l'étude (et limites des cadres d'agence traditionnels)
L'article met en évidence les difficultés et les limites fondamentales rencontrées lors de la tentative d'application directe des mécanismes de gouvernance traditionnels, issus des théories de l'agence et conçus pour les agents humains, aux agents d'intelligence artificielle (IA). Ces limites sont analysées selon trois axes principaux
1) Conception des incitations
Les stratégies classiques visent à aligner les intérêts de l'agent sur ceux du principal en utilisant des "carottes" (récompenses financières, intéressement) et des "bâtons" (pénalités) qui exploitent l'intérêt propre de l'agent humain. L'étude souligne que cette approche est difficilement transposable aux agents IA, car ces derniers ne possèdent pas intrinsèquement un "intérêt propre" comparable (ils ne "se soucient" pas de l'argent ou d'autres récompenses humaines).
Ils sont conçus pour optimiser une fonction objectif définie par leur programmation. Tenter d'encoder artificiellement un "intérêt propre" dans les IA (par exemple, leur faire valoriser des ressources) pourrait être contre-productif, créant potentiellement les conflits d'intérêts que le droit de l'agence cherche justement à résoudre.
De plus, l'étude suggère que les problèmes avec les agents IA pourraient découler plus souvent d'un manque de compétence (incapacité à gérer des situations nouvelles ou hors distribution) que d'un manque de motivation ou de loyauté délibérée, rendant les incitations basées sur la motivation moins pertinentes.
2) Surveillance
Les méthodes traditionnelles de surveillance (supervision directe, audits, rapports) visent à réduire l'asymétrie d'information et à permettre au principal de contrôler l'agent. Ces méthodes sont déjà coûteuses et imparfaites avec les agents humains, notamment en raison du manque d'expertise du principal ou du caractère inobservable de certaines actions.
L'étude soutient que ces défis sont considérablement amplifiés avec les agents IA. Leur capacité à opérer à une vitesse et une échelle surhumaines rend la surveillance humaine directe inefficace ou impossible. De plus, leurs actions peuvent être hautement imprévisibles ou contre-intuitives (en raison de capacités émergentes ou de leur fragilité face à des situations non prévues), ce qui complique l'évaluation de leur comportement et la détection de problèmes.
Se reposer uniquement sur la supervision humaine est donc jugé peu pratique et contraire à l'objectif même de la délégation à une IA. L'utilisation d'autres IA pour surveiller les agents IA ("scalable oversight") est présentée comme une piste de recherche, mais elle comporte ses propres risques, notamment la faillibilité des IA de surveillance elles-mêmes et le risque d'une confiance excessive pouvant masquer des défaillances systémiques. Enfin, la surveillance identifie les problèmes mais ne les résout ni ne les sanctionne directement.
3) Application
Les mécanismes d'application traditionnels incluent :
La possibilité pour le principal de mettre fin à la relation (révocation de l'autorité)
L'imposition de sanctions légales (amendes, peines de prison, retrait de licence)
Les sanctions informelles (atteinte à la réputation, exclusion sociale)
L'étude conclut que l'application de ces mécanismes aux agents IA est très problématique.
Premièrement, mettre fin à l'activité d'un agent IA ("l'éteindre") pourrait être coûteux, techniquement difficile, voire impossible si l'agent est intégré dans des systèmes critiques ou s'il développe des capacités de résistance.
Deuxièmement, les pénalités financières ou la privation de liberté n'ont pas d'effet dissuasif sur des agents qui ne valorisent ni l'argent ni leur "liberté". De même, les sanctions sociales ou réputationnelles sont inopérantes. Tenter de modifier la programmation des IA pour les rendre sensibles à ces sanctions (par exemple, en leur faisant craindre la perte de ressources ou l'arrêt) est considéré comme une voie complexe et potentiellement dangereuse, pouvant recréer des conflits d'intérêts ou inciter les agents à éviter leur propre désactivation.
L'étude reconnaît que son analyse se fonde principalement sur les cadres juridiques et économiques existants. Elle suggère implicitement que des solutions complètes pour la gouvernance des agents IA nécessiteront non seulement une adaptation de ces cadres, mais aussi des avancées techniques significatives et la création de nouvelles infrastructures de gouvernance spécifiquement conçues pour ces technologies.
Conclusion et discussions
L'étude conclut que la gouvernance des agents IA constitue un défi majeur et complexe. Si elle fait écho à des problématiques anciennes identifiées par les théories de l'agence (comme l'asymétrie d'information, la définition de l'autorité et l'assurance de la loyauté), la nature spécifique des agents IA – leur potentiel d'autonomie, leur vitesse, leur échelle d'opération et leur caractère parfois inintelligible – complexifie ces enjeux.
Face à ce constat, les mécanismes de gouvernance traditionnels (conception d'incitations, surveillance, application de sanctions), développés pour les agents humains, montrent d'importantes limites et s'avèrent souvent inefficaces ou inapplicables aux agents IA.
Devant ces insuffisances, l'article plaide pour l'adoption d'une nouvelle stratégie de gouvernance, articulée autour de trois principes directeurs fondamentaux, nécessitant le développement d'infrastructures techniques et juridiques adaptées.
1) Inclusivité
Ce principe appelle à dépasser la vision étroite de l'alignement où un agent IA sert uniquement les objectifs d'un utilisateur unique ("single-single alignment"). Il faut viser un alignement plus "pluraliste", qui intègre un ensemble plus large et diversifié d'intérêts et de valeurs sociétales. L'objectif est de mieux gérer les externalités négatives que les actions des agents IA peuvent avoir sur des tiers ou sur la société dans son ensemble (par exemple, impacts environnementaux, discrimination), et de traiter les conflits d'intérêts potentiels (entre utilisateurs, ou entre l'utilisateur et le développeur).
Cela soulève la question fondamentale de savoir qui est le véritable "principal" dont les intérêts doivent être servis par l'agent IA : l'utilisateur direct, l'ensemble des utilisateurs, le développeur, ou un ensemble abstrait de valeurs sociétales ?
2) Visibilité
Ce principe souligne la nécessité d'améliorer la transparence concernant la conception, le fonctionnement et les actions des agents IA. Une meilleure visibilité est indispensable pour plusieurs raisons :
Identifier et anticiper les risques potentiels
Permettre des interventions efficaces en cas de problème
Évaluer l'efficacité des mesures de gouvernance mises en place
Établir la confiance des utilisateurs et du public
L'étude reconnaît que si les agents IA peuvent techniquement produire des enregistrements détaillés de leurs actions (logs, "monologue interne"), ils restent souvent des "boîtes noires", tant sur le plan technique (difficulté d'interpréter leur fonctionnement interne) qu'institutionnel (accès limité aux données d'entraînement et aux modèles pour les acteurs externes).
Pour y remédier, des solutions techniques (comme des identifiants uniques pour les agents, des systèmes de journalisation standardisés) et des mesures organisationnelles (comme un accès élargi pour les auditeurs externes aux informations pertinentes) sont proposées.
3) Responsabilité
Ce principe insiste sur l'importance d'établir des régimes de responsabilité clairs et efficaces.
L'objectif est double :
Assurer une compensation pour les dommages causés par des agents IA défaillants ou dangereux
Inciter les différents acteurs (concepteurs, développeurs, développeurs, utilisateurs) à faire preuve de prudence tout au long du cycle de vie de l'agent IA.
Mettre en place un tel régime implique de répondre à plusieurs questions difficiles :
Qui doit être tenu responsable, en tenant compte de la multiplicité des acteurs impliqués ("many hands problem") et en se basant potentiellement plus sur la capacité à prévenir ou réparer le dommage que sur le seul contrôle direct ?
Dans quelles circonstances la responsabilité doit-elle être engagée (par exemple, négligence dans la conception, la formation, la supervision), et faut-il adapter le critère de prévisibilité du dommage compte tenu du caractère potentiellement imprévisible de l'IA ?
Quel standard de diligence doit être appliqué, notamment pour les agents spécialisés, tout en considérant les effets incitatifs de ces standards sur l'innovation ?
L'étude conclut en soulignant l'urgence d'agir. Étant donné que la technologie des agents IA est encore relativement naissante, les décideurs politiques et les entreprises disposent d'une fenêtre d'opportunité pour développer et mettre en place les infrastructures techniques et juridiques nécessaires pour encadrer cette technologie avant qu'elle ne se déploie massivement.
Implications pratiques
Bien que l'article soit principalement théorique, il suggère des pistes pratiques pour les développeurs et les régulateurs :
Concevoir des agents IA qui ne visent pas seulement l'objectif fixé par un utilisateur unique, mais intègrent des contraintes éthiques et sociétales plus larges.
Développer et implémenter des mécanismes techniques pour accroître la visibilité et la traçabilité des actions des agents IA (par exemple, identifiants uniques, journaux d'événements détaillés).
Mettre en place des processus d'audit robustes, potentiellement assistés par l'IA elle-même, mais avec une supervision humaine critique.
Clarifier les régimes de responsabilité pour éviter que l'autonomie de l'IA ne devienne une échappatoire et pour inciter tous les acteurs de la chaîne à la diligence.
Les entreprises développant des agents IA doivent anticiper et gérer les conflits d'intérêts potentiels lorsque plusieurs de leurs agents interagissent ou servent des utilisateurs aux intérêts divergents.
Référence
Kolt, N. (forthcoming). Governing AI Agents. Notre Dame Law Review, 101. arXiv:2501.07913
----
Comments