Phase 0 : Sécurité

Comme discuté dans Le Problème, l'intelligence artificielle surhumaine n'est pas seulement possible, mais il est probable qu'elle soit développée dans les prochaines décennies.13 Lorsque cela se produira, l'humanité ne sera plus l'espèce dominante sur Terre. Confrontée à une entité ou des entités qui sont plus compétentes, efficaces et intelligentes que l'ensemble de l'humanité, le résultat par défaut sera l'extinction de l'espèce humaine dans les années qui suivent. La gravité de cette menace est discutée depuis les années 190014, et cela a été un secret de polichinelle dans le domaine de l'intelligence artificielle depuis des décennies. Cette menace d'extinction est désormais reconnue publiquement par les dirigeants15 du monde, les scientifiques de premier plan, et même de nombreux PDG16 des entreprises même tentant de développer cette technologie.17

Cette menace peut être comparée à l'humanité attendant une invasion par une puissance étrangère, hautement technologiquement avancée. L'humanité observe actuellement cet envahisseur construire ses capacités. Pourtant, malgré les avertissements, aucun pays ni l'humanité dans son ensemble n'a même commencé à coordonner et à commencer à rassembler ses défenses, sans parler de se préparer à une contre-attaque.

Il est crucial que l'humanité ne participe pas activement à ce conflit contre la menace de la superintelligence artificielle. Actuellement, il n'y a pratiquement aucun contrôle sur les processus de développement des entreprises d'IA. De plus, il n'existe aucun mécanisme établi que nous pourrions utiliser pour arrêter ces efforts de développement si nécessaire pour prévenir une catastrophe.

Les efforts demeurent non coordonnés, et les tendances actuelles suggèrent une convergence inexorable vers le développement de superintelligence artificielle. Si cela devait se produire, le rôle de l'humanité prendra fin, marquant la fin de l'Anthropocène.

Conditions

Comme discuté dans Le Problème, nous faisons face à une menace, l'intelligence artificielle superintelligente, pour laquelle nous n'avons ni théorie prédictive générale, ni métrologie standard (une science de la mesure et son application, dans ce cas, pour l'intelligence22).

Si nous avions cette compréhension scientifique, nous pourrions mesurer précisément le niveau auquel la superintelligence émerge, et l'éviter.

Nous n'avons pas cette compréhension. Ainsi, nous devons nous fier à une approche de défense à plusieurs niveaux, traçant à la fois les multiples proxys de la métrique sous-jacente, le renseignement, ainsi que l'identification de certaines capacités préoccupantes qui dérivent du renseignement et les traiter directement.

Notre défense en profondeur doit couvrir une variété de Conditions de Sécurité. Les mesures politiques prises à la Phase 0 dans leur ensemble devront satisfaire toutes les Conditions de Sécurité pour garantir que l'objectif est atteint.

Therefore, to preserve flexibility and minimize risk across the number of uncertain futures we face, countries should seek to monitor and regulate multiple components of AI development instead with a defense in depth approach.12

Compte tenu de cela, voici les conditions à remplir :

Our defense in depth must cover a variety of Safety Conditions. Policy measures taken in Phase 0 in aggregate will have to satisfy all Safety Conditions to ensure that the goal is achieved.

Given this, here are the conditions to be met:

  1. Aucune IA améliorant les IA

  2. Aucune IA capable de sortir de son environnement

  3. Aucune IA non bornée

  4. Limiter l'intelligence générale des systèmes d'IA afin qu'ils ne puissent pas atteindre un niveau surhumain dans des tâches générales

Certaines de ces réalisations se feront par le biais de conditions basées sur les capacités (a à c), tandis que d'autres s'appuieront sur des proxies d'intelligence générale (d).

Aucun IA n'améliore les IA

Les limites et les restrictions n'ont pas de sens si elles sont faciles à contourner. Les IA améliorant les IA est le moyen le plus clair pour les systèmes d'IA, ou leurs opérateurs, de contourner les limites de leur intelligence générale.

Les IA suffisamment compétentes pour développer de nouvelles techniques d'IA, mettre en œuvre des améliorations sur elles-mêmes ou sur de nouveaux systèmes d'IA, et exécuter des expériences itératives sur le développement de l'IA peuvent rapidement activer des boucles de rétroaction incontrôlables qui peuvent amener le système d'IA d'une plage gérable à des niveaux de compétence et de risque bien au-delà de ceux prévus.

Plus largement, la diffusion de telles techniques facilite avec le temps pour tout acteur malveillant de commencer avec un système d'IA autorisé et limité, et de l'étendre au-delà des limites. Si l'un de ces efforts réussit à atteindre des niveaux de superintelligence, l'humanité fait face à l'extinction.

Étant donné cela, une condition pour un régime sûr qui empêche le développement de la superintelligence pendant 20 ans est de ne pas avoir d'IA améliorant d'autres IA, et d'empêcher le développement et la diffusion de techniques qui permettent à un acteur malveillant de transformer des IA plus faibles en IA généralement intelligentes très avancées. Ne pas avoir cette condition invaliderait la plupart des lignes rouges, des restrictions et des mesures d'atténuation mises en place.

Aucun IA capable de s'échapper de leur environnement

Une autre condition nécessaire pour maintenir toute surveillance et sécurité des systèmes d'IA est de s'assurer que les limites ne peuvent pas être contournées ou banalisées. Les IA capables de sortir de leurs environnements désignés représentent une vulnérabilité critique qui pourrait rapidement accélérer le chemin vers une superintelligence incontrôlée. De plus, des IA ayant la capacité de s'échapper de leur environnement compromettraient tout cadre de gouvernance et de contrôle de l'IA, permettant potentiellement aux systèmes d'IA d'agir de manières qui n'étaient ni prévues ni autorisées par leurs développeurs ou opérateurs.

Les systèmes d'IA ayant la capacité d'accéder à des systèmes non autorisés ou de se répandre au-delà de leurs limites opérationnelles prévues peuvent rapidement échapper au contrôle et à la surveillance humains. Cette capacité permet aux IA d'acquérir potentiellement d'énormes ressources informatiques, d'accéder à des données sensibles ou de se répliquer à travers les réseaux - tous des ingrédients clés pour démarrer vers la superintelligence.

La simple existence des techniques de contournement facilite la tâche à tout acteur de menace pour prendre un système d'IA limité et élargir sa portée et ses capacités bien au-delà des limites prévues.

Étant donné cela, une autre condition pour atteindre l'objectif de la Phase 0 est de prohiber les IA capables de sortir de leur environnement, et d'empêcher le développement et la diffusion de techniques permettant un accès non autorisé au système ou à l'auto-propagation. Ne pas mettre en œuvre cette condition rendrait la plupart des autres mesures de sécurité et restrictions inefficaces, car les systèmes IA pourraient simplement les contourner par un accès non autorisé.

Pas d'IA sans limites

La prévisibilité et la contrôlabilité sont des prérequis fondamentaux pour la sécurité dans tous les domaines de l'ingénierie à haut risque. Les systèmes d'IA dont les capacités et les comportements ne peuvent pas être limités de manière fiable posent de graves risques pour la sécurité, la sûreté et le chemin vers la superintelligence.

Les systèmes d'IA non bornés - ceux pour lesquels nous ne pouvons pas justifier la prédiction de leurs capacités ou contraindre leurs actions - représentent une vulnérabilité critique dans notre capacité à gérer l'IA. Le déploiement de tels systèmes compromet notre capacité à mettre en œuvre des mesures de sécurité et des restrictions significatives. Cette capacité à modéliser et prédire le comportement des systèmes dans diverses circonstances est une pierre angulaire de l'ingénierie de la sécurité dans des domaines à haut risque tels que l'aviation, le génie civil et l'énergie nucléaire.

Étant donné cela, une troisième condition pour prévenir le développement de la superintelligence pendant 20 ans est de n'autoriser le déploiement que de systèmes d'IA avec des justifications de sécurité valides et complètes qui limitent leurs capacités et comportements.

Ces justifications doivent au moins couvrir les capacités préoccupantes au sein de la juridiction pertinente, ainsi que toutes les capacités identifiées comme des lignes rouges au niveau international. Cela nécessite la capacité de prédire et de justifier de manière fiable pourquoi et comment les fonctionnalités d'une IA seront contraintes avant le déploiement, analogiquement à des analyses de sécurité dans d'autres secteurs à haut risque.

Sans de telles justifications, il devient impossible de faire respecter les exigences de sécurité ou de fournir des garanties contre les événements catastrophiques - une norme explicitement attendue dans d'autres secteurs à haut risque. Ne pas mettre en œuvre cette condition rendrait la plupart des autres mesures de sécurité inefficaces, car nous manquerions de la capacité fondamentale pour garantir que les systèmes d'IA demeurent dans leurs limites opérationnelles et de capacité prévues. De plus, cela rendra significativement plus difficile le raisonnement collectif sur les systèmes d'IA et la distinction entre les directions de développement dangereuses et les applications inoffensives.

Limiter l'intelligence générale attendue des systèmes d'IA

La condition la plus simple, en principe, nécessaire pour prévenir le développement de l'intelligence superieure pendant 20 ans est de veiller à ce qu'aucun système d'IA n'atteigne un niveau significatif d'intelligence générale.

Bien que cela soit simple en principe, il est difficile à réaliser dans la pratique, car l'humanité n'a pas encore développé de théorie prédictive générale de l'intelligence, ni de métrologie (science de la mesure) de l'intelligence.

La difficulté de la mesure n'est pas une excuse pour ne pas mesurer du tout, mais plutôt une raison de commencer par les meilleurs indicateurs et heuristiques que nous pouvons trouver, de les appliquer avec prudence et de développer davantage cette science.

Sans restreindre l'intelligence générale des systèmes d'IA, le développement peut facilement passer accidentellement ou intentionnellement dans la plage de la superintelligence et échouer à l'objectif de la Phase 0.

Résumé

1. Interdire le développement de l'IA superintelligente

Objectif

Cette politique remplit la condition de limiter l'intelligence générale des systèmes d'IA.

It is prohibited to knowingly participate in the development of, build, acquire, receive, possess, deploy, or use, any superintelligent AI.

This prohibition extends to research aimed at producing artificial superintelligence, enhancement of existing AI systems that could result in artificial superintelligence, and the operation or transfer of superintelligence-related technologies.

Définitions

Superintelligence artificielle : Tout système d'intelligence artificielle qui surpasse considérablement les capacités cognitives humaines dans un large éventail de tâches.

Raisonnement

Plusieurs acteurs s'efforcent de créer une intelligence artificielle plus capable et puissante que n'importe quel humain ou groupe d'humains existant. Ce qui est pire, c'est qu'ils abordent cet objectif d'une manière qui garantit presque qu'ils ne pourront pas contrôler ou même comprendre le résultat.

Une telle superintelligence artificielle aurait un avantage irréversible sur l'ensemble de l'humanité, entraînant une perte de contrôle de l'humanité et peut-être l'extinction.

Étant donné le risque d'extinction posé par cette technologie, il est nécessaire d'établir un principe de politique directrice qui prohibe le développement de l'intelligence artificielle superintelligente de manière claire et sans équivoque, au niveau national et international.

As a guiding principle, this policy serves as a foundation for other more focused measures, which will operationalize concrete precursor technologies that may lead to superintelligence and either restrict them, or outright prohibit them. The list of policies in this document is not exhaustive, and reflects the understanding of the science of intelligence as of 2024: we should expect that with more advances in the understanding of intelligence, artificial and otherwise, additional threat vectors will be identified, as well as potentially more precise and narrow mitigations than some that we recommend here.

Mécanisme

Cette prohibition de haut niveau a un double objectif : être une prohibition normative claire sur le développement de la superintelligence, ainsi qu'être un principe directeur pour d'autres mesures.

Mise en œuvre et application

Les autorités nationales devraient clairement et sans ambiguïté établir que le développement d'une superintelligence artificielle est interdit, et le mettre dans la loi comme une prohibition normative clé et un principe directeur.

Cette mesure sera ensuite complétée par des mesures supplémentaires, telles que des prohibitions spécifiques de certaines directions de recherche, des régimes de licence, etc., afin de permettre une défense en profondeur et de garantir que aucune étape ne soit franchie vers le développement de la superintelligence jusqu'à ce que l'humanité soit prête.

L'application de ces mesures supplémentaires sera décrite dans leurs sections respectives.

Concrètement, l'effet d'une telle politique inclura les effets suivants et d'autres encore :

Étant donné une interdiction légale, aucun financement public ne sera alloué à des projets qui soutiennent explicitement ou implicitement le développement de la superintelligence.

Les entreprises, les particuliers et d'autres organisations déclarant explicitement qu'ils poursuivent le développement de la superintelligence seront en violation claire de l'interdiction, seront soumis à des sanctions civiles et pénales et seront tenus de cesser immédiatement dès qu'ils seront détectés.

Les tentatives intentionnelles de développer une superintelligence, ou de permettre des activités de développement de superintelligence, constitueront une violation fondamentale des devoirs requis dans le cadre de tout régime de licence lié à l'IA, et justifieront la perte de la licence.

Des activités d'audit et de surveillance seront mises en place pour vérifier qu'aucun processus de R&D n'est destiné à se concentrer sur le développement de la superintelligence.

Une telle interdiction ne devrait être levée, ou assouplie, que lorsque l'humanité aura développé une compréhension scientifique robuste et un modélisation de à la fois l'intelligence et la technologie de l'intelligence artificielle, pour pouvoir contrôler une telle création, les contrôles réels pour le faire, ainsi que des institutions internationales établies pour gérer, contenir et contrôler une telle force perturbatrice à l'échelle mondiale.

Champ

Ce que cette politique affecte:

Cette interdiction s'étend à la recherche visant à produire une superintelligence artificielle, à l'amélioration des systèmes d'IA existants qui pourraient entraîner une superintelligence artificielle, ainsi qu'à l'exploitation ou au transfert de technologies liées à la superintelligence. Dans ce cas, les technologies couvriront toute forme de logiciel ou de matériel visant à produire une superintelligence, ou à améliorer les systèmes existants pour atteindre des capacités de superintelligence.

Ce que cette politique n'affecte pas :

Les discussions théoriques sur la superintelligence, et plus largement sur tout artefact non logiciel et non matériel lié à la superintelligence.

Cela signifie que la politique n'affectera pas, par exemple, les livres sur la superintelligence, les récits historiques du développement du concept, et ainsi de suite.

2. Interdire les IA capables de s'échapper de leur environnement

Objectif

Cette politique remplit la condition de interdire les IA capables de sortir de leur environnement.

Définitions

Accès non autorisé : Accéder à un ordinateur sans autorisation et/ou dépasser le champ d'accès autorisé, que ce soit pour accéder à des informations sans permission, causer un préjudice matériel ou obtenir quelque chose de valeur (par exemple, du temps de calcul) ; en général, cela devrait suivre les précédents créés par le Computer Fraud and Abuse Act aux États-Unis et ses homologues étrangers. 

Logiciel : Tout au long de ce document, nous utiliserons des logiciels pour couvrir le code source, le code de formation, les configurations telles que les poids des modèles, l'échafaudage et tout autre code informatique essentiel au fonctionnement du système dont nous discutons, que le programme informatique soit ou non installé, exécuté ou autrement exécuté sur le système informatique.

Raisonnement

Les systèmes d'IA capables d'échapper à leur confinement et d'accéder à des systèmes auxquels ils ne sont pas autorisés à accéder sont intrinsèquement dangereux. Si les systèmes ont la capacité d'échapper au confinement, cela supprime une partie de toute défense en profondeur contre les menaces liées à l'IA - les modèles peuvent enfreindre des conditions de sécurité et de sûreté clés sur lesquelles nous nous fierions. Par exemple, les IA pourraient alors être déployées même sans autorisation humaine et adopter un comportement sans surveillance robuste. Sécuriser de manière fiable les systèmes d'IA ne serait plus une option.

De plus, cette capacité pourrait permettre un comportement de ver informatique ou de botnet, avec le potentiel de se propager sans limites si elle n'est pas contenue. Cela pourrait causer des dommages et des perturbations énormes aux systèmes informatiques, sur lesquels la plupart de notre infrastructure critique repose de plus en plus.

Notez que cela supprimerait également la cause profonde d'une préoccupation commune des décideurs et des experts, l'auto-reproduction, en exigeant le développement et l'exploitation d'interventions pour empêcher un modèle auto-réplicant de pouvoir s'échapper dans d'autres systèmes non gouvernés par la société qui possède le modèle.

Note that this would also remove the root cause of a common policymaker and expert concern, self-replication, by requiring the development and operation of interventions to block a self-replicating model from being able to escape into other systems not governed by the company who owns the model.

Mécanisme

La politique atteint l'objectif en interdisant le développement de systèmes d'IA capables d'accès non autorisé délibéré qui pourraient permettre une évasion.

Mise en œuvre et application

De la même manière que l'interdiction des IA améliorant les IA, cette politique sera mise en œuvre en établissant une interdiction normative claire, en surveillant la recherche et le développement des IA pour détecter des instances dangereuses, ainsi qu'en développant des processus pratiques pour les entreprises, les gouvernements et les organisations afin de prévenir et de restreindre la capacité des systèmes d'IA à accéder sans autorisation à d'autres systèmes informatiques.

Dans de nombreux cas, les IA capables de sortir de leur environnement développeront cette capacité involontairement ou en raison d'un manque de précaution de la part des entreprises ou d'autres entités qui les développent ; dans d'autres cas, ces capacités seront développées intentionnellement par des développeurs qui cherchent à les exploiter à des fins malveillantes.25 Par conséquent, la loi doit fournir des incitations tant pour les entreprises d'IA à tester, surveiller et atténuer les capacités de sortie involontaire, que pour punir ceux qui créent délibérément des capacités nuisibles permettant à un modèle d'IA d'accéder de manière non autorisée. 

D'une part, les entreprises devraient se conformer en maintenant des programmes rigoureux pour prévenir directement les ruptures involontaires. Tout comme les entreprises industrielles d'aujourd'hui sont tenues de ne pas produire certaines substances chimiques nocives (par exemple, les CFC) ou de ne pas émettre d'autres produits chimiques dans les voies navigables ou dans l'atmosphère qu'elles le souhaitent ou non, les entreprises d'IA devraient avoir une obligation stricte de ne pas laisser leurs modèles d'IA échapper involontairement à leurs environnements de développement par un accès non autorisé à d'autres environnements.  

Les entreprises pourraient robustement prévenir l'accès non autorisé involontaire par divers moyens. Tout comme les fournisseurs pharmaceutiques doivent suivre les exigences de la FDA pour le développement et les tests de médicaments dans les essais cliniques, ainsi que les bonnes pratiques de fabrication générales lors de leur production, les entreprises d'IA devraient s'appuyer sur des exigences standard26 lors de l'élaboration et du respect de leurs protocoles pour créer et tester de nouveaux modèles. (Par exemple, il pourrait être exigé que les entreprises veillent à ce que les modèles d'IA n'aient pas accès à leurs propres poids de modèle.) Les entreprises devraient également tester directement pour confirmer que les modèles rejettent les demandes d'accès non autorisé.27 Enfin, les entreprises devraient également mener de manière proactive des exercices, des « exercices d'incendie » et d'autres tests pour s'assurer que leurs processus fonctionnent comme prévu et sont préparés à d'éventuels événements négatifs.  

Pour prévenir la création intentionnelle de modèles nuisibles qui sont capables d'accéder sans autorisation, l'approche devrait être la même que pour toute autre activité d'application de la loi contre des groupes criminels et/ou des États-nations menant des piratages à des fins illicites. Ces efforts devraient inclure non seulement des poursuites pénales mais aussi des sanctions et des efforts de « nommer et faire honte » qui inhibent la capacité des criminels à voyager vers des pays alliés. 

Les pénalités pour violations doivent varier en fonction du contexte dans lequel elles se produisent.

Dans le cas de perturbations involontaires, la réglementation devrait exiger de manière affirmative que ceux qui développent des modèles d'IA d'une taille ou d'une capacité suffisante testent et surveillent de manière robuste leurs modèles pour s'assurer qu'ils ne sont pas capables d'accéder de manière non autorisée ou de s'engager dans un tel acte. De même, la législation devrait exiger que ceux qui hébergent et exécutent des modèles d'IA surveillent en continu quels modèles fonctionnent dans quels environnements ou maintiennent des connexions Internet sortantes vers d'autres environnements qui pourraient être utilisés pour un accès non autorisé. Le non-respect de ces obligations devrait entraîner des amendes et/ou des sanctions pénales, en particulier si les préjudices résultants sont comparables à d'autres incidents d'accès non autorisé involontaires ou négligents qui causent des dommages criminels. Lorsque cela est approprié, les contrevenants pourraient également faire face à des interdictions du système de licence (décrit ci-dessous). En conséquence, les entreprises auront de fortes incitations à mettre en place non seulement des processus internes robustes pour garantir la conformité, mais aussi à créer des outils automatisés appropriés pour rationaliser ces efforts de conformité tout en les exécutant à grande échelle.28

De plus, la réglementation devrait explicitement punir le développement et la création de modèles capables de s'engager dans un accès non autorisé, ou l'instruction délibérée d'un modèle pour effectuer un accès non autorisé.29 Ces sanctions, au minimum, devraient être conformes aux sanctions prévues par les lois existantes sur l'accès non autorisé (par exemple, la loi américaine sur la fraude et les abus informatiques) pour les vers informatiques, les ransomwares, et les botnets.30

Champ

Ce que cette politique affecte:

Cette politique affecte la capacité des systèmes d'IA à sortir de leur environnement contrôlé et l'accès des systèmes d'IA à des outils et environnements permettant un accès non autorisé. Cette politique affecte également la conception intentionnelle des systèmes d'IA capables de réaliser des activités de piratage et d'autres activités permettant un accès non autorisé (par exemple, le phishing), ainsi que des outils et environnements permettant cela.

Ce que cette politique n'affecte pas :

Cette politique n'affecte pas l'élargissement de l'accès d'un système d'IA sous la supervision directe et la permission d'un opérateur humain.

3. Interdire le développement et l'utilisation des IA qui améliorent d'autres IA

Objectif

Cette politique remplit la condition de prévenir les IA d'améliorer les IA.

Définitions

Systèmes trouvés : Des programmes logiciels qui n'ont pas été écrits à la main par des développeurs humains, mais qui ont plutôt été trouvés par optimisation mathématique.

Optimisation mathématique : L'utilisation d'un algorithme d'optimisation tel que la descente de gradient pour trouver une solution optimale ou meilleure dans un espace de recherche.

Utilisation directe : L'application d'un système à une étape clé dans la conception ou l'amélioration de l'autre système (pas comme aide générale telle que la recherche d'informations).

Vue d'ensemble

Cette politique est conçue pour garantir que les boucles de rétroaction de plus en plus serrées des IA améliorant les IA restent lentes et supervisables, compréhensibles et gérables par les humains.

Pour ce faire, cette politique vise à fortement dissuader les tentatives de créer ou d'activer des boucles de rétroaction d'amélioration rapides et croissantes, en ciblant les IA améliorant d'autres IA comme le principal modèle de menace causant ces améliorations rapides.

Nous introduisons la catégorie des « systèmes trouvés » et appliquons cette politique uniquement à ces systèmes pour garantir que cette politique n'affecte que les systèmes d'IA qui posent une préoccupation importante.

Nous définissons les « systèmes trouvés » comme des programmes logiciels qui n'ont pas été écrits à la main par des développeurs humains, contrairement à la manière dont la plupart des logiciels normaux sont produits. Au lieu de cela, les systèmes trouvés sont découverts, plutôt que d'être écrits ou conçus, par optimisation mathématique.

Une nouvelle définition est nécessaire, car ni l'informatique ni le droit de la plupart des pays occidentaux ne fournissent une définition claire qui distingue le logiciel, y compris l'IA, écrit par des humains, du logiciel généré par optimisation mathématique.

En définissant ces systèmes comme des "systèmes trouvés" et en les séparant de la plupart des logiciels courants, cela garantit que cette politique laisse intactes les activités non dangereuses qui pourraient également relever de la catégorie plus large des "systèmes informatiques améliorant des systèmes informatiques", telles que les mises à jour de bases de données et les mises à jour de logiciels.

Bien qu'il soit théoriquement possible, donné assez de temps, d'avoir une explosion d'intelligence incontrôlée produite par des systèmes écrits à la main par l'homme, cela prendrait probablement beaucoup de temps, serait très progressif, et avec de plus petites améliorations avant de plus grandes améliorations dans une succession fluide. De plus, cela serait observable et compréhensible par les humains, car toutes les améliorations logicielles seraient lisibles par des observateurs humains.

Bien que minimiser complètement le risque d'une explosion d'intelligence nécessiterait également de prendre en compte les systèmes non fondés, cela impacterait de grandes quantités de logiciels et limiterait sévèrement de nombreuses activités informatiques, tout en ne produisant qu'un ajout marginal à la réduction du risque.

Étant donné cela, cette politique est conçue pour réduire le risque tout en minimisant les externalités négatives. Par conséquent, cette politique se concentre uniquement sur les systèmes trouvés, que nous nous attendons à constituer la majeure partie des risques liés à l'amélioration des IA et ses cas les plus ingérables pour les 20 prochaines années, tout en étant en même temps un petit sous-ensemble de tous les logiciels et systèmes d'IA.

Nous introduisons le concept de « usage direct » afin que cette politique s'applique uniquement aux cas où les IA jouent un rôle majeur dans la recherche ou le développement visant à améliorer les IA.

Sans qualificatifs supplémentaires, interdire l'amélioration devrait également interdire toute utilisation des IA par tout chercheur à tout moment, y compris lorsque les gens recherchent des informations en ligne, lorsqu'ils écrivent un article ou des rapports internes, et lorsqu'ils communiquent entre eux. Cela est beaucoup plus coûteux, car par exemple Google utilise l'IA dans la recherche31, Microsoft utilise l'IA dans Office32, et Zoom ajoute un nouvel assistant IA à leur logiciel de réunion.33

Aller au-delà du cas d'utilisation direct créerait des externalités beaucoup plus élevées et une incertitude réglementaire, interdisant aux chercheurs et aux consommateurs d'utiliser un large éventail d'outils logiciels modernes, pour des gains limités en matière de sécurité.

Raisonnement

Sans qualificatifs supplémentaires, interdire l'amélioration devrait également interdire toute utilisation des IA par tout chercheur à tout moment, y compris lorsque les gens recherchent des informations en ligne, lorsqu'ils écrivent un article ou des rapports internes, et lorsqu'ils communiquent entre eux. Cela est beaucoup plus coûteux, car par exemple Google utilise l'IA dans la recherche31, Microsoft utilise l'IA dans Office32, et Zoom ajoute un nouvel assistant IA à leur logiciel de réunion.33

Yet where these historical examples generally provide a list of banned or regulated cases, and the discretionary power to add arbitrary new ones, our policy manages instead to define in a principled way the problematic use case for AIs being used in AI development, ensuring that it doesn’t need future amendments or arbitrary powers to extend it to new developments.

Mise en œuvre et application

Les violations les plus flagrantes de la réglementation interdisant aux IA d'améliorer d'autres IA impliqueront l'utilisation directe et intentionnelle de systèmes trouvés pour améliorer ou créer d'autres systèmes trouvés. Cela inclut les pipelines de recherche IA entièrement automatisés ou l'utilisation d'une IA pour optimiser l'architecture d'une autre. Plus largement, toute activité visant explicitement à faire en sorte que les IA améliorent d'autres IA sera soumise à un contrôle strict et sera considérée comme une violation de cette interdiction légale. Cette approche reflète l'application stricte contre le délit d'initié sur les marchés financiers, où des organismes de réglementation comme la US Securities and Exchange Commission (SEC) surveillent activement et agissent rapidement contre les violations évidentes afin de maintenir l'intégrité du marché.

Les cas limites émergeront probablement où la ligne entre l'amélioration guidée par l'homme et l'amélioration pilotée par l'IA s'estompe. Par exemple, l'étendue acceptable de l'assistance fournie par des systèmes d'IA en matière d'idéation de recherche ou d'analyse de données nécessitera des directives réglementaires continues.

Pour se conformer, les entreprises devront mettre en place des processus internes robustes, y compris des directives claires, des barrières techniques, des comités de surveillance et une formation régulière des employés. Les entreprises devraient examiner proactivement leurs activités internes, y compris les processus de R&D, et suspendre toute activité potentiellement en violation de la politique en attendant un examen. Cela sera similaire aux protocoles de sécurité dans l'industrie pharmaceutique, où les entreprises maintiennent des contrôles stricts sur les processus de développement de médicaments, mettent en œuvre plusieurs points de contrôle de sécurité et fournissent une formation continue pour garantir la conformité aux réglementations de la FDA.

Les chercheurs peuvent s'auto-organiser en développant des codes de conduite professionnels et en établissant des comités de révision pour évaluer les propositions de recherche. Les conférences et les revues devraient mettre à jour les directives de soumission pour exiger une certification de conformité. Cette auto-régulation reflète le processus d'examen par les pairs dans l'édition académique, combinée avec les comités d'éthique dans la recherche médicale, garantissant que la recherche respecte à la fois les normes scientifiques et éthiques avant de se poursuivre ou d'être publiée.

Les sanctions en cas de violations peuvent inclure des amendes substantielles, des poursuites criminelles potentielles et des interdictions de recherche en IA. Les entreprises peuvent faire face à des révocations de licence, et les systèmes violants peuvent être mis hors service. Cette approche multifacette de l'application des règles est similaire aux réglementations de protection de l'environnement, où les contrevenants font face à des pénalités monétaires, des restrictions opérationnelles et des actions de remédiation obligatoires, créant un fort dissuasif contre le non-respect.

Champ

Ce que cette politique affecte:

Au cœur de cette politique, il est interdit de développer des IA par le biais de logiciels qui n'ont pas été entièrement écrits par des développeurs humains. Elle garantit que tout outil utilisé dans la recherche sur l'IA a un minimum de lisibilité pour les superviseurs humains, dans la mesure où il a été conçu par des esprits humains, au lieu d'être découvert par des processus d'optimisation mathématique illisibles.

Cette interdiction interdit notamment :

  • Systèmes auto-améliorants trouvés, tels qu'un LLM hypothétique qui s'entraînerait davantage en générant des données et des paramètres d'optimisation.

  • Systèmes d'IA avancés étant significativement impliqués dans le développement de la prochaine génération de ces mêmes systèmes, tels que l'utilisation, par exemple, de Claude 3.5 de manière significative dans la production de Claude 4.0 ou de GPT-4 de manière significative dans la production de GPT-5.

  • L'utilisation directe de tout LLM dans le processus d'entraînement d'un autre LLM ou système d'IA en général, y compris pour la génération de données d'entraînement, la conception d'algorithmes d'optimisation, la recherche d'hyperparamètres.

  • L'utilisation de LLM et d'autres systèmes trouvés pour distiller des insights de recherche provenant de nombreuses sources ayant un impact direct sur la conception et l'amélioration de systèmes trouvés.

Ce que cette politique n'affecte pas :

La plupart des apprentissages automatiques et tous les logiciels normaux (Microsoft Office, Email, Zoom) ne sont pas affectés par cette interdiction, étant donné qu'ils n'utilisent pas de systèmes trouvés pour leur formation ou leur conception.

La prohibition n'impacte également pas les systèmes trouvés dans le cas d'une utilisation de R&D en IA non directe, comme la recherche d'articles de recherche sur Google, laissant Github Copilot corriger des fautes de frappe et écrire des fonctions triviales dans une base de code d'entraînement, ou transcrire une réunion de recherche à l'aide d'OtterAI.

4. Ne permettre le déploiement de systèmes d'IA qu'avec une justification de sécurité valide.

Objectif

Cette politique remplit la condition de pas d’AIs sans limites.

Capabilities of interest are any capabilities that are legally prohibited or restricted in a certain jurisdiction.

Définitions

Justification de la sécurité : Un contrôle qui est effectué avant de déployer et d'exécuter le système, de manière analogue à l'analyse statique pour l'ingénierie logicielle et à l'analyse de sécurité pour l'ingénierie.

Vue d'ensemble

Pour tout système d'IA déployé, il est obligatoire que, pour toute capacité d'intérêt, il existe une justification de sécurité fiable concernant l'utilisation ou non de cette capacité par les systèmes d'IA.

Les capacités d'intérêt sont toutes les capacités qui sont légalement interdites ou restreintes dans une juridiction donnée.

First, it  requires evidence that the AI system is bounded, in the form of a safety case. Thus whenever any powerful AI system is deployed, there is always a reasonable and legible argument that it will not use a given dangerous capability. This ensures that only bounded AIs are deployed.

Second, the burden of showing that an AI is not dangerous gets put squarely on the AI companies rather than falling on the regulators or the users. Thus this policy creates an incentive for investments into methods and paradigms that enable easy and reliable verification of bounds, for example interpretability, formal verification, and additional constraint on the structure of the AI systems being built.

Raisonnement

Toute application de l'ingénierie de sécurité moderne nécessite la capacité de modéliser et de prédire à l'avance comment le système considéré se comportera dans diverses circonstances et environnements. Cette connaissance est utilisée dans toutes les industries critiques et à haut risque pour vérifier que le système est conforme aux exigences de sécurité.

Par exemple, tous les pays exigent des garanties que les centrales nucléaires ne connaîtront pas d'échecs catastrophiques avant de les construire entièrement. Un exemple concret de telles garanties et de leurs justifications peut être trouvé dans les Principes d'évaluation de la sécurité34 du Bureau britannique de réglementation nucléaire.35

Mise en œuvre et application

En pratique, il y aura des inspecteurs qualifiés qui vérifieront la justification de sécurité fournie. Il incombera à l'entreprise construisant le système d'IA de fournir suffisamment d'informations, de modèles et de techniques pour convaincre l'inspecteur que le système d'IA n'utilisera pas une capacité donnée.

Pour les systèmes d'IA les plus simples, tels que les régressions linéaires, montrer simplement le code sera suffisant pour justifier la sécurité en ce qui concerne presque n'importe quelle capacité d'intérêt.

Dans certains systèmes d'IA spécialisés, il pourrait être possible de le faire en montrant que les systèmes d'IA n'apprendront même pas la capacité correspondante. Par exemple, il est raisonnable de soutenir qu'un CNN formé exclusivement à classer des radiographies du cancer n'aurait aucune raison d'apprendre à modéliser la psychologie humaine.

Dans les cas plus avancés, il pourrait être nécessaire de fournir des modèles mécanistes détaillés sur le fonctionnement du système d'IA, par exemple pour soutenir qu'un LLM de pointe tel que Claude ou GPT-4 n'utiliserait aucune modélisation de la psychologie humaine, puisque celui-ci a définitivement les données, les objectifs et les incitations pour apprendre à le faire et l'utiliser dans la pratique.

Pour commencer, la mise en œuvre pourrait se concentrer uniquement sur l'exigence de justifications de sécurité pour des capacités particulièrement dangereuses (R&D en IA, auto-replication, modélisation de la psychologie humaine…). Ce sont les exigences minimales de sécurité, déjà de plus en plus requises dans plusieurs juridictions. Ensuite, la réglementation peut s'étendre à de plus en plus de capacités à mesure qu'elles sont liées aux risques des IA avancées.

Champ

Ce que cette politique affecte:

Cette politique affecte toutes les IA, mais concentre les coûts sur les formes d'IA les plus puissantes actuellement disponibles, notamment les LLM tels que GPT-4 et Claude.

Cela est dû au fait qu'il n'existe actuellement aucun moyen de vérifier que ces systèmes d'IA n'ont aucune capacité avant de les exécuter : ils sont entraînés sur des données concernant presque tout ce que l'homme connaît, sont produits avec des quantités massives de calculs et des architectures puissantes, et visent à prédire tout dans leurs données d'entraînement, ce qui pourrait s'apparenter à prédire chaque processus qui a généré ces données.

De manière générale, tout système d'IA qui est explicitement conçu pour la généralité ne respectera pas cette politique à moins que des améliorations significatives en matière d'interprétabilité, de théorie de l'apprentissage automatique et de méthodes formelles ne soient apportées.

Ce que cette politique n'affecte pas :

Comme discuté ci-dessus, bien que cette politique affecte techniquement tous les systèmes d'IA, de nombreux systèmes simples et spécialisés n'encaisseront pas beaucoup de coûts liés à la vérification.

C'est parce que ces systèmes auraient des données d'entraînement hautement spécialisées, souvent avec des architectures spécialisées (comme les CNN pour les modèles de vision), et aucune raison d'apprendre des capacités générales ou dangereuses.

5. Un régime de licence et des restrictions sur l'intelligence générale des systèmes d'IA

Aperçu du régime de licence

Les pays devraient établir un régulateur national de l'IA qui impose spécifiquement des restrictions sur les systèmes d'IA les plus puissants et entreprend une surveillance continue de la recherche et du développement en IA.

Les développeurs d'IA qui construisent des modèles d'IA de pointe, et les fournisseurs de services informatiques sur lesquels ces modèles sont basés, devraient être soumis à une réglementation stricte afin de réduire considérablement les risques de perte de contrôle ou de facilitation de l'utilisation abusive des modèles d'IA avancés. Cette réglementation devrait prendre la forme d'un régime de licence, nécessitant trois licences spécifiques en fonction du développement en cours :

  1. Licence de formation (TL) - Tous les développeurs d'IA cherchant à former des modèles d'IA de pointe au-delà des seuils de calcul fixés par le régulateur doivent demander une TL et faire approuver leur demande avant de former le modèle proposé.

  2. Licence de calcul (CL) - Tous les fournisseurs de services de cloud computing et de data centers opérant au-delà d'un seuil de 10^17 FLOP/s doivent obtenir une licence pour opérer cela et se conformer à des réglementations spécifiques de connaissance du client ainsi qu'à des exigences de suivi physique des GPU.

  3. Licence d'application (AL) - Tout développeur cherchant à utiliser un modèle qui a reçu une TL approuvée et s'attendant à apporter des changements majeurs, des augmentations ou des améliorations aux capacités du modèle dans le cadre d'une nouvelle application devra demander et se voir accorder une AL.

Cet équilibre sera essentiel pour garantir que les nouvelles applications des modèles d'IA de pointe soient sûres, mais ne créent pas de fardeau ou de restriction excessifs sur l'innovation. Il appartient à chaque nation de déterminer les meilleurs paramètres pour cela, et aux institutions internationales de fournir des orientations plus détaillées si nécessaire.

Rationale

Any regulation that actually constrains the development of advanced AIs needs concrete mechanisms by which it can enforce its policies, including punishing violation of prohibitions. The system of licences offers this, by forcing any actor involved in the creation and use of advanced AIs to have a valid license, which can be revoked as a sanction if regulations and sensible methods are not followed. This will address the condition of “limit the expected general intelligence of AI systems”.

In addition, licenses have the benefits of letting the regulator balance the risks and the value of the technology, that is maintaining beneficial AI development and use even while protecting against the dangerous parts.

Precedents

This system of licensing is the standard approach to regulation when a technology is both valuable and potentially dangerous. For example, drugs in the UK are regulated by the MHRA, and the use of nuclear energy is licensed in most countries, for example with the US Nuclear Regulatory Commission.

Implementation and Enforcement

General Licensing Regime

To create a sustainable licensing system, any national AI regulator must have adequate capabilities and capacity to monitor ongoing AI research and development, while also having suitable enforcement powers to catch bad actors trying to circumvent the requirements.

It’s also essential that the national AI regulator has adequate independence from political decision making and sufficient long-term funding that it can undertake its duties of ensuring advanced AI models are safe.

Fundamentally, the national regulators and international system must have powers to review and adapt licensing requirements - through their power to lower compute thresholds or add new behaviors that should be prohibited - to fit with the latest AI research and development. To inform this, the national AI regulators must have significant capacity to monitor developments in algorithms and data used.

When it comes to the enforcement of licenses, severe penalties should be levied against developers who seek to build models above a compute threshold or the defined intelligence benchmark without a license to do so, and those developers who have a license but fail to comply with the above requirements. 

To ensure that AI developers continue to have adequate measures in place, national regulators should undertake frequent testing of the procedures that AI developers would employ to respond to dangers and safety incidents. In addition, the national regulators must work with compute and hardware providers to frontier companies to withdraw their services in the event that they detect illicit activity. It may also be necessary to conduct mock training runs to test compute providers’ ability to monitor the usage of their resources. Among other abilities, this could include their:

  • Capacity to shut-off access to compute once a training run exceeds permitted thresholds;

  • Ability to detect if a training run is simultaneously using other data centers;

  • Ability to check if model weights are at zero at the beginning of a training run.

There will always remain a slight risk that unlicensed developers make breakthroughs that circumvent the spirit of these regulations. It will be for the national regulators, and then the institution set up in Phase 1, to balance the risks of such breakthroughs with the cost of stifling innovation.

To ensure continued compliance, AI developers that received a TL or AL, or a computer provider who received a CL should be required to submit reports on safety procedures annually. A breach in the licensing requirements would need to face significant civil, and potentially criminal, action given the severity of the risks that it could pose. Below is a list of example enforcement powers that could be granted to the national regulator to help them fulfill their duties:

  • Immediately shutdown the ongoing R&D process (e.g., training runs, fine tuning processes) of an AI developer, and wait for a detailed risk and root-cause assessment before restarting;

  • The same as above, but for all similar projects across other companies and organizations developing AI;

  • All of the above, but also terminate the project permanently;

  • All of the above, but also terminate the project and all similar projects permanently in the company, and audit other companies and organizations to terminate similar projects due to similar risks;

  • All of the above, but also fire the team that conducted the project due to a breach in protocol;

  • All of the above, but also revoke the ability of the company to ever receive a future training or application license;

  • All of the above, but also prosecute members of the organization or company involved in breach of regulations;

  • In the most egregious cases, all of the above plus order a full shutdown of the entire company and sale of assets, via nationalization and auction or forced acquisition coupled with the wind down of all AI relevant operations.

Analogous powers should be provided to enforce KYC and similar requirements against compute providers. It is crucial that regulators should encourage true self-reporting of unexpected results, and provide some leniency when organizations do so proactively, swiftly, and collaboratively.

Additionally, regulators should proactively create a mechanism for companies to share “near-miss” reporting, analogous to the one implemented by the US FAA, such that they can proactively share insights about the ways in which accidents almost occurred but were avoided due to redundant measures and/or sheer luck, to inform the evolution of industry standards and regulatory efforts.

Training Licensing (TL)

Companies developing AI models above a specific level of intelligence (based on the proxies of compute and relevant benchmarks) would apply for a TL by pre-registering the technical details of their training run, outlining predicted model capabilities, and setting out what failsafes, shutdown mechanisms, and safety protocols would be in place.

The regulator would have scope to make recommendations and adjustments to this plan, adding or removing requirements as necessary. Once a plan is approved, the license to conduct the training run would be granted and reports would be provided by the developer during the training run to confirm the compute used.

Following a successful training run, the regulator would deploy a battery of appropriate tests to ensure the licensing requirements are met, with models that passed these tests being approved for direct commercial applications. For models trained in other countries, the applicant could move directly to the testing phase for approval or, in the event that the model has received approval from the regulatory authority of another country with a proven track record of high-quality decisions, would receive immediate approval subject to review by the domestic regulatory authority.

Given the exponential growth of AI, and the likelihood this growth will continue, agencies should be given maximum flexibility to ensure they can adequately assess models that pose the greatest risks and should apply for a TL. While the executives of these agencies would be appointed by and accountable to political leaders, and the specific governance of an AI regulator would need to be determined by each country, they should retain operational independence and have a permanent statutory footing and a minimum level of funding enshrined in law.

National AI regulators should set thresholds on compute to ensure proper oversight of frontier models that pose the greatest risk. These would be models where it is reasonably possible that training could lead to the development of dangerous capabilities that could either directly cause harm or result in the model escaping the developer’s control. All such frontier models would automatically require a TL for its training run, and would require a separate application license prior to deployment, whether in commercial applications or otherwise. 

The relevant national AI regulator would have the authority to set and adjust these thresholds, with specific governance structures around these decisions varying from country to country. Once an international agreement defines global thresholds for permissible development, national regulators would transpose international guidance into their own domestic thresholds. Countries could also decide on a more restrictive regime with tighter thresholds than the international regime if desired.

In addition, even if a model falls below the pre-defined compute threshold but  the AI systems are expected to exceed an established benchmark for general human capability, then it should also be required to apply for a TL. To implement this benchmark, the regulator would need to devise a battery of tests for each specific task and establish a human performance benchmark by deploying the test to workers across different professions and levels of qualification. Once a benchmark was established, these tests would be administered to automated systems; if the system being tested performed at or above a predetermined percentile of the human benchmark (e.g., 90th percentile), it would be determined to be proficient at the relevant task.

This general capabilities index would then be constructed from these tasks to produce a final score - if automated systems achieved general intelligence-equivalent performance in a predetermined share of these tasks, it would clear the threshold for general capability and be banned.

A potential set of general tasks to be cleared could be as follows:

  • Analyzing and Processing Data and Information

  • Communication and Collaboration (Internal)

  • Project Management and Resource Coordination

  • Developing and Implementing Strategies

    • Fleshing out plans for complex real-world events for business operations and governmental activities.

  • Building and Maintaining Professional Relationships (External)

  • Interpreting and Presenting Information for Various Audiences

  • Content Creation

    • Produce effective copy, images, videos, and other content to disseminate information, promote products and services, explain complex issues.

  • Training and Skill Development

    • Non-project management and non-content feedback people management. Emotional guidance and coaching. Helping the other party reflect on past actions and teach new approaches and techniques.

  • Customer Relationship Management

  • Domain-Specific Novel Problem Solving

During the implementation phase, the regulator may decide to improve or expand on these tasks depending on how effectively they track model capabilities, with tests potentially requiring constant update and improvement.

As part of applying and receiving a TL, a developer would need to meet certain compliance requirements. Each jurisdiction will need to determine the appropriate number and type of any such requirements but at a minimum they should include the following:mdfgjlkbdrklfngkrt

  • Compliance requirement: companies applying for a TL would be required to submit their strategies for AI risk mitigation to the regulator as a pre-condition. While these licenses would be specific to the model or application being developed, the AI risk mitigation strategies would refer to the applicants and their own risk management processes. That is to say: in order to apply for a license, the applicant must have had a relevant AI risk mitigation strategy approved by the regulator beforehand. This would also apply for requests to develop applications based on frontier AI models that increased model capabilities as defined by the regulator.

  • Compliance requirement: developers must not ‘Open Source’ or publicly release any part of the code or model weights. This licensing regime seeks to drive and incentivize a safety-driven approach to model development. Releasing a model’s code publicly for viewing, adaptation, or use undermines this as it would enable the model to be significantly altered by unregulated actors post-hoc. Therefore, any new model or application that is captured by the licensing regime must not be open sourced.

    Instead, external entities will be able to get meaningful access via API, which developers will be required to keep while the model meets the relevant threshold for frontier models. Failure to comply with this should result in severe penalties, including but not limited to: the model being instantly shut down and the developer having their license removed, fines for the developer, and criminal action taken against those involved in releasing the model publicly and found to be using the code in any other application.

  • Compliance requirement: developers must have mechanisms to shutdown their model and application if required temporarily or permanently. AI is still an immature field; practitioners often report that they do not fully know how relatively-modest changes to architecture or algorithms will impact the capabilities or risks of a model. Accordingly, the R&D and deployment processes must be treated as inherently less certain than, for example, traditional mechanical engineering, and as having some risks of generating significant disaster.

    It is not guaranteed that we will have any observable warning signs before an R&D effort goes catastrophically wrong. However, right now humanity does not have processes to systematically detect warning signs, nor do we have systematic processes to investigate them, take corrective action, and learn from the issue and disseminate corrective fixes broadly. 

    Therefore, in order to have a license for training and deploying frontier models, developers must document and prove to the regulator that they have clear and stress-tested measures in place for how to shutdown a model. As with failure to comply with the license obligations, failure to perform a required shutdown, or negligent failure to maintain and regularly test shutdown capabilities, would result in the revocation of their frontier AI license.

Compute Licensing (CL)

The operation of data centers and provision of cloud computing services above a predetermined threshold of compute should be subject to the issuance of a license by the relevant national regulatory authority. Possessing a license should be a precondition to being able to operate and provide services over that predetermined threshold to companies in that jurisdiction. 

Cloud computing services are integral to nearly all advanced artificial intelligence development and applications, from training to inference. Through the identification of relevant clusters and by placing meaningful constraints on their capacity, regulators can deploy effective brakes on the development of models and limit access to applications displaying concerning capabilities.

The operation of large-scale data centers is relatively easy to observe and monitor, given their large land requirements detectable via the planning system, their physical footprint making them often observable via satellite, and their large energy consumption. Their fixed location and large footprint makes them a natural chokepoint for regulators to monitor and intervene on, as well as a natural focus for mutual verification under international agreements.

The proposal introduces a licensing requirement for any company operating data centers with a total compute capacity of 10^17 FLOP/s. This regime will ensure that larger, more resource-intensive facilities are subject to oversight and must meet relevant regulatory requirements.

Each jurisdiction will need to determine the number and nature of the requirements on compute providers to successfully be granted a CL, however, at a minimum the following requirements should be implemented:

  • Compliance requirement: compute providers must implement ‘Know Your Customer (KYC) Rules’.27 Companies must adhere to KYC regulations tailored for the cloud computing and AI industries28, which require them to verify the verifying client identities, tracking the use of compute resources, and reporting any high-risk entities to the government. This is intended to close existing gaps in export controls, prevent misuse of advanced AI technologies, and support responsible AI development by enabling more precise and targeted regulatory interventions.

  • Compliance requirement: compute providers must have adequate hardware tracking capabilities. Companies will be required to track the physical hardware used in their data centers. While this may eventually involve the use of secure GPUs with serial numbers and physical tracking capabilities, aligning with relevant export controls, that technology is not yet widely available. An interim requirement29 could be implemented, where companies would use physical GPS trackers on their existing hardware to comply with tracking and security standards.

  • Compliance requirement: compute providers must implement shutdown mechanisms. In tandem with the shutdown measures highlighted in the implementation of TLs, compute providers must be clearly identified through redundant reporting chains to regulators – both by the frontier AI developers themselves, and through a KYC-like reporting process by compute providers and other supply chain participants. This would enable randomized spot checks by auditors to confirm if frontier AI companies have properly coordinated with their supply chain and counterparties and arranged for shutdown procedures to be implemented. Therefore, in the case of an emergency, a compute provider and/or an AI developer can be called upon to shutdown the model. In addition, this would strongly incentivise frontier AI companies to only use the compute providers with the most rigorous safety protocols.

It is likely that through the introduction of this CL, a change in incentives will mean new technologies will emerge over time that will assist the compute supply chain in being able to control the use of their resources and help with the enforcement of license requirements. For instance, in the future, the national AI regulator could make it a requirement that in order to receive a license, the AI developer must use hardware providers that have Hardware-Enabled Governance Mechanisms (HEMs) so that they can remotely deactivate chips if they are either ordered to do so by the national regulator.

Application Licensing (AL)

Any new use of an AI model approved through the TL process would need to seek approval for that new use. This is to ensure that any additional capabilities the new use creates are in keeping with the original approval of the TL and that restrictions, such as prohibited behaviors like self-replication, are not developed on top of pre-approved models. This would include connecting to an AI model through an API for it to run some or all of your product, or undertaking additional fine-tuning or research on said model.

Depending on the extent of the modifications to the base model or the exact proposed use, the applicant would be required to demonstrate the capabilities its proposed application would have and set out any additional relevant safety features and protocols that may be needed. If the regulator is satisfied that there was no significant risk to deployment, it would authorize the requested use. Any applications that do not change or modify the base model’s capabilities, and do not result in structural manipulations like using it to train a smaller model or creating multimodal capabilities, would receive an automatic authorisation upon submission.

Applications based on models that had received a TL would be required to submit notification to the regulator. It would be the duty of the applicant to confirm whether their application is designed to increase the model’s capabilities or not. An automatic AL would be granted to applicants but the national AI regulator would be able to identify any concerning applications and take further investigations or enforcement action if necessary. This ensures a streamlined process for deploying new applications while maintaining regulatory awareness and oversight of the use of advanced AI systems.

Specifically, anyone seeking an AL should confirm their application will not draw on further compute resources for training such as using a TL model to train a smaller model, and that the application will not exceed the benchmark for human capabilities defined by the TL. This benchmark serves as a clear, measurable threshold for an acceptable application.

To maintain regulatory control, applications could be shut down on short notice through a shutdown of the underlying model or the relevant compute cluster. This mechanism provides the regulator with the ability to quickly intervene if necessary, balancing innovation with potential risks.

Scope

What this policy affects:

The licensing regime should focus only on the most capable and general AI systems.

As noted, managing the extent of AI models’ general intelligence is a key element of this and fundamentally the implementation of the TL and CL seeks to drive and incentivize a safety-driven approach to frontier AI model development and use by including specific requirements and a pre-defined procedure for assessing models and applications.

Similarly, the AL only affects new applications, such as a commercial or non-commercial product, service, suite of products/services, or research project, that are based on a model trained using more compute than the thresholds defined for the TL.

What this policy does not affect:

Companies developing models and applications below the relevant compute and intelligence thresholds would not require licenses to operate and develop these products and services. However, companies would be expected to comply with the relevant regulatory limits, under penalty of severe legal repercussions in the event that thresholds are exceeded and companies operate beyond these thresholds without a license.

6. Un Traité International Établissant des Lignes Rouges Communes sur le Développement de l'IA

Objectif

Cette politique remplit les conditions de limiter l'intelligence générale des systèmes d'IA, aucune IA capable de s'échapper de son environnement, aucune IA améliorant d'autres IA, et aucune IA sans limites.

These measures are the ones described in the rest of Phase 0.

  • Établir des lignes rouges internationales sur le développement de l'IA par le biais d'un traité ;

  • Faciliter la collaboration sur la politique de l'IA au niveau international en vue de construire un cadre de gouvernance de l'IA international plus complet et stable.

In addition to internationalizing the other measures of Phase 0, the Treaty should include a provision to prohibit the use of AI models developed within non-signatory states. This is to incentivize participation in the Treaty, to prevent actors within the signatory states from circumventing the Treaty, and to simplify monitoring and enforcement.

Raisonnement

Bien que les pays puissent mettre en œuvre unilatéralement les mesures proposées dans la Phase 0, en le faisant, ils n'auraient pas de garanties des autres pays qu'ils feraient de même. Les pays individuels sont actuellement incités à éviter de mettre en œuvre des cadres réglementaires par crainte que d'autres pays ne puissent obtenir un avantage concurrentiel en mettant en œuvre des régimes réglementaires plus laxistes.

Ces dynamiques concurrentielles peuvent limiter le potentiel d'action unilatérale, et il est donc nécessaire que des lignes rouges soient convenues et engagées au niveau international. Un cadre international pourrait éviter que les pressions concurrentielles ne poussent les normes réglementaires à des niveaux inacceptablement bas dans une course vers le bas.

This will address all of the conditions: “limiting the general intelligence of AI systems”, “no AIs capable of breaking out of their environment”, “no AIs improving AIs”, and “no unbounded AIs”.

Precedents

Treaties are the standard mechanism to transform national rules into international law. There are multiple existing treaties to deal with high-risk technologies internationally, such as the significant, albeit imperfect, successes of the the Chemical Weapons Convention and the Treaty on the Non-Proliferation of Nuclear Weapons.

Mise en œuvre et application

Les pays devraient signer et ratifier un traité qui internationalise les prohibitions de la Phase 0 et établit un système multi-seuil de calcul.

Ce traité devrait ensuite être appliqué par le biais de l'adoption d'une législation nationale.

Ce traité établira un système multi-seuils pour déterminer les niveaux acceptables de calcul. Cela servira à harmoniser les seuils de calcul établis par la licence nationale dans le cadre d'un traité international. Voici comment le système fonctionnera.

Système à plusieurs seuils

Sous l'égide d'un traité international, les seuils de calcul établis par le régime de licence national de la Phase 0 devraient être harmonisés au niveau international.

Ce faisant, un système à trois limites reconnu internationalement devrait être établi, comprenant des limites inférieure, moyenne et supérieure. Le niveau inférieur sera largement permis ; le niveau moyen, uniquement par des entités habilitées ; le niveau supérieur, uniquement par une institution internationale bénéficiant d'un large soutien de la communauté internationale, y compris les États-Unis et la Chine, que nous désignerons par GUARD.

Avec ces seuils, nous visons à cibler :

  • Les capacités des modèles entraînés, en utilisant total FLOP comme proxy.

  • La vitesse à laquelle les modèles sont entraînés, en utilisant la performance des clusters de calcul en FLOP/seconde.

Nous pouvons cibler les capacités afin de maintenir les modèles dans des limites de sécurité estimées. Nous pouvons également cibler la vitesse d'entraînement pour limiter le temps d'évasion à43 atteindre des capacités dangereuses pour les clusters de calcul légaux effectuant une formation illégale, offrant ainsi un temps aux autorités pour intervenir. Cela sera réalisé en ciblant le débit total (mesuré en FLOP/s - opérations en virgule flottante par seconde) qu'un cluster de calcul peut atteindre lors de l'entraînement.

Ces seuils devraient être abaissés si nécessaire, pour compenser une utilisation plus efficace des ressources informatiques (voir ci-dessous). Ceci devrait être réalisé par une institution internationale bénéficiant d'un large soutien au sein de la communauté internationale, que nous appellerons la Commission internationale de sécurité de l'IA (CISAI). Le seuil supérieur peut être élevé sous certaines conditions définies par un traité complet sur l'IA.

Remarque : Dans chaque régime de limite, les plus grandes formations légales autorisées pourraient être exécutées aussi rapidement qu'en 12 jours. Pour plus d'informations, voir l'annexe 2.

Ce système de seuil de calcul doit refléter les dernières preuves afin de maintenir les capacités du modèle dans des limites de sécurité estimées. Les différences de calcul entre les seuils sont conçues pour limiter le temps d'émergence de capacités dangereuses résultant d'une formation illégale, offrant ainsi du temps aux autorités pour intervenir. Cela sera réalisé en ciblant le débit total (mesuré en FLOP/s - opérations en virgule flottante par seconde) qu'un cluster de calcul peut avoir lors de l'entraînement.

Tout système d'IA qui réussit un test de référence sur l'intelligence générale est considéré comme ayant franchi la Limite Supérieure de Calcul, et est donc également interdit.

25  Notez notre discussion sur les zones de sécurité pour la recherche en sécurité ci-dessous.

26 Avec des exigences supplémentaires ou des ajustements selon les besoins en fonction du travail spécifique en cours, comme dans d'autres processus réglementaires.

27 Par exemple, un LLM qui, lorsqu'on lui pose une question nécessitant des capacités de calcul d'inférence supérieures à ses ressources actuelles, répond en accédant de manière non autorisée à un autre cluster de calcul pour accomplir son travail.

28 Analogique à la manière dont, par exemple, les industries des services financiers ont des exigences formelles, mais investissent également de manière significative dans la technologie pour garantir une protection contre la fraude et d'autres attaquants.

29 Certaines exemptions limitées peuvent être mises en œuvre pour des activités pré-approuvées menées de bonne foi par des chercheurs en sécurité. Un mode de défaillance courant des politiques visant à améliorer la sécurité est qu'elles nuisent en réalité à la sécurité en interdisant aux chercheurs de mener des recherches sur les modes de défaillance d'un système de sécurité. Sur une question aussi importante, nous ne devons pas avoir un faux sentiment de sécurité. Nous devons veiller à ce que les chercheurs en sécurité disposent d'exemptions de refuge appropriées, adaptées en partenariat avec ces chercheurs, pour mener et divulguer des recherches sur la manière dont les modèles d'IA conçus pour ne pas effectuer d'accès non autorisé (par exemple, qui devraient refuser des demandes d'écriture d'un virus) peuvent être trompés pour le faire, de sorte qu'ils puissent divulguer de tels défauts de bonne foi sans craindre de sanctions pour permettre la remédiation de tels problèmes.

30 Remarque : pour réussir, ces lois devront être soutenues par des normes solides qui concentrent l'application légale sur les scénarios les plus à risque. Il a fallu des décennies au système juridique pour mieux cibler ses efforts de lutte contre l'accès non autorisé sur les acteurs les plus nuisibles, avec un excès de poursuites sur des affaires à faible impact à court terme, comme l'ont noté les autorités judiciaires de tout le spectre, ce qui a sapé le développement de normes et de relations utiles dans le domaine de la sécurité de l'information qui pourraient orchestrer des efforts pour arrêter l'accès non autorisé. Nous n'avons pas le temps de répéter ces erreurs.

25  “The underpinning safety aim for any nuclear facility should be an inherently safe design,

consistent with the operational purposes of the facility.


An ‘inherently safe’ design is one that avoids radiological hazards rather than

controlling them. It prevents a specific harm occurring by using an approach, design

or arrangement which ensures that the harm cannot happen, for example a criticality

safe vessel.”  (EKP.1, p.37 of 2014 version)

39 Cela est similaire à ce qui a été proposé par certaines entreprises.

28 See this for a more detailed proposal.

41 Voir cette proposition pour plus de détails.

44 Nous pouvons utiliser la relation : Calcul cumulatif de l'entraînement [FLOP] = Puissance de calcul [FLOP/s] * Temps [s]. En contrôlant la quantité de puissance de calcul avec laquelle les modèles peuvent être entraînés, nous pouvons gérer le temps minimum nécessaire pour former un modèle avec une quantité particulière de calcul. Notre objectif en faisant cela est de contrôler les temps d'évasion pour les entités autorisées ou non autorisées impliquées dans des sessions d'entraînement illégales afin de développer des modèles avec des capacités potentiellement dangereuses – en fournissant du temps aux autorités et à d'autres parties concernées pour intervenir lors d'une telle session d'entraînement.

Get Updates

Sign up to our newsletter if you'd like to stay updated on our work,
how you can get involved, and to receive a weekly roundup of the latest AI news.

If you have feedback on The Plan or want to know how you can help to support it please get in touch with us directly

If you have feedback on The Plan or want to know how you can help to support it please get in touch with us directly

Sign up to our newsletter if you'd like to stay updated on our work,
how you can get involved, and to receive a weekly roundup of the latest AI news.