L’armée israélienne construit un modèle linguistique d’IA à partir de millions de conversations interceptées entre Palestiniens, ce qui pourrait accélérer le processus d’incrimination et d’arrestation, révèle une enquête conjointe.
Par Yuval Abraham, le 6 mars 2025

L’armée israélienne développe un nouvel outil d’intelligence artificielle similaire à ChatGPT et le forme sur des millions de conversations en arabe obtenues grâce à la surveillance des Palestiniens dans les territoires occupés, selon une enquête menée par +972 Magazine, Local Call et The Guardian.
L’outil d’IA, développé sous les auspices de l’Unité 8200, une unité d’élite de cyberguerre au sein de la Direction du renseignement militaire israélienne, est ce que l’on appelle un modèle de langage large (LLM) : un programme d’apprentissage automatique capable d’analyser des informations et de générer, traduire, prédire et résumer du texte. Alors que les LLM accessibles au public, comme le moteur de ChatGPT, sont entraînés à partir d’informations récupérées sur Internet, le nouveau modèle en cours de développement par l’armée israélienne est alimenté par de vastes quantités de renseignements recueillis sur la vie quotidienne des Palestiniens vivant sous occupation.
L’existence du LLM de l’unité 8200 a été confirmée à +972, Local Call, et au Guardian par trois sources de sécurité israéliennes informées de son développement. Le modèle était encore en cours de formation au cours du second semestre de l’année dernière, et on ne sait pas encore s’il a été déployé ni comment l’armée l’utilisera exactement. Cependant, des sources ont expliqué que l’un des principaux avantages pour l’armée sera la capacité de l’outil à traiter rapidement de grandes quantités de matériel de surveillance afin de « répondre à des questions » sur des individus spécifiques. À en juger par la façon dont l’armée utilise déjà des modèles linguistiques plus petits, il semble probable que le LLM pourrait encore accroître les incriminations et les arrestations de Palestiniens par Israël.
« L’IA amplifie le pouvoir », explique une source proche du renseignement qui suit de près le développement des modèles linguistiques de l’armée israélienne ces dernières années. « Elle permet des opérations [utilisant] les données d’un nombre beaucoup plus important de personnes, ce qui permet de contrôler la population. Il ne s’agit pas seulement d’empêcher les attaques. Je peux suivre les militants des droits de l’homme. Je peux surveiller la construction palestinienne dans la zone C [de la Cisjordanie]. J’ai plus d’outils pour savoir ce que fait chaque personne en Cisjordanie. Lorsque vous détenez autant de données, vous pouvez les utiliser à toutes fins utiles. »
Bien que le développement de l’outil soit antérieur à la guerre actuelle, notre enquête révèle qu’après le 7 octobre, l’unité 8200 a sollicité l’aide de citoyens israéliens ayant une expertise dans le développement de modèles linguistiques et travaillant pour des géants de la technologie tels que Google, Meta et Microsoft. Avec la mobilisation massive des réservistes au début de l’attaque israélienne sur Gaza, des experts du secteur privé ont commencé à s’enrôler dans l’unité, apportant des connaissances qui n’étaient auparavant « accessibles qu’à un groupe très restreint d’entreprises dans le monde », comme l’a déclaré une source du secteur de la sécurité. (En réponse à nos demandes, Google a déclaré qu’elle avait « des employés qui font leur service de réserve dans divers pays » et a souligné que le travail qu’ils accomplissent dans ce contexte « n’est pas lié à Google ». Meta et Microsoft ont refusé de commenter.)
Selon une source, le chatbot de l’Unité 8200 a été entraîné sur 100 milliards de mots d’arabe obtenus en partie grâce à la surveillance à grande échelle des Palestiniens par Israël sous le régime de son armée – ce qui, selon les experts, constitue une grave violation des droits des Palestiniens. « Nous parlons d’informations hautement personnelles, obtenues auprès de personnes qui ne sont soupçonnées d’aucun crime, pour former un outil qui pourrait ensuite aider à établir des soupçons », explique Zach Campbell, chercheur principal en technologie à Human Rights Watch, à +972, Local Call et The Guardian.
Nadim Nashif, directeur et fondateur du groupe palestinien de défense des droits numériques 7amleh, partage ces préoccupations. « Les Palestiniens sont devenus des sujets de laboratoire pour Israël, qui développe ces techniques et utilise l’IA comme une arme, dans le seul but de maintenir un régime d’apartheid et d’occupation où ces technologies sont utilisées pour dominer un peuple, pour contrôler sa vie. Il s’agit d’une violation grave et continue des droits numériques des Palestiniens, qui sont des droits humains. »
« Nous remplacerons tous les agents de renseignement par des agents d’IA »
Les efforts de l’armée israélienne pour développer son propre LLM ont été reconnus publiquement pour la première fois par Chaked Roger Joseph Sayedoff, un officier du renseignement qui s’est présenté comme le chef de projet, lors d’une conférence peu remarquée l’année dernière. « Nous avons cherché à créer le plus grand ensemble de données possible, en collectant toutes les données que l’État d’Israël a jamais eues en arabe », expliquait-il lors de sa présentation à la conférence DefenseML à Tel Aviv. Il a ajouté que le programme est entraîné sur des « quantités psychotiques » d’informations de renseignement.
Selon Sayedoff, lorsque le LLM de ChatGPT a été mis à la disposition du public pour la première fois en novembre 2022, l’armée israélienne a mis en place une équipe de renseignement dédiée pour explorer comment l’IA générative pouvait être adaptée à des fins militaires. « Nous nous sommes dit : ‘Wow, maintenant nous allons remplacer tous les officiers du renseignement par des agents [IA]. Toutes les cinq minutes, ils liront tous les renseignements israéliens et prédiront qui sera le prochain terroriste’ », expliquait Sayedoff.
Mais l’équipe n’a pas pu faire beaucoup de progrès au début. OpenAI, la société à l’origine de ChatGPT, a rejeté la demande d’accès direct de l’unité 8200 à son modèle de langage et a refusé de l’intégrer dans le système interne hors ligne de l’unité. (L’armée israélienne utilise depuis le modèle de langage d’OpenAI, acheté via Microsoft Azure, comme l’ont révélé +972 et Local Call dans une autre enquête récente. OpenAI a refusé de commenter cette question.
Et il y avait un autre problème, a expliqué Sayedoff : les modèles linguistiques existants ne pouvaient traiter que l’arabe standard – utilisé dans les communications formelles, la littérature et les médias – et non les dialectes parlés. La direction des renseignements militaires israéliens s’est rendu compte qu’elle devait développer son propre programme, basé, comme l’a dit Sayedoff dans sa conférence, « sur les dialectes qui nous haïssent ».

Le tournant s’est produit avec le début de la guerre de Gaza en octobre 2023, lorsque l’Unité 8200 a commencé à recruter des experts en modèles linguistiques d’entreprises technologiques privées en tant que réservistes. Ori Goshen, co-PDG et co-fondateur de la société israélienne AI21 Labs, spécialisée dans les modèles linguistiques, a confirmé que des employés de son entreprise ont participé au projet pendant leur service de réserve. « Un organisme de sécurité ne peut pas travailler avec un service comme ChatGPT, il doit donc trouver un moyen de faire fonctionner l’IA au sein d’un système [interne] qui n’est pas connecté à d’autres réseaux », explique-t-il.
Selon M. Goshen, les LLM pourraient notamment permettre aux services de renseignement de traiter rapidement les informations et de générer des listes de « suspects » à arrêter. Mais pour lui, l’atout majeur de ces technologies réside dans leur capacité à récupérer des données dispersées dans de multiples sources. Plutôt que d’utiliser des « outils de recherche primitifs », les agents pourraient simplement « poser des questions et obtenir des réponses » d’un chatbot qui, par exemple, serait capable de dire si deux personnes se sont déjà rencontrées ou de déterminer instantanément si une personne a déjà commis un acte particulier.
Goshen a toutefois concédé que le fait de se fier aveuglément à ces outils pouvait conduire à des erreurs. « Ce sont des modèles probabilistes : vous leur donnez une invite ou une question, et ils génèrent quelque chose qui ressemble à de la magie », explique-t-il. « Mais parfois, la réponse n’a aucun sens. Nous appelons cela une « hallucination ». »
Campbell, de Human Rights Watch, a soulevé une préoccupation similaire. Les LLM, dit-il, fonctionnent comme des « machines à deviner », et leurs erreurs sont inhérentes au système. De plus, les personnes qui utilisent ces outils ne sont souvent pas celles qui les ont développés, et les recherches montrent qu’elles ont tendance à leur faire davantage confiance. « En fin de compte, ces suppositions pourraient être utilisées pour incriminer des personnes », déclare-t-il.
De précédentes enquêtes menées par +972 et Local Call sur l’utilisation par l’armée israélienne de systèmes de ciblage basés sur l’IA pour faciliter ses bombardements sur Gaza ont mis en évidence les failles opérationnelles inhérentes à de tels outils. Par exemple, l’armée a utilisé un programme connu sous le nom de Lavender pour générer une « liste de cibles » de dizaines de milliers de Palestiniens, que l’IA a incriminés parce qu’ils présentaient des caractéristiques qu’elle avait été programmée pour associer à l’appartenance à un groupe militant.
L’armée a ensuite bombardé nombre de ces personnes, généralement alors qu’elles étaient chez elles avec leur famille, alors même que le programme était connu pour avoir un taux d’erreur de 10 %. Selon certaines sources, la supervision humaine du processus d’assassinat n’a servi que de « tampon », et les soldats ont traité les résultats de Lavender « comme s’il s’agissait d’une décision humaine ».

« Parfois, c’est juste un commandant de division qui veut 100 arrestations par mois »
Le développement d’un outil de type ChatGPT entraîné à comprendre l’arabe parlé représente une nouvelle expansion de l’appareil de surveillance israélien dans les territoires occupés, qui est depuis longtemps très intrusif. Il y a plus de dix ans, des soldats ayant servi dans l’unité 8200 ont témoigné avoir surveillé des civils n’ayant aucun lien avec des groupes militants afin d’obtenir des informations pouvant être utilisées pour les faire chanter, par exemple concernant des difficultés financières, leur orientation sexuelle ou une maladie grave les affectant eux-mêmes ou un membre de leur famille. Les anciens soldats ont également admis avoir suivi des militants politiques.
En plus de développer son propre LLM, l’unité 8200 utilise déjà des modèles linguistiques plus petits qui permettent la classification des informations, la transcription et la traduction des conversations de l’arabe parlé vers l’hébreu, ainsi que des recherches efficaces par mots-clés. Ces outils rendent les renseignements plus immédiatement accessibles, en particulier à la Division de Judée-Samarie (Cisjordanie) de l’armée. Selon deux sources, les modèles plus petits permettent à l’armée de passer au crible les données de surveillance et d’identifier les Palestiniens exprimant leur colère face à l’occupation ou leur désir d’attaquer des soldats ou des colons israéliens.
Une source fait état d’un modèle linguistique actuellement utilisé qui analyse les données et identifie les Palestiniens à l’aide de mots indiquant qu’ils « sèment le trouble ». La source ajoute que l’armée a utilisé des modèles linguistiques pour prédire qui pourrait jeter des pierres sur les soldats lors d’opérations visant à « démontrer la présence » de l’armée, lorsque les soldats font des descentes dans une ville ou un village de Cisjordanie et font du porte-à-porte, entrant de force dans chaque maison d’une rue donnée pour procéder à des arrestations et intimider les habitants.
Des sources de renseignement affirment que l’utilisation de ces modèles linguistiques, associée à une surveillance à grande échelle dans les territoires occupés, a renforcé le contrôle d’Israël sur la population palestinienne et considérablement augmenté la fréquence des arrestations. Les commandants peuvent accéder à des renseignements bruts traduits en hébreu – sans avoir besoin de s’appuyer sur les centres linguistiques de l’Unité 8200 pour fournir le matériel, ni de connaître eux-mêmes l’arabe – et sélectionner des « suspects » à arrêter dans une liste sans cesse croissante pour chaque localité palestinienne. « Parfois, c’est juste un commandant de division qui veut 100 arrestations par mois dans sa zone », déclare une source.
Cependant, contrairement aux modèles plus petits déjà utilisés, le grand modèle actuellement en cours de développement est entraîné avec l’ensemble de données de l’Unité 8200, qui contient des millions de conversations entre Palestiniens. « L’arabe parlé est une donnée [difficilement] disponible sur Internet », explique la source. « Il n’y a pas de transcriptions de conversations ou de chats WhatsApp en ligne. Il n’en existe pas en quantité suffisante pour entraîner un tel modèle. »
Pour l’entraînement du LLM, les conversations quotidiennes entre Palestiniens qui n’ont pas de valeur immédiate pour les services de renseignement ont tout de même une utilité essentielle. « Si quelqu’un appelle une autre personne [au téléphone] et lui dit de sortir parce qu’il l’attend devant l’école, ce n’est qu’une conversation anodine, ce n’est pas intéressant », explique une source de sécurité. « Mais pour un modèle comme celui-ci, c’est de l’or, car cela fournit toujours plus de données pour l’apprentissage. »
L’unité 8200 n’est pas la seule agence nationale de renseignement à tenter de développer des outils d’IA générative ; la CIA a développé un outil similaire à ChatGPT pour analyser les informations open source, et les agences de renseignement britanniques sont également en train de développer leurs propres LLM. Cependant, d’anciens responsables de la sécurité britanniques et américains ont déclaré à +972, Local Call et au Guardian que la communauté du renseignement israélienne prend plus de risques que ses homologues américains ou britanniques lorsqu’il s’agit d’intégrer des systèmes d’IA dans l’analyse du renseignement.
Brianna Rosen, ancienne responsable de la sécurité à la Maison Blanche et actuellement chercheuse en études militaires et de sécurité à l’université d’Oxford, explique qu’un analyste du renseignement utilisant un outil comme ChatGPT serait potentiellement capable de « détecter des menaces que les humains pourraient manquer, avant même qu’elles ne surviennent ». Cependant, cela « risque également d’entraîner de faux liens et des conclusions erronées. Des erreurs vont être commises, et certaines d’entre elles pourraient avoir des conséquences très graves ».
Des sources des services de renseignement israéliens ont souligné qu’en Cisjordanie, la question la plus urgente n’est pas nécessairement l’exactitude de ces modèles, mais plutôt l’ampleur des arrestations qu’ils permettent. Les listes de « suspects » ne cessent de s’allonger, car des quantités massives d’informations sont collectées en permanence et traitées rapidement à l’aide de l’IA.
Plusieurs sources ont déclaré qu’un « soupçon » vague ou générique suffit souvent à justifier le placement de Palestiniens en détention administrative, une peine de prison de six mois renouvelable sans inculpation ni procès, sur la base de « preuves » non divulguées. Dans un environnement où la surveillance des Palestiniens est si étendue et le seuil pour une arrestation si bas, selon elles, l’ajout de nouveaux outils basés sur l’IA renforcera la capacité d’Israël à trouver des informations incriminantes sur beaucoup plus de personnes.
Le porte-parole de l’armée israélienne n’a pas répondu aux questions spécifiques posées par +972, Local Call et le Guardian « en raison de la nature sensible des informations », affirmant seulement que « toute utilisation d’outils technologiques se fait selon un processus rigoureux mené par des professionnels, afin de garantir une précision maximale des renseignements ».
Harry Davies du Guardian et Sebastian Ben Daniel (John Brown) ont contribué à cette enquête.
Traduction : JB pour l’Agence Média Palestine
Source : +972 Magazine