L’avènement rĂ©cent de l’intelligence artificielle gĂ©nĂ©rative* a dĂ©jĂ rĂ©volutionnĂ© nos vies et nos sociĂ©tĂ©s, grâce Ă des outils tels que Chat-GPT ou Gemini. Pour l’instant, l’IA gĂ©nĂ©rative est utilisĂ©e essentiellement pour gĂ©nĂ©rer des donnĂ©es multimĂ©dias (Ă©dition de texte, rĂ©sumĂ©, retouche photo, gĂ©nĂ©ration de vidĂ©os, etc.).
Cependant, dans un avenir proche, elle pourra aussi gĂ©nĂ©rer des donnĂ©es plus techniques, telles que celles produites expĂ©rimentalement dans les laboratoires de recherche universitaires. Cela aura des consĂ©quences sans prĂ©cĂ©dent sur la production de connaissances scientifiques, qu’il convient d’anticiper, notamment parce que l’IA peut halluciner*.

La complexitĂ© de la biologie molĂ©culaire est telle que dans la masse des donnĂ©es correspondantes de minuscules hallucinations pourraient passer inaperçues, conduisant Ă des conclusions erronĂ©es (par exemple, un biomarqueur inexistant) avec des consĂ©quences dĂ©vastatrices, telles que la corruption de la littĂ©rature scientifique ou telles que le financement d’essais cliniques sans intĂ©rĂŞt. Cependant, interdire l’IA gĂ©nĂ©rative dans la recherche scientifique priverait les communautĂ©s scientifiques et mĂ©dicales d’outils puissants.
Pour faire face Ă ce dilemme, les chercheurs du CEA-Irig ont proposĂ© de rĂ©pertorier divers cas d’utilisation oĂą l’IA peut ĂŞtre utilisĂ©e en toute fiabilitĂ© grâce Ă une politique d’attĂ©nuation des risques adĂ©quate. Leurs travaux prĂ©sentent une dizaine de cas d’usage classĂ©s en trois catĂ©gories:
1 – La gĂ©nĂ©ration de nouvelles hypothèses,
2 – la gĂ©nĂ©ration de nouvelles donnĂ©es,
3 – l’amĂ©lioration des logiciels de biologie computationnelle.
Exemple de cas d’usage

Compléter une cohorte en générant des données supplémentaires sur des patients dans le groupe de patients malades (en vert ou groupe « test« ) serait très risqué, car toute hallucination non détectée conduirait à une représentation biaisée de la maladie.
Ă€ l’inverse, complĂ©ter le groupe de patients sains (en rouge) qui sert de contrĂ´le dans l’Ă©tude peut ĂŞtre conforme Ă une politique d’attĂ©nuation des risques: premièrement, parce que les hallucinations non dĂ©tectĂ©es entraĂ®neraient ici plus grande diversitĂ© au sein du groupe de contrĂ´le, ce qui est connu pour ĂŞtre un moyen efficace de limiter les risques de fausses dĂ©couvertes. Ensuite, parce que les patients sains ont Ă©tĂ© admis plus frĂ©quemment dans les Ă©tudes de cohorte, de sorte que les donnĂ©es potentiellement disponibles pour entraĂ®ner l’IA sont plus importantes, plus robustes et plus cohĂ©rentes.
Cet exemple illustre comment un algorithme d’IA gĂ©nĂ©rative donnĂ©, adaptĂ© Ă une tâche donnĂ©e, peut ĂŞtre utilisĂ© de diffĂ©rentes manières, avec une exposition diffĂ©rente aux risques induits par les hallucinations.
Bien qu’elles ne soient pas exhaustives, ces utilisations constituent une première base pour une intĂ©gration correcte de l’IA gĂ©nĂ©rative dans la dĂ©marche scientifique, car elles incitent les chercheurs Ă adopter un regard critique sur son utilisation.
Notes:
*Intelligence Artificielle GĂ©nĂ©rative fait rĂ©fĂ©rence Ă des algorithmes qui sont capables non seulement d’analyser des donnĂ©es et de prendre des dĂ©cisions ou de faire des prĂ©dictions, comme les outils classiques d’intelligence artificielle (IA), mais qui peuvent Ă©galement gĂ©nĂ©rer de nouvelles donnĂ©es.
*Hallucinations: se produisent lorsqu’une IA gĂ©nĂ©rative rĂ©pond Ă une requĂŞte (aussi appelĂ©e « prompt ») en gĂ©nĂ©rant des dĂ©tails qui semblent plausibles Ă certains Ă©gards, mais qui sont soit erronĂ©s (par exemple, une rĂ©fĂ©rence Ă un article inexistant), soit impossibles selon certaines contraintes du monde rĂ©el qui sont ignorĂ©es par l’IA gĂ©nĂ©rative (par exemple, le prĂ©sident amĂ©ricain Abraham Lincoln commentant l’internet, comme dans l’illustration en tĂŞte d’article).
