• Informatique,
  • Recherche,
  • Santé publique,

Quand les données massives sont au service de la recherche biomédicale

Publié le 2 octobre 2017 Mis à jour le 3 octobre 2017

Les sciences du vivant connaissent une évolution constante notamment sous l’influence des données massives générées par les biotechnologies (génomique, protéomique, interactomique, métabolomique, etc…) et les progrès effectués en synthèse chimique. Les méthodes bioinformatiques et chémoinformatiques développées pour traiter ces données et notamment la modélisation moléculaire font maintenant partie intégrante de l’arsenal des techniques utilisées dans la recherche de nouvelles molécules à visée thérapeutique.

De manière générale, un modèle est une façon simplifiée de représenter un système ou un processus dans le but de pouvoir l’explorer ou le simuler. Pour la construction, la validation et l’utilisation prédictive d’un modèle, la recette reste la même : il faut définir un système de représentation, formaliser le processus et enfin évaluer le modèle ainsi construit.

La complexité de celui-ci dépend de la complexité de la représentation. Un mode de représentation simple utilisé en chémoinformatique [1] est de lister par exemple la présence (1) ou l’absence (0) de groupements chimiques dans des molécules sous la forme d’un code-barres. On peut ainsi comparer la structure de molécules en comparant leurs code-barres. En modélisation moléculaire, on utilise des modes de représentation plus complexes : les atomes peuvent être représentés comme des sphères rigides, les liaisons chimiques comme des ressorts, et les molécules figurées par des ensembles de sphères reliées par des ressorts. Toutes les molécules du vivant, de l’ADN aux protéines en passant par les petites molécules médicamenteuses, peuvent ainsi être décrites. Les propriétés physicochimiques de ces molécules sont, elles, représentées à l’aide de descripteurs de l’information, par exemple, leur masse ou leur charge.

Il existe différentes manières de représenter l’énergie d’interaction entre molécules et ainsi de modéliser des processus d’assemblage de protéines entre elles ou de protéines avec des petites molécules. On utilise pour cela des modèles de score empiriques, des potentiels statistiques ou des Modelisationfonctions d’énergie basées sur des champs de force de mécanique moléculaire.

Identifier les molécules pour les médicaments de demain

Plusieurs dizaines de médicaments actuellement sur le marché pour le traitement de pathologies comme les cancers, le sida ou les maladies cardiovasculaires ont été conçus ou optimisés à l’aide de méthodes de modélisation moléculaire. Quelles sont ces méthodes ? Avec le criblage virtuel à haut débit, les chémoinformaticiens sont en mesure de sélectionner des petites molécules chimiques dans des chimiothèques (des banques de petites molécules) en fonction de leur activité prédite sur une cible thérapeutique définie par les pharmacologues tout en rejetant les molécules qui pourraient présenter une potentielle toxicité. Les molécules ainsi sélectionnées seront testées expérimentalement par les biologistes et les pharmacologues afin d’identifier celles qui ont la meilleure activité sur la cible. Avec les données expérimentales ainsi générées, les chémoinformaticiens pourront améliorer leurs modèles et proposer aux chimistes médicinaux des pistes d’optimisation potentielles afin de synthétiser de meilleures molécules. Après plusieurs itérations, ce processus collectif d’optimisation permettra de définir les meilleurs médicaments candidats.

Le criblage virtuel, une méthode efficiente

Il existe différentes méthodes de criblage virtuel. Parmi elles, les approches de docking visent à prédire la capacité des molécules à se fixer sur la cible. Elles utilisent des modèles de score pour représenter l’énergie d’interaction entre la cible et les molécules à évaluer. On estime l’énergie d’interaction de toutes les paires d’atomes [2].

D’autres méthodes de criblage virtuel comme le criblage de pharmacophores ou les méthodes de recherche de similarité 2D/3D, permettent de traiter un plus grand nombre de molécules : elles utilisent en effet des systèmes de représentation des molécules et de leurs interactions potentielles moins détaillés. Les méthodes les plus rapides analysent jusqu’à plusieurs milliers de molécules par seconde. Mais il faut parfois compter plusieurs semaines de calcul pour une seule molécule avec les méthodes les plus complexes.

L’émergence des problématiques liées au traitement de données massives a favorisé le développement intense de ces méthodes ainsi que des structures et des moyens de calcul. Dans un avenir proche, elles permettront l’utilisation à haut débit de modèles plus complexes et encore plus performants pour la recherche et le développement de nouvelles molécules à visée thérapeutique.

Par Matthieu Montes,
Professeur des universités au Cnam,
membre du Laboratoire de Génomique,
bio-informatique et applications.

[1] Ce domaine scientifique renvoie au développement et à l’utilisation de méthodes informatiques pour traiter de manière intelligente l’information chimique.

[2] Et il y en a beaucoup : une petite protéine est constituée de plusieurs dizaines de milliers d’atomes, et chaque petite molécule chimique à évaluer est composée de plusieurs dizaines d’atomes.


Picto label thématiques articles Cnam Blog Informatique Recherche Santé publique