CARPENTIER François-Gilles

Maître de Conférences
Disciplines : Statistiques et Informatique


Enseignant-chercheur
Etablissement : Université Bretagne Occidentale
Affectation de recherche : BioGEMME (Biologie et GEnétique des Mammifères Marins dans leur Environnement)

Equipe(s) :
LogoUBO
Logo
Pour la messagerie : prénom.nom@univ-brest.fr
Page personnelle : Voir aussi : http://geai.univ-brest.fr/~carpenti

Du fait de la nature particulière de l'objet d'étude du laboratoire BioGeMME, le travail du laboratoire associe étroitement :
- le travail de terrain, ou plutôt l'exploitation directe de données relevées sur le terrain (données relatives aux échouages, observations opportunistes, collecte de fécès, etc)
- le travail de laboratoire en biologie moléculaire
- des études plus exploratoires, utilisant de nouveaux moyens d'investigation (RMN-HRMAS, échographies, IRM, etc)
- l'exploration de méthodes de modélisation (séries chronologiques sur les fréquences des échouages, simulations relatives à l'évolution des popuplations, etc).

Dans le cadre de ces travaux, ma contribution concerne la mise en oeuvre de méthodes statistiques et d'analyse de données multidiemensionnelles sur les données dont dispose l'équipe.

L'exploitation directe des données de terrain fait usage de nombreux outils statistiques, mais cette utilisation reste tout à fait classique : corrélation, tests de statistiques inférentielles, comparaison de distributions...

Le travail de laboratoire est mené selon des protocoles expérimentaux bien déterminés et les logiciels utilisés fournissent souvent les paramètres statistiques utiles, classiquement utilisés par les spécialistes de la discipline. Cependant, l'utilisation de méthodes d'analyse de données multidimensionnelles permet de fournir de nouvelles représentations des résultats obtenus. Ainsi, dans l'une de nos publication, l'utilisation du nMDS (non metric multidimensional scaling) ou positionnement multidimensionnel non métrique fournit une représentation graphique des résultats, complémentaire de celle, plus traditionnelle, des arbres phylogénétiques basés sur une méthode du maximum de vraisemblance.
Le terme MDS (multidimensional scaling) désigne un ensemble de techniques permettant de représenter les données d'une matrice de proximités entre objets à l'aide de modèles de distances spatiales. Dans sa version la plus simple, la méthode MDS permet de retrouver une carte bi-dimensionnelle à partir d'un ensemble de distances mutuelles entre lieux. Il s'agit de trouver une carte représentant les "distances" entre objets, en les déformant le moins possible. Dans le MDS non métrique, on cherche à préserver l'ordre des proximités et non leurs valeurs absolues ou relatives. Autrement dit, le but est de représenter les distances entre les objets, en respectant l'ordre entre les proximités plutôt que leurs valeurs exactes. La méthode substitue aux proximités initiales de nouvelles "distances", appelées disparités, mais, à deux proximités égales, mais provenant d'objets différents, peuvent correspondre des disparités différentes.

Certains travaux menés par le laboratoire, par exemple ceux portant sur le melon des odontocètes, présentent un caractère exploratoire. D'une part, les études sont menées sur des échantillons de taille réduite (dans certains cas, sur un seul individu) et les catégorisations ne s'imposent pas a priori. Il s'agit alors de traiter les données d'un point de vue descriptif et non d'un point de vue inférentiel, en exploitant au mieux la variabilité intra-individuelle aussi bien que la variabilité inter-individuelle ou inter-espèce. Les données relatives à la composition du melon obtenues par RMN HRMAS se prêtent alors bien à des études telles que l'analyse en composantes principales (ACP). Cette méthode multidimensionnelle s'applique à des tableaux croisant des individus statistiques et des variables qualitatives et vise à mettre en évidence une typologie des individus (existe-t-il des groupes homogènes d'individus ? ) aussi bien qu'une typologie des variables (existe-t-il des variables corrélées entre elles ?). Les résultats de l'ACP pour les variables permettent de faire ressortir les corrélations qui existent quant aux concentrations des différents composés mis en évidence, et ceux relatifs aux individus statistiques (prélèvements effectués) permettent de décrire la variabilité intra-individuelle (différentes zones dans le melon) aussi bien que la variabilité interspécifique.

D'autres études exploratoires ont été menées sur des données collectées par les organismes chargés de la veille et de l'observation scientifique. Par exemple, quelle exploitation peut-on faire des données chronologiques relatives au nombre et à la localisation des échouages de mammifères marins ? Les séries de données couvrent les 40 dernières années et montrent dans la plupart des cas une augmentation des échouages au cours de la période. Pour autant, cette évolution obéit-elle à un modèle défini ? Quelle est la part de cette évolution qui peut être attribuée, simplement, à la montée en puissance du dispositif de veille ?

Ainsi, les méthodes de statistiques classiques, les méthodes d'analyse des données multidimensionnelles et/ou multivariées, aussi bien que celles relatives aux séries chronologiques ou à la modélisation démographique viennent compléter celles de la génétique moderne pour l'étude des populations de mammifères marins et de leur évolution dans les décennies récentes.