UBO - Université de Bretagne Occidentale
 
Analyse de données

Saviez-vous qu'il existe une relation étroite entre le réchauffement climatique et le nombre de pirates écumant les mers ? Faut-il en déduire un lien de cause à effets ? Évidemment non ! Le réchauffement climatique est multifactoriel et ne peut être compris qu'en prenant en compte de très nombreux paramètres le plus souvent corrélés et enregistrés dans des vastes bases de données (par exemple, la température des océans, les précipitations, l'effet de serre, l'activité humaine, etc.).

 

À l'instar des études climatiques, les méthodes d'analyses et les procédés industriels génèrent le plus souvent des tableaux de données comportant des dizaines, voire des centaines ou des milliers de lignes et colonnes. Les spectroscopies vibrationnelles non destructives - infrarouge, proche infrarouge, Raman -  sont particulièrement concernées en produisant des données spectrales extrêmement riches et nombreuses. L'information y est souvent cachée, peu spécifique, et il est difficile de la visualiser simplement.

 

Le but de l'analyse de données, ou analyse multivariée, sera de trouver des corrélations dans la masse d'informations, les structures cachées ou latentes, et de les visualiser sous forme graphique aisément interprétable.

 

En chimiométrie, l'information est constituée de spectres ou de descripteurs chimiques très souvent fortement corrélés. En prenant en compte ces corrélations, il est possible de prédire des réponses, des teneurs, des propriétés, ou d'identifier un échantillon. L'analyse de données est actuellement l'axe de développement le plus important de la chimiométrie.

 

Pour résumer, l'analyse de données, ou analyse multivariée permet :

 

- d'explorer les données

- d'en extraire l'information - de rechercher les relations entre les variables

- de trouver des similarités, des différences, des groupes, des structures

- de classer, d'identifier

- d'établir des liens entre différents tableaux pour étalonner des méthodes

 

 

Contenu de l'UE

 

- l'Analyse en Composantes Principales

- la classification SIMCA

- la classification hiérarchique, et autres méthodes de classification

- la régression PLS (Partial Least Squares, Projection to Latent Structures)

- Les méthodes multivariées d'étalonnage

 

CM : 42 h - TD : 30 h

7 ECTS

 

Mentions Légales | Accueil | Plan du site | Edition en ligne