L’analyse en composante ou ACP fait partie des méthodes factorielles ou des méthodes descriptives multidimensionnelles Elle permet d’explorer statistiquement des données quantitatives. Par ailleurs, elle fournit des représentations graphiques qui permettent de synthétiser l’information contenue dans les tableaux de données et de comprendre des données analysées. L’analyse en composante principale est une méthode statistique essentiellement descriptive, particulièrement utile pour explorer, traiter et interpréter des données.
Qu’est-ce qu’une Analyse en Composantes Principales (ACP)
L’Analyse en Composantes Principales est un outil de statistique exploratoire. Elle nous permet d’explorer des données multi-variées, c’est-à-dire, des données avec plusieurs variables. De ce fait, elle est considérée comme une analyse statistique multi-variée ou une technique multi-variée, permettant de réduire un ensemble de variables initiales en quelques facteurs ou composantes principales qui sont de nouvelles variables.
Les variables d’origine sont ainsi réduites en petit nombre de nouvelles variables ou composantes principales, tout en conservant un maximum d’informations. Il y a donc un nombre restreint de facteurs qui permettent d’expliquer la plus grande partie de la variance contenue dans les variables d’origine.
Les informations contenues dans les variables d’origine sont ainsi extraites, visualisées et synthétisées en quelques nouvelles variables, à partir d’un croisement entre plusieurs variables numériques. Les dimensions d’une donnée multi-variée sont, de ce fait, réduites en quelques composantes principales qui peuvent être visualisées graphiquement.
L’ACP aboutit à une représentation graphique de données (nuage de point) par rapport à ces facteurs ou composantes principales sous formes d’axes. Ces axes ou composantes principales résument au mieux l’ensemble des variables initiales. Ils constituent des combinaisons linéaires des variables initiales, hiérarchisées et indépendantes les unes des autres.
Principe de l’A.C.P
Le principe de l’Analyse de Composantes Principales consiste à remplacer des variables initiales par des composantes principales qui sont des nouvelles variables, en perdant le moins d’informations possibles. Ainsi, les données initiales sont comprimées pour extraire des informations sans perdre les plus essentielles et pour constituer de nouvelles variables qui des combinaisons linéaires des variables originelles. Il y a une réduction de la dimension des données initiales qui sont remplacées par des facteurs qui vont servir de base à un système de représentation de dimension réduite.
Ainsi, un grand nombre de variables souvent corrélées entre elles, est réduit à un petit nombre de composantes principales non corrélées, c’est-à-dire, indépendantes les unes des autres. Cette réduction de dimension ou ce nombre restreint de variable résume au mieux les variables initiales. Le maximum d’informations est résumé en perdant le moins possible, puis représenté sous forme de graphique.
Ce faisant, nous pouvons facilement étudier les variables et les visualiser dans un espace d’une dimension plus petite, réduisant ainsi les tableaux de grandes tailles en un nombre restreint de variables pour faciliter l’interprétation des données initiales. La représentation des données, dans un espace plus réduit, permet de simplifier la réalité et de décrire un maximum de variabilité dans cet espace plus restreint. Le positionnement des variables va permettre d’évaluer la proximité relative de celles-ci, mais également la proximité qui les caractérise par rapport aux axes. Ainsi, les liaisons entre les variables et les ressemblances entre les individus sont explorées.
L’ACP, une technique d’analyse et de visualisation
L’ACP vise à rendre compréhensible la structure d’un ensemble de variables contenues dans un tableau de données. En présence d’un grand nombre de variables disposées dans un tableau, elle va permettre de condenser l’information contenue à l’intérieur de cet ensemble de variables.
Le regroupement des données dans des ensembles plus petits, facilite l’analyse. Il s’agit d’analyser des données quantitatives qui se présentent sous la forme d’un tableau et de rechercher des facteurs pour visualiser rapidement les corrélations entre les variables. L’étude de l’ensemble des corrélations entre les variables quantitatives est alors envisageable.
Ainsi, l’ACP est utilisée pour avoir une idée du mode de structuration des variables, notamment celles qui sont corrélées et celles qui ne le sont pas. En ce qui concerne le mode répartition des individus, elle va permettre d’identifier ceux qui se ressemblent et ceux qui ne se ressemblent pas.
L’étude et la visualisation des corrélations entre les variables sont au cœur de l’ACP qui sert également à obtenir des composantes principales afin de les utiliser dans d’autres méthodes statistiques (régression linéaire, la régression logistique ou l’analyse discriminante). Utilisée comme un outil d’analyse exploratoire de données, elle rend les données faciles à explorer et à visualiser. Grâce à l’ACP, des observations peuvent être facilement visualisées dans un espace plus réduit avec deux à trois dimensions en vue de distinguer des groupes homogènes ainsi que ceux qui ne le sont pas. Les données multi-variées sont mieux visualisées par le biais de l’Analyse en Composantes Principales.
Objectifs de l’utilisation de l’ACP
L’ACP est une méthode statistique exploratoire qui permet de réaliser une analyse exploratoire en vue d’identifier le nombre et la nature d’un ensemble restreint de composantes expliquant les corrélations au sein d’un ensemble de variables. L’ACP est une méthode statistique qui peut être utilisée en préliminaire à des méthodes de modélisation. Vous pouvez l’utiliser pour réduire la dimension des données avant d’appliquer une méthode statistique. Le maximum d’information est synthétisé sous une forme exploitable et compréhensible.
Ce faisant, l’ACP peut nous aider à mieux appréhender les données qui sont à l’étude et à identifier des valeurs suspectes ou atypiques en vue de formuler des hypothèses qui pourront être infirmées ou confirmées par le biais d’une méthode statistique inférentielle. Avec l’ACP, il est donc possible d’identifier des relations entre variables sans avoir à formuler préalablement des hypothèses. Des hypothèses probabilistes ne sont pas nécessaires.
L’ACP est utile à fins d’identification :
- des facteurs qui expliquent les corrélations entre plusieurs variables dans le but de restreindre le nombre de variables à étudier dans un espace ;
- des groupes d’observations homogènes ou atypiques.
Aussi, l’ACP peut être utilisée pour :
- rechercher un nombre de composantes principales résumant les informations contenues dans un tableau de données ;
- condenser l’information contenue dans un grand nombre de variables.
Les conditions d’utilisation de l’ACP
Avant d’envisager une Analyse de Composantes Principales, nous devons tenir compte de la nature des variables. En effet, l’ACP est bien adaptée pour un ensemble de variables quantitatives. Ce sont des variables qui décrivent des quantités et pour lesquelles il est possible de calculer la moyenne, l’écart type, etc.
Ainsi, l’ACP va nous permettre de représenter sous une forme graphique, les informations contenues dans un tableau de données quantitatives. Les tableaux de notes ou de mesures (variables numériques obtenues à l’issue de mesures) peuvent être traités avec l’ACP qui s’intéresse à l’analyse des liaisons en les différentes variables. Ce sont les proximités entre ces variables qui sont étudiées au cours de l’analyse des données contenues dans un tableau d’individus et de variables.
Les individus sont des unités statistiques, par exemple, une personne ou une entreprise. Dans le tableau, les lignes représentent les individus qui peuvent être décrits par des caractères ou des variables, par exemple, des personnes peuvent décrites par leur taille, leur poids, etc. Les colonnes sont formées par les variables qui peuvent être dans un tableau, la taille, le poids, etc.
Aussi, pour extraire les composantes principales, une autre condition qui s’impose est, la prévalence d’une corrélation minimale entre les variables d’origine. Autrement dit, les variables initiales qui seront analysées doivent être corrélées.
La représentation graphique
L’Analyse en Composantes Principales est une méthode statistique exploratoire qui nous permet de :
- décrire de façon graphique l’information contenue dans des tableaux de données ;
- de résumer et de synthétiser, sous forme de graphique, l’information contenue dans des données collectées.
Les données sont projetées sur un plan pour obtenir un graphique. La spécificité de l’ACP est la représentation dans un espace de faible dimension, un nuage de points pour les individus et un autre nuage pour les variables. Cette représentation graphique permet de visualiser dans un espace de faible dimension, un nuage de points et les relations entre les variables.
L’ACP propose des projections du nuage de points dans un plan de représentation. Il s’agit d’un plan constitué de droites perpendiculaires : D1 est perpendiculaire à D2, il y a donc une orthogonalité de D1 par rapport à D2. Ces deux droites, appelées composantes principales, sont issues d’un calcul qui permet de transformer des variables quantitatives initiales inter-corrélées en de nouvelles variables (composantes principales) non corrélées.
La variance est maximale sur la première composante principale (D1) ou le premier axe. Elle l’est également sur la deuxième composante principale (D2). Mais, D1 ou la première composante principale correspond à l’axe caractérisé par la plus grande variance, ce qui signifie que, sur cet axe, les données sont plus dispersées. Quant à la deuxième composante principale, elle correspond à l’axe qui se distingue avec la deuxième plus grande variance (dispersion). Ces axes expliquent le mieux la dispersion des points disponibles. Ainsi, ces deux premières composantes concentrent le plus d’information ou cumulent une grande proportion de variabilité totale.
La corrélation (l’intensité de la relation linéaire) entre la première et la deuxième composante est nulle. Ces deux axes restituent les informations contenues dans le tableau de données.
Aussi, le graphique contribue à l’identification du plan ou des plans au sein desquels la variance est maximale, permettant ainsi d’appréhender les relations de proximité et d’éloignement entres les variables. Ces composantes déterminent l’essentiel de la dispersion entre les individus.
Interprétation des composantes principales
Les composantes principales
Les composantes principales résument l’information contenue dans le tableau initial. Par ailleurs, il est possible de leur donner une signification. Les composantes principales sont des variables obtenues par combinaison linéaire des variables initiales. Ainsi, la combinaison linéaire des variables de variance maximale est recherchée pour définir les composantes principales. Cette dispersion qui, caractérise les composantes principales, diminue à mesure que nous passons de la première composante principale à la dernière.
Dans l’ACP, il est important de déterminer le nombre minimal de composantes principales susceptibles d’expliquer la majeure partie de la variation des données. Généralement lorsque les deux premières composantes cumulent une grande proportion de variance, les autres composantes principales ne sont pas prises en compte ou sont ignorées. La spécificité de l’ACP est de parvenir à expliquer une partie de la variance avec un minimum de facteurs. Ainsi, les nouvelles variables, notamment les composantes principales, sont des combinaisons des variables d’origine qui sont extraites d’une manière spécifique. Elles sont non corrélées et de variance maximale. Sur les graphiques, les axes sont les composantes principales. Le nombre de composantes principales est inférieur ou égal au nombre de variables d’origine.
La première composante principale
La première composante est caractérisée par une variance maximale ou un maximum d’information. Elle renferme des informations qui caractérisent la variance maximale ou le pourcentage d’inertie. Elle conserve la variation maximale présente dans les variables d’origine. Sur le graphique, elle se distingue par un plus allongement du nuage de points. La première composante est un vecteur caractérisé par les coordonnées des projections des individus sur le premier axe (horizontal).
La deuxième composante principale
La seconde composante principale est également caractérisée par une variance maximale, mais il s’agit d’une dispersion qui n’a pas été représentée par la première composante. C’est donc la variance non prise en compte par le premier axe. Cette composante principale contient des informations concernant la variance suivante. Elle se matérialise au niveau de la représentation graphique par une seconde direction de l’allongement de nuage de points. Les coordonnées des projections des individus du second axe (vertical) sont contenues dans la deuxième composante.
Les autres composantes sont obtenues par combinaison linéaires des variables initiales.
Le calcul des coefficients de corrélation
Le calcul des coefficients de corrélation entre les composantes principales et les variables initiales, nous permet de mesurer l’intensité et le sens de la liaison linéaire entre ces deux types de variables. Ce coefficient est compris entre -1 et + 1. Lorsque les corrélations sont positives, cela signifie que les variables varient en moyenne dans le même sens, elles augmentent et diminuent ensemble. Si le coefficient de corrélation est inférieur à 0, cela signifie que la liaison est de sens opposé.
Ces corrélations donnent un sens aux facteurs, permettant ainsi de les interpréter. Ainsi, les composantes principales peuvent être corrélées positivement ou négativement aux variables initiales. Plus la valeur est proche de + 1, plus la relation est forte. Ainsi, lorsque la valeur est proche de 1, cela signifie qu’il y a une forte corrélation, mais également que le point est bien représentée sur l’axe. L’absence de corrélation se traduit par une valeur nulle. Dans l’ACP, les nouvelles variables (composantes principales) étant des combinaisons linéaires des variables originales, elles sont alors liées linéairement aux variables originales.