On parle de multicollinéarité lorsqu'au moins deux variables explicatives (les variables x) dans un modèle de régression sont hautement corrélées. En d'autres mots, ces deux variables apportent la même information. Cela a pour effet de gonfler les erreurs standards des coefficients pour ces variables les rendant très instables et sensibles à un faible changement dans la variable dépendante ou dans le modèle. Pour cette raison, la multicollinéarité cause seulement problème lorsqu'on souhaite interpréter les coefficients. Elle n'est pas pertinente lorsqu'on veut construire un modèle de prédiction par exemple.
Une règle communément utilisée pour identifier les problèmes de multicollinéarité est la marge de 0,80. Elle dit qu'on ne devrait pas inclure dans un modèle de régression les variables dont le coefficient de corrélation linéaire est supérieur à 0,8.
Aucun commentaire:
Publier un commentaire