Quand rien n'est normal...

19 octobre 2015

Multicollinéarité en régression multivariée : beaucoup moins fréquente qu'on le pense!

On parle de multicollinéarité lorsqu'au moins deux variables explicatives (les variables x) dans un modèle de régression sont hautement corrélées. En d'autres mots, ces deux variables apportent la même information. Cela a pour effet de gonfler les erreurs standards des coefficients pour ces variables les rendant très instables et sensibles à un faible changement dans la variable dépendante ou dans le modèle. Pour cette raison, la multicollinéarité cause seulement problème lorsqu'on souhaite interpréter les coefficients. Elle n'est pas pertinente lorsqu'on veut construire un modèle de prédiction par exemple.

Une règle communément utilisée pour identifier les problèmes de multicollinéarité est la marge de 0,80. Elle dit qu'on ne devrait pas inclure dans un modèle de régression les variables dont le coefficient de corrélation linéaire est supérieur à 0,8.

Faut-il faire un recensement?

Un recensement est une étude auprès de toutes les unités statistiques d’une population. Alors qu’un sondage est une étude auprès d’un échantillon de la population. Dans un monde idéal, on ne ferait que des recensements, mais dans la réalité, cela s’avère bien souvent très long et coûteux, en particulier auprès des grandes populations. En fait, on doit mener un recensement seulement lorsqu’on fait face à l’une des situations suivantes :

On veut déterminer la taille de la population.
On veut établir la composition de la population en terme de quelques caractéristiques de base.

Ainsi si l'on veut déterminer le nombre d'habitants au Québec, nous n’avons pas d’autres choix que de compter tous les Québécois et donc d’étudier la population au complet plutôt qu’un échantillon. Par contre, si l'on souhaite étudier les habitudes alimentaires des Québécois, il n’est pas nécessaire de mener un recensement et de questionner tous les Québécois, on pourra se contenter d’étudier un échantillon de Québécois.

Établir la composition de la population en terme de quelques caractéristiques de base signifie qu’on souhaite décrire la structure de la population habituellement en terme de sexe, d’âge, de revenu et/ou d’ethnie. Ces informations peuvent s’avérer utiles car elles permettront par la suite de vérifier la représentativité d’échantillons et d’effectuer de l’échantillonnage stratifié. Un échantillon est représentatif de la population s’il possède les mêmes caractéristiques que la population. Par exemple, dans un échantillon représentatif de 1000 Québécois, il y aura environ 500 femmes et 500 hommes, les groupes d’âge dans l’échantillon seront structurés de façon similaire à ceux dans la population et ainsi de suite.

Il existe deux situations précises où, même si l'on se trouve dans l’une des situations décrites plus haut, il est impossible de mener un recensement :

On ne peut pas cerner la population.
Les mesures à effectuer comportent un aspect destructif.

Il serait par exemple impossible de mener un recensement pour déterminer le nombre de fausses couches au Canada en 2014 puisqu’on ne peut pas cerner la population, c’est-à-dire qu’on ne peut pas identifier toutes les fausses couches ayant eu lieu en 2014 entre autre parce que ce sujet peut être tabou et qu’une femme peut ne pas vouloir dire qu’elle a eu une fausse couche.

Ensuite, dans certains domaines, le caractère destructif des tests effectués peut indiquer que l’étude d’un échantillon est la seule option viable. Une usine de Coca Cola veut mesurer le volume de boisson dans ses bouteilles de 2 L afin de s’assurer qu’elles répondent aux normes du secteur. Si l’usine effectue un recensement, elle devra ouvrir toutes les bouteilles et les transvider dans un contenant pour mesurer leur volume. Toutes les bouteilles produites seraient donc invendables! Étant donné l’aspect destructif de la mesure, il serait préférable de mesurer le volume d’un échantillon de bouteilles.

05 juin 2011

Test de Wilcoxon: taille d'échantillon pour l'approximation par la Normale

Le test de Wilcoxon est habituellement présenté comme alternative au test t lorsque les données ne semblent pas approximativement normalement distribuées ou que la taille des échantillons est trop petite pour vérifier cette hypothèse.

À la fin de la plupart des livres d'introduction aux statistiques on retrouve un tableau pour calculer des probabilités pour la statistique de Wilcoxon, notamment la valeur P d'un test. Ces tableaux s'étendent bien souvent sur des pages et des pages énumérant toutes les combinaisons possibles pour des tailles d'échantillons allant jusqu'à 20! En 2010, quelques auteurs ont suggéré l'utilisant de l'approximation par la Normale pour remplacer ces tableaux.

La première figure ci-dessous superpose la loi Normale et la distribution exacte de la statistique de Wilcoxon pour des échantillons appariés (Wilcoxon signed rank test) pour différentes tailles d'échantillons. Cette figure suggère que seulement 6 paires d'observations sont suffisantes pour utiliser la loi Normale comme approximation.

La deuxième figure compare la loi Normale à la distribution exacte de la statistique de Wilcoxon (Wilcoxon rank sum test) ou de Mann-Whitney. On observe que déjà avec des échantillons de taille 5 l'approximation apparait très adéquate.

Référence: BELLERA CA, JULIEN M and HANLEY JA, Gaussian Approximations to the Distributions of the Wilcoxon Statistics: Accurate to What N? Graphical Insights. Journal of Statistical Education, 2010; 18(2)

Article disponible en ligne: http://www.amstat.org/publications/jse/v18n2/bellera.pdf

18 mai 2011

Bootstrap et rééchantillonnage

La technique de bootstrap peut être utilisée pour calculer la variance ou l’écart type d’une statistique complexe ou peu commune (par exemple la médiane, un quantile, l’aire sous une courbe ROC pour mesures répétées…).

En général, par bootstrap, on réfère à la technique de rééchantillonnage qui, tel que son nom l'indique, consiste à « RÉ-échantillonner » à l’intérieur d’un échantillon. Ainsi, l’échantillon de départ est en quelques sortes considéré comme une « population » de laquelle sont tirées une série d’échantillons différents.

La première étape consiste à tirer avec remise plusieurs « rééchantillons » de grandeur identique à l’échantillon de départ. 200 rééchantillons sont généralement suffisants. On estime ensuite la variance de notre statistique par la variance des statistiques des rééchantillons (par exemple la variance des médianes des rééchantillons).

Si on souhaite construire un intervalle de confiance, on peut faire un histogramme à partir des statistiques des rééchantillons et vérifier s’il possède une forme approximativement normale. Dans ce cas, on pourra utiliser les propriétés de la loi normale et calculer un intervalle de confiance pour le paramètre en utilisant la forme θ ± 1.96 ES où l’erreur standard (ES) est égale à la racine carrée de la variance calculée plus tôt.

Référence: http://www.stat.wisc.edu/~larget/math496/bootstrap.html