On parle de multicollinéarité lorsqu'au moins deux variables explicatives (les variables x) dans un modèle de régression sont hautement corrélées. En d'autres mots, ces deux variables apportent la même information. Cela a pour effet de gonfler les erreurs standards des coefficients pour ces variables les rendant très instables et sensibles à un faible changement dans la variable dépendante ou dans le modèle. Pour cette raison, la multicollinéarité cause seulement problème lorsqu'on souhaite interpréter les coefficients. Elle n'est pas pertinente lorsqu'on veut construire un modèle de prédiction par exemple.
Une règle communément utilisée pour identifier les problèmes de multicollinéarité est la marge de 0,80. Elle dit qu'on ne devrait pas inclure dans un modèle de régression les variables dont le coefficient de corrélation linéaire est supérieur à 0,8.
Quand rien n'est normal...
Blog sur les statistiques
19 octobre 2015
Faut-il faire un recensement?
Un recensement
est une étude auprès de toutes les unités statistiques d’une population. Alors
qu’un sondage est une étude auprès d’un échantillon de la population. Dans un
monde idéal, on ne ferait que des recensements, mais dans la réalité, cela
s’avère bien souvent très long et coûteux, en particulier auprès des grandes
populations. En fait, on doit mener un recensement seulement lorsqu’on fait
face à l’une des situations suivantes :
- On veut déterminer la taille de la population.
- On veut établir la composition de la population en terme de quelques caractéristiques de base.
Ainsi si l'on veut déterminer le nombre d'habitants au Québec, nous
n’avons pas d’autres choix que de compter tous les Québécois et donc d’étudier
la population au complet plutôt qu’un échantillon. Par contre, si l'on souhaite
étudier les habitudes alimentaires des Québécois, il n’est pas nécessaire de
mener un recensement et de questionner tous les Québécois, on pourra se
contenter d’étudier un échantillon de Québécois.
Établir la composition de la population en terme de quelques
caractéristiques de base signifie qu’on souhaite décrire la structure de la
population habituellement en terme de sexe, d’âge, de revenu et/ou d’ethnie.
Ces informations peuvent s’avérer utiles car elles permettront par la suite de
vérifier la représentativité d’échantillons et d’effectuer de l’échantillonnage
stratifié. Un échantillon est représentatif de la population s’il possède les
mêmes caractéristiques que la population. Par exemple, dans un échantillon
représentatif de 1000 Québécois, il y aura environ 500 femmes et 500 hommes,
les groupes d’âge dans l’échantillon seront structurés de façon similaire à
ceux dans la population et ainsi de suite.
Il existe deux situations précises où, même si l'on se
trouve dans l’une des situations décrites plus haut, il est impossible de mener
un recensement :
- On ne peut pas cerner la population.
- Les mesures à effectuer comportent un aspect destructif.
Il serait par exemple impossible de mener un recensement
pour déterminer le nombre de fausses couches au Canada en 2014 puisqu’on ne
peut pas cerner la population, c’est-à-dire qu’on ne peut pas identifier toutes
les fausses couches ayant eu lieu en 2014 entre autre parce que ce sujet peut être tabou et qu’une femme peut ne pas vouloir dire
qu’elle a eu une fausse couche.
05 juin 2011
Test de Wilcoxon: taille d'échantillon pour l'approximation par la Normale
Le test de Wilcoxon est habituellement présenté comme alternative au test t lorsque les données ne semblent pas approximativement normalement distribuées ou que la taille des échantillons est trop petite pour vérifier cette hypothèse.
À la fin de la plupart des livres d'introduction aux statistiques on retrouve un tableau pour calculer des probabilités pour la statistique de Wilcoxon, notamment la valeur P d'un test. Ces tableaux s'étendent bien souvent sur des pages et des pages énumérant toutes les combinaisons possibles pour des tailles d'échantillons allant jusqu'à 20! En 2010, quelques auteurs ont suggéré l'utilisant de l'approximation par la Normale pour remplacer ces tableaux.
La première figure ci-dessous superpose la loi Normale et la distribution exacte de la statistique de Wilcoxon pour des échantillons appariés (Wilcoxon signed rank test) pour différentes tailles d'échantillons. Cette figure suggère que seulement 6 paires d'observations sont suffisantes pour utiliser la loi Normale comme approximation.
La deuxième figure compare la loi Normale à la distribution exacte de la statistique de Wilcoxon (Wilcoxon rank sum test) ou de Mann-Whitney. On observe que déjà avec des échantillons de taille 5 l'approximation apparait très adéquate.


Référence: BELLERA CA, JULIEN M and HANLEY JA, Gaussian Approximations to the Distributions of the Wilcoxon Statistics: Accurate to What N? Graphical Insights. Journal of Statistical Education, 2010; 18(2)
Article disponible en ligne: http://www.amstat.org/publications/jse/v18n2/bellera.pdf
18 mai 2011
Bootstrap et rééchantillonnage
La technique de bootstrap peut être utilisée pour calculer la variance ou l’écart type d’une statistique complexe ou peu commune (par exemple la médiane, un quantile, l’aire sous une courbe ROC pour mesures répétées…).
En général, par bootstrap, on réfère à la technique de rééchantillonnage qui, tel que son nom l'indique, consiste à « RÉ-échantillonner » à l’intérieur d’un échantillon. Ainsi, l’échantillon de départ est en quelques sortes considéré comme une « population » de laquelle sont tirées une série d’échantillons différents.
La première étape consiste à tirer avec remise plusieurs « rééchantillons » de grandeur identique à l’échantillon de départ. 200 rééchantillons sont généralement suffisants. On estime ensuite la variance de notre statistique par la variance des statistiques des rééchantillons (par exemple la variance des médianes des rééchantillons).
Si on souhaite construire un intervalle de confiance, on peut faire un histogramme à partir des statistiques des rééchantillons et vérifier s’il possède une forme approximativement normale. Dans ce cas, on pourra utiliser les propriétés de la loi normale et calculer un intervalle de confiance pour le paramètre en utilisant la forme θ ± 1.96 ES où l’erreur standard (ES) est égale à la racine carrée de la variance calculée plus tôt.
Référence: http://www.stat.wisc.edu/~larget/math496/bootstrap.html
En général, par bootstrap, on réfère à la technique de rééchantillonnage qui, tel que son nom l'indique, consiste à « RÉ-échantillonner » à l’intérieur d’un échantillon. Ainsi, l’échantillon de départ est en quelques sortes considéré comme une « population » de laquelle sont tirées une série d’échantillons différents.
La première étape consiste à tirer avec remise plusieurs « rééchantillons » de grandeur identique à l’échantillon de départ. 200 rééchantillons sont généralement suffisants. On estime ensuite la variance de notre statistique par la variance des statistiques des rééchantillons (par exemple la variance des médianes des rééchantillons).
Si on souhaite construire un intervalle de confiance, on peut faire un histogramme à partir des statistiques des rééchantillons et vérifier s’il possède une forme approximativement normale. Dans ce cas, on pourra utiliser les propriétés de la loi normale et calculer un intervalle de confiance pour le paramètre en utilisant la forme θ ± 1.96 ES où l’erreur standard (ES) est égale à la racine carrée de la variance calculée plus tôt.
Référence: http://www.stat.wisc.edu/~larget/math496/bootstrap.html
S'abonner à :
Messages (Atom)