Statistiques 04. Un biais dans l’écart-type !
le 17/05/2016
L'écart-type expérimental; estimateur non biaisé de l'écart-type théorique σ, est en réalité biaisé ! Etonnant, non ?
Comme je l'expose dans l'article "Biais d'un estimateur dit non biaisé", ce biais est quantifiable dans le cas d'une distribution normale et décroit lorsque l'effectif augment. De l'ordre de 25% pour 2 valeurs, il est inférieur à 1% au-delà de 30 valeurs.
Pour vous en convaincre, visualisez vous-même ce biais en téléchargeant le fichier ci-dessous :
Mode d'emploi : choisissez l’écart-type d’une variable aléatoire σ (par ex. σ = 1), l’effectif d’échantillon n (par ex. n = 3), puis le nombre d’itérations du calcul N (par ex. N = 5000). Le programme calcule N fois l’écart-type de n valeurs et renvoie la moyenne des N écart-types (écart-type expérimental moyen). Il suffit de constater que cet écart-type moyen est systématiquement inférieur à σ.
Note: plus N est grand, plus la valeur de l’écart-type moyen sera fiable, mais plus le temps de calcul sera long. Commencez à N = 1000, puis augmentez progressivement jusqu’à atteindre un rapport qualité / temps de calcul satisfaisant.
Le programme renvoie aussi les écarts-types moyens de n+1, n+2, n+3 et n+4 valeurs. De plus, le fichier produit les corrections à appliquer aux écarts-types expérimentaux pour atteindre σ, ainsi que la correction théorique proposée par le NIST (cf. cet article pour voir la formule du facteur de correction du NIST).
Force est de constater que les données expérimentales collent, pour peu que N soit suffisamment élevé, au facteur théorique (noté 1/c4), démontrant par là même que ce biais est bien réel.
Suite à un commentaire éclairé relatif à ma publication LinkedIn, j’ai été amené à faire évoluer le fichier pour visualiser également le comportement de la variance, qui elle n’est pas biaisée.
Mode d'emploi : il suffit, dans le cadre en haut à gauche, de sélectionner "Ecart-type" ou "Variance" avant de lancer le calcul. Il apparaît alors clairement sur le graphe que l'écart-type est biaisé alors que la variance, elle, ne l'est pas.