@ccueil Colles

Échantillonnage - Estimation




Fluctuation d'échantillons


L'échantillonnage est l'étude des liens existants entre les paramètres, moyenne ou fréquence, des échantillons prélevés dans une population et ceux de la population elle-même.

Position du problème

Dans une population donnée, on connaît la fréquence $f$ d'un caractère.

Un échantillon de taille $n$ est un ensemble de $n$ individus prélevés dans cette population.
Un tel échantillon aléatoire se constitue en prélevant au hasard un 1er individu dans la population, puis un 2ème, puis un 3ème, ...
Chaque individu a, ou n'a pas, le caractère étudié avec la probabilité $f$. On note $f'$ la fréquence du caractère dans cet échantillon.
L'objectif est d'estimer cette fréquence $f'$.
\[\psset{unit=0.8cm}
\begin{pspicture}(-7.4,-3.5)(3,3.2)
  \psellipse(0,0)(2.9,3.2)
  \rput(-0.1,2){Population}
  \rput(0.1,1.4){\small fréquence $f$}
  \psellipse(-0.3,-1.3)(1.7,0.9)
  \rput(-0.4,-1){Echantillon} 
  \rput(-0.3,-1.5){\small fréquence $f'$}
  \rput(-0.4,-1.9){\small taille $n$}
  \psarc[linewidth=1.4pt,linecolor=blue]{->}(-2.1,0.4){1.6}{78}{275}
  \rput(-5.5,1){\textcolor{blue}{Echantillonnage}}
  \rput(-5.4,0.5){\textcolor{blue}{(déduction)}}
\end{pspicture}\]


Si on note $X_n$ est la variable aléatoire égale au nombre de personnes possédant le caractère étudié dans notre échantillon, $X_n$ suit alors une loi binomiale $\mathcal{B}(n;f)$.
La fréquence recherchée est alors $f'=\dfrac{X_n}{n}$.

Fluctuation d'échantillonnage


Définition: Lorsqu'on répète $n$ fois la même expérience aléatoire, on obtient une série de $n$ succès ou échecs que l'on appelle échantillon de taille $n$.
Si on réalise plusieurs échantillons de même taille, les fréquences de succès ou d'échecs calculées pour chaque échantillon varient d'un échantillon à l'autre.
Ce phénomène s'appelle la fluctuation d'échantillonnage.


Exemple: On lance une pièce bien équilibrée (donc, la probabilité d'obtention des événements "Pile" et "Face" sont égales à $p=0,5$) 100 fois successivement:


  • pour une 1ère série de 100 lancers, on obtient 54 fois "Pile", soit une fréquence $f'=\dfrac{54}{100}=0,54$;
  • pour une 2èeme série de 100 lancers, on obtient 41 fois "Pile", soit une fréquence $f'=\dfrac{41}{100}=0,41$;

  • pour une 3ème série …


Bien que ce phénomène soit aléatoire, on sait que, d'après la loi des grands nombres, plus la taille des échantillons augmente, plus les fréquences observées se rapprochent de la valeur limite $f'=p=0,5$.
Dans l'exemple précédent, on sait que même si le nombre de succès varie d'une expérience à l'autre, il sera rare (c'est-à-dire la probabilité sera faible) d'avoir une fréquence de "Pile" très faible ou très grande (disons, par exemple, inférieure à 0,1 ou supérieure à 0,9).


La notion d'intervalle de fluctuation permet de quantifier ce phénomène: la fréquence de succès calculée sur un échantillon de taille $n$ donné est comprise, avec une certaine probabilité, dans un intervalle de valeurs, ou intervalle de fluctuation.

Intervalle de fluctuation


Définition
Soit $X$ une variable aléatoire qui suit la loi binomiale $\mathcal{B}(n;p)$ et $0<\alpha<1$.

Dire que $[a;b]$ est un intervalle de fluctuation au seuil $1-\alpha$ signifie que
\[P\lp a\leqslant X\leqslant b\rp =1-\alpha\]


En utilisant maintenant le théorème de Moivre-Laplace, qui permet d'approximer les probabilités de la loi binomiale par celles de la loi normale, on peut préciser cet intervalle $[a;b]$:


Propriété
Soit $X_n$ une variable aléatoire suivant la loi binomiale $\mathcal{B}(n;p)$, alors pour tout $\alpha\!\!\in]0;1[$, on a
\[\lim_{n\to+\infty} P\lp \frac{X_n}{n}\in I_n\rp=1-\alpha\]

$I_n$ désigne l'intervalle

\[\lb p-u_\alpha\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
  p+u_\alpha\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\rb\]

avec $u_\alpha$ le nombre tel que, si $X$ suit la loi normale $\mathcal{N}(0;1)$,
\[P(-u_\alpha\leqslant X\leqslant u_\alpha)=1-\alpha\]

L'intervalle $I_n$ s'appelle l'intervalle de fluctuation asymptotique au seuil $1-\alpha$.


Pour la démonstration, voir le cours.

Calcul pratique de l'intervalle de fluctuation


Avec les valeurs approchées (voir cours de probabilités IV - Lois normales , exercice 3)
\[u_{0,05}\simeq 1,96 \text{ et } u_{0,01}\simeq 2,58\]

on peut préciser les intervalles de fluctuation les plus utilisés, au seuil de 95 % et au seuil de 99 %:
Corollaire
Si $n\geqslant30$, $np\geqslant 5$ et $n(1-p)\geqslant 5$, alors,
  • l'intervalle de fluctuation au seuil de 95% est environ:

    \[\lb p-1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, p+1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}\rb\]

  • l'intervalle de fluctuation au seuil de 99% est environ:

    \[\lb p-2,58\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, p+2,58\frac{\sqrt{p(1-p)}}{\sqrt{n}}\rb\]


Exemple:
On lance une pièce de monnaie bien équilibrée 100 fois successivement, et on compte le nombre de tirages Pile. Ce phénomène étant aléatoire, on peut s'attendre à obtenir un nombre quelconque de tirages Pile compris entre 0 et 100.

Néanmoins, on imagine bien que, la pièce étant équilibrée, obtenir un faible nombre (par exemple, inférieur à 10) ou un fort nombre (par exemple, supérieur à 90) de Pile sera "rare".
L'intervalle de fluctuation permet de préciser ces bornes inférieures et suérieures en deça et au delà desquelles ce sera "rare".


La probabilité d'obtenir Pile sur un lancer est $p=0,5$, et donc de ne pas l'obtenir: $q=1-p=0,5$.
Les lancers successifs de la pièce étant identiques et indépendants entre eux, la variable aléatoire $X_{100}$, qui au $n=100$ lancers associe le nombre d'obtention de Pile, suit la loi $\mathcal{B}(100;0,5)$.
On a ici, $n=100\geqslant 30$ et $np=n(1-p)=50\geqslant 5$, et donc, d'après la propriété précédente, l'intervalle de fluctuation au seuil de 95 % de la variable aléatoire $\dfrac{X_{100}}{100}$ (le nombre moyen de Pile obtenus, ou encore la fréquence de Pile sur les 100 lancers) est:
\[\begin{array}{ll}
&\biggl[\ 
p-1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
 p+1,96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\ \biggr]\\[1.2em]
&=\lb\ 0,5-1,96\dfrac{\sqrt{0,5\tm0,5}}{\sqrt{100}}\,;\, 
0,5+1,96\dfrac{\sqrt{0,5\tm0,5}}{\sqrt{100}} 
\ \rb\\[1.5em]
&\simeq
\Bigl[\ 0,5-0,098\,;\,0,5+0,098\ \Bigr] \\[.8em]
&=\Bigl[\ 0,402\,;\,0,598\ \Bigr] 
=\Bigl[\  40,2\%\,;\,59,8\%\ \Bigr]
\enar\]


Dans 95% des cas, la fréquence $f'$ de Pile obtenue sera dans l'intervalle $\lb 40,2\%\,;\,59,8\%\rb$.


De la même façon, l'intervalle de fluctuation au seuil de 99% est:
\[\begin{array}{ll}
&\lb p-2,58\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
p+2,58\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}
\rb \\[1.5em]
&\simeq\Bigl[ 0,371\,;\,0,629\Bigr]
=\Bigl[ 37,1\%\,;\,62,9\%\Bigr]
\enar\]


Dans 99% des cas, la fréquence $f'$ de Pile obtenue sur ces 100 lancers sera comprise entre 0,371 et 0,629.


Corollaire
Si $n\geqslant30$, $np\geqslant 5$ et $n(1-p)\geqslant 5$, l'intervalle de fluctuation au seuil de 95% peut-être approximé par l'intervalle
\[\lb p-\dfrac{1}{\sqrt{n}}\ ;\ p+\dfrac{1}{\sqrt{n}}\rb\]


La démonstration se trouve là aussi dans le cours.


Exemple:
Avec les données de l'exemple précédent, l'intervalle de fluctuation approché au seuil de 95% est alors:
\[\begin{array}{ll}
\lb p-\dfrac{1}{\sqrt{n}}\ ;\ p+\dfrac{1}{\sqrt{n}} \rb
&\dsp=\lb 0,5-\dfrac{1}{\sqrt{100}}\,;\,0,5+\dfrac{1}{\sqrt{100}}\rb\\[1.5em]
&\simeq\Bigl[0,4\,;\,0,6\Bigr]\\[1.2em]&=\Bigl[ 40\%\,;\,60\%\Bigr]
\enar\]

En comparant avec les résultats obtenus précédemment pour l'intervalle de fluctuation au seuil de 95%, on commet une erreur relative de seulement 0,2%=0,002 en utilisant cette formule approchée.


Un exemple complet
Selon l'Institut national des études démographiques (INED), il naît normalement 105 garçons pour 100 filles, soit une proportion de garçons $p=\dfrac{105}{205}\simeq 0,51$.
Aux abords d'une ville est venue s'implanter, il y a cinq ans, une usine chimique. La toxicité des substances manipulées et produites par cette usine est depuis grandement source de polémique.

Dans la maternité de cette ville sont nés depuis ces cinq dernières années 693 enfants, dont "seulement" 332 garçons. Les opposants à cette usine citent cette "faible" quantité de naissances de garçons comme une conséquence néfaste de l'exploitation de cette usine.

Ont-ils raison ?

Le sexe d'un enfant à sa naissance est aléatoire. Ainsi, il est envisageable, en théorie, de n'avoir aucun garçon né parmi les 693 naissances, tout comme il serait envisageable d'avoir vu naître 693 garçons. Ces cas extrêmes sont néanmoins peu probables (et ne laisseraient d'ailleurs aucun doute à quiconque sur le fait qu'il y a, sans aucun doute, un problème !).
L'intervalle de fluctuation permet de préciser, et quantifier, cette idée de "peu probable". En effet, dans 95% des cas de 693 naissances, la proportion de garçons nés sera comprise dans l'intervalle:

\[ I = \Bigl[ \qquad \dots \dots \qquad ; \qquad \dots \dots \qquad \Bigr]\]

et permettra de conclure que …




Exercice 1
D'après les lois génétiques de Mendel, certains croisement de différentes variétés de pois devraient donner des pois jaunes et verts dans une proportion égale à 3 pour 1.
Lors d'une expérience, on a obtenu un échantillon, que l'on peut considérer comme aléatoire, présentant 176 pois jaunes et 48 pois verts.

Ces résultats sont-ils cohérents avec la théorie de Mendel ?



Exercice 2
Deux entreprises A et B recrutent leur personnel dans un bassin d'emploi où il y a autant d'hommes que de femmes.
L'entreprise A emploie 60 personnes dont 26 femmes, tandis que l'entreprise B emploie 1050 personnes dont 480 femmes.
  1. Calculer les proportions de femmes employées dans chaque entreprise.
    Laquelle de ces deux entreprises semble au mieux respecter la parité homme-femme ?
  2. Déterminer pour chaque entreprise l'intervalle de fluctuation au seuil de 95 % de la proportion de femmes employées.
    Les deux entreprises respectent-elles la parité au seuil d'erreur de 5 % ?



Estimation


L'estimation, ou inférence, statistique consiste à essayer de déterminer les caractéristiques d'une population en ne connaissant des informations que sur un échantillon la composant.

\[\psset{unit=0.8cm}
\begin{pspicture}(-6.5,-3.4)(3,3.4)
  \psellipse(0,0)(2.9,3.2)
  \rput(-0.1,2){Population}
  \rput(0,1.3){\scriptsize{fréquence $f$}}
  \psellipse(-0.5,-1.4)(1.9,1.1)
  \rput(-0.5,-1){Echantillon} 
  \rput(-0.5,-1.4){taille $n$}
  \rput[l](-1.7,-1.9){\scriptsize{fréquence}}
  \rput[l](-1.7,-2.15){\scriptsize{empirique\! $f'$}}
  \psarc[linewidth=1.4pt,linecolor=red]{<-}(-2.1,0.4){1.6}{65}{260}
  \rput(-5.3,1){\textcolor{red}{Inférence}}
  \rput(-5.2,0.3){\textcolor{red}{(induction)}}
\end{pspicture}\]


Un des exemples les plus médiatisés de nos jours est celui de sondage: en interrogeant un faible nombre de personnes sur leur intention de vote, on souhaite obtenir une information sur les intentions de vote de la population constituée par tous les électeurs.
Le journaliste et statisticien américain Georges Gallup a réussi à prédire en 1936 l'élection de Franklin Roosevelt contre Alfred Landon: les instituts de sondage étaient nés.

Intervalle de confiance

Dans une population donnée, on connaît la fréquence $f'$ d'un caractère d'un échantillon aléatoire de la population complète. À partir de la connaissance de cette fréquence empirique $f'$, on souhaite estimer la fréquence $f$ de ce caractère dans toute la population.


Propriété
On considère la variable aléatoire $X$ qui à tout échantillon de taille $n$ associe le nombre d'individus possédant le caractère étudié. On suppose que $X$ suit une loi binomiale $\mathcal{B}(n,f)$, et on note $f'=\dfrac{X}{n}$ la fréquence du caractère dans l'échantillon.
Alors, pour $n$ assez grand, l'intervalle
\[I_n=\lb f'-\dfrac{1}{\sqrt{n}}\,;\,f'+\dfrac{1}{\sqrt{n}}\rb\]

contient la fréquence $f$ du caractère dans la population avec une probabilité supérieure ou égale à 0,95.
L'intervalle $I_n$ s'appelle l'intervalle au niveau de confiance de 95 %.

La démonstration se trouve là aussi dans le cours.


Un exemple de sondage
Dans un village, lors d'un sondage effectué un mois avant le scrutin auprès de 200 personnes choisies de façon aléatoire, 109 personnes se déclarent favorables au candidat A.
La proportion d'électeurs favorables dans l'échantillon sondé est: $p'=\dfrac{109}{200}=54,5\,\%\,.$


L'intervalle de confiance au niveau de 95 % de la proportion $p$ d'électeurs qui vont voter pour le candidat A est:


\[\begin{array}{ll}I&=
\lb p'-\dfrac{1}{\sqrt{n}}\,;\, p'+\dfrac{1}{\sqrt{n}}\rb\\[1.5em]
&=\lb 0,545-\dfrac{1}{\sqrt{200}}\,;\,0,545+\dfrac{1}{\sqrt{200}}\rb\\[1.2em]
&\simeq\lb0,474\,;\,0,612\rb\\[1em]
&=\lb 47,4\,\%\,;\,61,2\,\%\rb
\enar\]


On peut donc estimer, avec un niveau de confiance de 95 %, à partir du sondage effectué sur 200 personnes, que le score du candidat A aux prochaines élections sera dans la fourchette $\Bigl[47,4\,\%\,;\,61,2\,\%\Bigr]$.

En particulier, à partir de ce sondage, le candidat A ne peut pas en conclure qu'il sera élu car, au niveau de confiance de 95 %, il n'est pas exclu que la proportion de ses électeurs soit dans l'intervalle $[ 47,4\,\%\,;\,50\,\%[$, et donc inférieure à 50 %.



Exercice 3
Avant le premier tour de l'élection présidentielle de 2002 un sondage IPSOS, réalisé auprès de 989 personnes constituant un échantillon national représentatif de la population française inscrite sur les listes électorales, annonçait les intentions de vote suivantes:
20 % pour J. Chirac, 18 % pour L. Jospin et 14 % pour J.M. Le Pen.
Les médias se préparaient donc pour un second tour entre J. Chirac et L. Jospin.
Le résultat réel des votes à ce premier tour a alors surpris bien des personnes …
  1. Déterminer, pour chaque candidat, l'intervalle de confiance au niveau de confiance de 0,95 de la proportion d'électeurs ayant eu l'intention de voter pour lui.
  2. Les résultats à l'issue du premier tour ont été les suivants:
    19,88 % pour J. Chirac, 16,18 % pour L. Jospin et 16,86 % pour J.M. Le Pen.
    Ces pourcentages sont-ils en accord avec les calculs précédents ?
  3. Pouvait-on au vu de ce sondage écarter avec un niveau de confiance de 0,95 l'un de ces trois candidats ?
  4. Quel devrait être la taille de l'échantillon sondé pour que, en gardant les êmes proportions, les résultats des estimations permettent de séparer les candidats ?



Exercice 4
Un laboratoire pharmaceutique met en place un test pour estimer l'efficacité d'un nouveau médicament contre les migraines.
Deux groupes de 125 patients souffrant de migraines, considérés comme des échantillons aléatoires, participent à ce test.
On administre aux patients du groupe A le nouveau médicament, tandis que les patients du groupe B reçoivent un placebo.
Au bout de 4 jours de traitement, 73 patients du groupe A et 64 patients du groupe B déclarent ressentir une diminution de l'intensité de leurs migraines.
  1. Déterminer les intervalles de confiance au niveau de confiance de 0,95 des proportions de patients déclarant ressentir une diminution de l'intensité de leurs migraines, dans chaque échantillon.
  2. Les intervalles de confiance permettent-ils, au niveau de confiance 0,95, de considérer que le médicament est plus efficace que le placebo ?
  3. Quelle devrait-être la taille minimale de chaque échantillon pour que, avec des proportions indentiques à celles observées précédemment, les résultats confirment l'efficacité du médicament, au niveau de confiance 0,95.



Exercice 5
Un magasin s'apprête à commercialiser deux modèles d'un même produit: le modèle A et le modèle B.
Une enquête préalable à la commande des produits par le magasin a montré que dans une ville 63 % des 400 personnes interrogées préfèrent le modèle A, et que dans une seconde ville, 69 % des 500 personnes interrogées préfèrent le modèle A.

Peut-on considérer, au niveau de confiance de 95 % qu'il y a une différence de préférence entre les personnes des deux villes ?



Exercice 6
Dans une expérience de perception extra-sensorielle on demande à un sujet d'indiquer la couleur d'un jeton tiré aléatoirement dans un sac par un expérimentateur placé dans une autre pièce. Ni le sujet, ni l'expérimentateur ne connaissent la proportion de jetons de chaque couleur dans le sac.
On choisit la règle de décision suivante: si le pourcentage de couleurs devinées correctement appartient à l'intervalle de fluctuation autour de 50 % à un certain seuil fixé à l'avance, on considère que le sujet n'a pas de don de perception extra-sensorielle, sinon on considère qu'il a un don.

Un sujet fait le test, et identifie correctement la couleur de 31 jetons sur 50 essais.
Appliquer la règle de décision aux seuil de 95 %.


Voir aussi: