@ccueil Colles

Source LaTeX icone Cours-Probabilites-Echantillonnage-Estimation



Fichier
Type: Cours
File type: Latex, tex (source)
Télécharger le document pdf compilé pdficon
Description
Cours de mathématiques: fluctuation des échantillons (échantillonnage), estimation statistique
Niveau
Terminale S
Table des matières
  • Fluctation des échantillons aléatoires
    • Introduction - Position du problème
    • Intervalle de fluctuation
    • Calcul pratique de l'intervalle
    • Exemples et exercices
  • Estimation
    • Introduction - Position du problème
    • Intervalle de confiance
    • Dimensionnement des échantillons et sondages
    • Exemples et exercices
Mots clé
Cours de mathématiques, échantillons aléatoires, échantillonnage, fluctuation aléatoire des échantillons, estimation, sondage, dimensionnement des sondages
Voir aussi:

Documentation sur LaTeX
pdficon
Source LaTex icone
Télécharger le fichier source pdficon

\documentclass[12pt]{article}
\usepackage{amsfonts}\usepackage{amssymb}
\usepackage[french]{babel}
\usepackage{amsmath}
\usepackage[utf8]{inputenc}
\usepackage{graphicx}
\usepackage{epsf}
\usepackage{calc}
\usepackage{enumerate}

\usepackage{array}
\usepackage{multirow}
\usepackage{longtable}
\usepackage{pst-all}

\usepackage{ifthen}

\usepackage{hyperref}
\hypersetup{
    pdfauthor={Yoann Morel},
    pdfsubject={Cours de mathématiques: Estimation - Echantillonnage},
    pdftitle={Estimation - Echantillonnage},
    pdfkeywords={Mathématiques, TS, terminale, S, 
      estimation, échantillonnage, 
      probabilité, probabilités, loi binomiale, 
      loi normale, 
    }
}
\hypersetup{
    colorlinks = true,
    linkcolor = red,
    anchorcolor = red,
    citecolor = blue,
    filecolor = red,
    urlcolor = red
}
\voffset=-1cm
% Raccourcis diverses:
\newcommand{\nwc}{\newcommand}
\nwc{\dsp}{\displaystyle}
\nwc{\ct}{\centerline}
\nwc{\bge}{\begin{equation}}\nwc{\ene}{\end{equation}}
\nwc{\bgar}{\begin{array}}\nwc{\enar}{\end{array}}
\nwc{\bgit}{\begin{itemize}}\nwc{\enit}{\end{itemize}}
\nwc{\bgen}{\begin{enumerate}}\nwc{\enen}{\end{enumerate}}

\nwc{\la}{\left\{}\nwc{\ra}{\right\}}
\nwc{\lp}{\left(}\nwc{\rp}{\right)}
\nwc{\lb}{\left[}\nwc{\rb}{\right]}

\nwc{\bgsk}{\bigskip}
\nwc{\vsp}{\vspace{0.1cm}}
\nwc{\vspd}{\vspace{0.2cm}}
\nwc{\vspt}{\vspace{0.3cm}}
\nwc{\vspq}{\vspace{0.4cm}}

\def\N{{\rm I\kern-.1567em N}}                              % Doppel-N
\def\D{{\rm I\kern-.1567em D}}                              % Doppel-N
\def\No{\N_0}                                               % Doppel-N unten 0
\def\R{{\rm I\kern-.1567em R}}                              % Doppel R
\def\C{{\rm C\kern-4.7pt                                    % Doppel C
\vrule height 7.7pt width 0.4pt depth -0.5pt \phantom {.}}}
\def\Q{\mathbb{Q}}
\def\Z{{\sf Z\kern-4.5pt Z}}                                % Doppel Z

\def\epsi{\varepsilon}
\def\vphi{\varphi}
\def\lbd{\lambda}
\def\Ga{\Gamma}

\def\Cf{\mathcal{C}_f}

\nwc{\tm}{\times}
\nwc{\V}[1]{\overrightarrow{#1}}

\nwc{\zb}{\mbox{$0\hspace{-0.67em}\mid$}}
\nwc{\db}{\mbox{$\hspace{0.1em}|\hspace{-0.67em}\mid$}}

\nwc{\ul}[1]{\underline{#1}}

\nwc{\bgproof}[1]{%
  \vspt\noindent%
  \ul{Démonstration:} #1%
  \hfill$\square$%
}

\newcounter{nex}%[section]
\setcounter{nex}{0}
\newenvironment{EX}{%
\stepcounter{nex}
\bgsk{\noindent\large {\bf Exercice }\arabic{nex}}\hspace{0.2cm}
}{}

\nwc{\bgex}{\begin{EX}}\nwc{\enex}{\end{EX}}

\nwc{\bgfg}{\begin{figure}}\nwc{\enfg}{\end{figure}}
  \nwc{\epsx}{\epsfxsize}\nwc{\epsy}{\epsfysize}
\nwc{\bgmp}{\begin{minipage}}\nwc{\enmp}{\end{minipage}}


\nwc{\limcdt}[4]{
  $\dsp
  \lim_{\bgar{ll}\scriptstyle{#1}\vspace{-0.2cm}\\\scriptstyle{#2}\enar}
  {#3}={#4}$
}

\headheight=0cm
\textheight=26.2cm
\topmargin=-1.8cm
\footskip=1.cm
\textwidth=18.6cm
\oddsidemargin=-1.25cm

\newcounter{ntheo}
\setcounter{ntheo}{1}
\newlength{\ltheo}
\nwc{\bgth}[1]{
  \settowidth{\ltheo}{Théorème \arabic{ntheo}}
  \noindent
  \paragraph{Théorème}% \arabic{ntheo}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\ltheo-0.5em}{\it #1}\enmp
  \stepcounter{ntheo}
}

\newcounter{nprop}
\setcounter{nprop}{1}
\newlength{\lprop}
\nwc{\bgprop}[1]{
  \settowidth{\lprop}{Propriété \arabic{nprop}}
  \noindent
  \paragraph{Propriété}% \arabic{ntheo}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\lprop-0.5em}{\it #1}\enmp
  \stepcounter{nprop}
}

\nwc{\bgcorol}[1]{
  \settowidth{\ltheo}{Corollaire \arabic{ntheo}}
  \noindent
  \paragraph{Corollaire}% \arabic{ntheo}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\ltheo-0.5em}{\it #1}\enmp
}

\newcounter{ndef}
\setcounter{ndef}{1}
\newlength{\ldef}
\nwc{\bgdef}[1]{
  \settowidth{\ldef}{Définition \arabic{ndef}}
  \noindent
  \paragraph{Définition}% \arabic{ndef}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\ldef-0.5em}{\it #1}\enmp
  \stepcounter{ntheo}
}


\renewcommand\thesection{\Roman{section}\ \ -}
\renewcommand\thesubsection{\arabic{subsection})}

% Bandeau en bas de page
\newcommand{\TITLE}{Echantillonnage - Estimation}
\author{Y. Morel}
\date{}

\usepackage{fancyhdr}
\usepackage{lastpage}

\pagestyle{fancyplain}
\setlength{\headheight}{0cm}
\renewcommand{\headrulewidth}{0pt}
\renewcommand{\footrulewidth}{0.1pt}
\lhead{}\chead{}\rhead{}

\lfoot{Y. Morel \url{xymaths.free.fr/Lycee/TS/}}
\rfoot{\TITLE\ - $TS$ - \thepage/\pageref{LastPage}}
\cfoot{}

\psset{arrowsize=9pt,arrowlength=1.6,arrowinset=.4}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{document}
%\thispagestyle{empty}

\vspace*{-0.5cm}


\hfill{\LARGE \bf \TITLE}
\hfill $T^{\text{\scriptsize{ale}}}S$

\section{Fluctuation d'échantillons}

L'échantillonnage est l'étude des liens existants entre les
paramètres, moyenne ou fréquence, des échantillons prélevés dans une
population et ceux de la population elle-même.  


\subsection{Position du problème}

\vspace{-0.5cm}
\noindent
\bgmp{9.5cm}
Dans une population donnée, on connaît la fréquence $f$ d'un
caractère.  

\vspq
On répète $n$ fois, de façon indépendante, 
le choix d'un individu dans cette population 
de façon à constituer un échantillon de taille $n$. 

On aimerait alors connaître, ou du moins estimer, 
sur cet échantillon, la fréquence $f'$ du caractère. 
\enmp
\bgmp{6cm}
\psset{unit=0.8cm}
\begin{pspicture}(-7.6,-3.8)(1.5,2.4)
  \psellipse(0,0)(2.9,3.2)
  \rput(-0.1,2){Population}
  \rput(0.1,1.4){\small fréquence $f$}
  \psellipse(-0.3,-1.3)(1.7,0.9)
  \rput(-0.4,-1){Echantillon} 
  \rput(-0.3,-1.5){\small fréquence $f'$}
  \rput(-0.4,-1.9){\small taille $n$}
  %
  \psarc[linewidth=1.4pt,linecolor=blue]{->}(-2.1,0.4){1.6}{78}{275}
  \rput(-5.5,1){\textcolor{blue}{Echantillonnage}}
  \rput(-5.4,0.5){\textcolor{blue}{(déduction)}}
\end{pspicture}
\enmp

%\vspd
Si $X_n$ est la variable aléatoire égale au nombre de personnes
possédant le caractère étudié dans notre échantillon, 
$X_n$ suit alors une loi binomiale $\mathcal{B}(n;f)$. 

On cherche donc à estimer la fréquence $f'=\dfrac{X_n}{n}$. 

%\vspq
\subsection{Intervalle de fluctuation}

\vspace{-0.5cm}
\bgdef{
  Lorsqu'on répète $n$ fois la même expérience aléatoire, on obtient
  une série de $n$ succès ou échecs que l'on appelle échantillon de taille
  $n$. 

  Si on réalise plusieurs échantillons de même taille, 
  les fréquences de succès ou d'échecs calculées pour chaque
  échantillon varient d'un 
  échantillon à l'autre. 

  Ce phénomène s'appelle la 
  {\bf fluctuation d'échantillonnage}. 
}

\vspt\noindent
\ul{Exemple:} On lance une pièce bien équilibrée (donc, la probabilité
d'obtention des événements "Pile" et "Face" sont égales à $p=0,5$) 
100 fois successivement: 

\vspd
\bgit
\item pour une 1$^\text{ère}$ série de 100 lancers, on obtient 
  54 fois "Pile", soit une fréquence 
  $f'=\dfrac{54}{100}=0,54$; 
\vsp
\item pour une 2$^\text{ème}$ série de 100 lancers, on obtient 
  41 fois "Pile", soit une fréquence 
  $f'=\dfrac{41}{100}=0,41$; 
\vsp
\item pour une 3$^\text{èeme}$ série \dots 
\enit 


\vspt
Bien que ce phénomène soit aléatoire, on sait que, d'après
la loi des grands nombres, plus la taille des échantillons
augmente, plus les fréquences observées se rapprochent, ou se
stabilisent autour, d'une valeur limite $f'=p=0,5$.

Dans l'exemple précédent, on sait que même si le nombre de succès
varie d'une expérience à l'autre, 
il sera rare (c'est-à-dire la probabilité sera
faible) d'avoir une fréquence de "Pile" très faible ou très grande
(disons, par exemple, inférieure à 0,1 ou supérieure à 0,9). 


\vspd
La notion d'intervalle de fluctuation permet de quantifier ce phénomène: 
la fréquence de succès calculée sur un échantillon de taille $n$ donné est
comprise, avec une certaine probabilité, 
%à un certain seuil de confiance, % ou risque d'erreur près,
dans un intervalle de valeurs, ou {\bf intervalle de fluctuation}. 


\bgdef{
  Soit $X$ une variable aléatoire qui suit la loi binomiale 
  $\mathcal{B}(n;p)$ et $0<\alpha<1$. 

  Dire que $[a;b]$ est un intervalle de fluctuation au seuil
  $1-\alpha$ signifie que 
  \[
  P\lp a\leqslant X\leqslant b\rp =1-\alpha
  \]
}


%La probabilité que la fréquence calculée sur un échantillon soit dans 
%cet intervalle de fluctuation est supérieure ou égale au seuil 
%fixé (en général 0,95).

\bgprop{
  Soit $X_n$ une variable aléatoire suivant la loi binomiale
  $\mathcal{B}(n;p)$, alors pour tout  
  $\alpha\!\!\in]0;1[$, on~a 
  \[
  \lim_{n\to+\infty} P\lp \frac{X_n}{n}\in I_n\rp=1-\alpha
  \]
  où $I_n$ désigne l'intervalle
  $\lb
  p-u_\alpha\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
  p+u_\alpha\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}
  \rb$\\[.4em]
  avec $u_\alpha$ le nombre tel que, si $X$ suit la loi normale
  $\mathcal{N}(0;1)$, 
  \[
  P(-u_\alpha\leqslant X\leqslant u_\alpha)=1-\alpha
  \]
  L'intervalle $I_n$ s'appelle l'intervalle de fluctuation
  asymptotique au seuil $1-\alpha$. 
}

\vspd
\bgproof{
  Si $X_n$ suit la loi binomiale $\mathcal{B}(n;p)$, 
  alors d'après le théorème de Moivre-Laplace, 
  pour $n$ assez grand, 
  $X_n$ suit approximativement la loi normale $\mathcal{N}(np;\sqrt{np(1-p)})$, 
  et donc, $\dfrac{X_n}{n}$ suit
  approximativement la loi normale 
  $\mathcal{N}\lp\dfrac{np}{n};\dfrac{\sqrt{np(1-p)}}{n}\rp$, 
  soit la loi normale 
  $\mathcal{N}\lp p;\sigma\rp$, 
  avec $\sigma=\sqrt{\dfrac{p(1-p)}{n}}$. 

  \vspd\noindent
  On cherche alors $\delta$ tel que \ \ 
  $\dsp
  P\lp p-\delta\leqslant \dfrac{X_n}{n}\leqslant p+\delta\rp
  =1-\alpha
  $. 

  \noindent En ramenant $\dfrac{X_n}{n}$ à une variable suivant la 
  loi normale réduite $\mathcal{N}(0;1)$: 
  $
  P\lp -\dfrac{\delta}{\sigma}\leqslant 
  \dfrac{\dfrac{X_n}{n}-p}{\sigma}\leqslant 
  \dfrac{\delta}{\sigma}\rp
  =1-\alpha
  $

  \noindent
  La variable aléatoire $\dsp X=\dfrac{\dfrac{X_n}{n}-p}{\sigma}$ suit 
  une loi normale centrée réduite $\mathcal{N}(0;1)$, et on sait donc
  qu'il existe un unique nombre $u_\alpha$ tel que 
  $
  P(-u_\alpha\leqslant X\leqslant u_\alpha)=1-\alpha\,.
  $

  \medskip\noindent
  Le théorème est donc vérifié pour 
  $\dfrac{\delta}{\sigma}=u_\alpha
  \!\!\iff\!\!\delta=u_\alpha\sigma=u_\alpha\sqrt{\dfrac{p(1-p)}{n}}$
  et on a donc, pour $n$ assez~grand, 
  \[
  P\lp \frac{X_n}{n}\in I_n\rp=1-\alpha  
  \]
}


En pratique, la variable aléatoire $X_n$ désigne le nombre succès,
c'est-à-dire le nombre d'individus possédant le caractère étudié, 
dans l'échantillon de taille $n$ formé, et alors 
$f'=\dfrac{X_n}{n}$ est la fréquence de ce caractère dans l'échantillon. 

Cette propriété fournit donc un intervalle $I_n$ de fluctuation 
au seuil $\alpha$. 

\vspq
\subsection{Calcul pratique de l'intervalle de fluctuation}
\vspd

\vspd\noindent
Avec les valeurs approchées, 
$u_{0,05}\simeq 1,96$ et $u_{0,01}\simeq 2,58$, on peut préciser les
intervalles de fluctuation les plus utilisés, au seuil de 95\,\% et au
seuil de 99\,\%:
\bgcorol{Si $n\geqslant30$, $np\geqslant 5$ et $n(1-p)\geqslant 5$,
  alors, \vspd

  \bgit
  \item[$\bullet$] l'intervalle de fluctuation au seuil de 95\% est environ: 
    \[\lb
    p-1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
    p+1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}
    \rb\]

  \item[$\bullet$] l'intervalle de fluctuation au seuil de 99\% est environ: 
    \[\lb
    p-2,58\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
    p+2,58\frac{\sqrt{p(1-p)}}{\sqrt{n}}
    \rb\]
  \enit
}


\vspd\noindent
\ul{Exemple:} On lance une pièce de monnaie bien équilibrée 100 fois
successivement, et on compte le nombre de tirages "Pile". 

Ce phénomène étant aléatoire, on peut s'attendre à obtenir un nombre
quelconque de tirages "Pile" compris entre 0 et 100. 

\vsp
Néanmoins, on imagine bien que, la pièce étant équilibrée, obtenir un
faible nombre (par exemple, inférieur à 10) ou un fort nombre (par
exemple, supérieur à 90) de "Pile" sera rare. 

L'intervalle de fluctuation permet de préciser cela. 

\vspd\noindent
La probabilité d'obtenir "Pile" sur un lancé est $p=0,5$, et donc de
ne pas l'obtenir: $q=1-p=0,5$. \\
Les lancés successifs de la pièce étant identiques et indépendants
entre eux, la variable aléatoire $X_{100}$, qui au $n=100$ lancers associe le 
nombre d'obtention de "Pile", suit la loi $\mathcal{B}(100;0,5)$. 

On a ici, $n=100\geqslant 30$ et  $np=n(1-p)=50\geqslant 5$, 
et donc, 
d'après la propriété précédente, l'intervalle de fluctuation au seuil
de 95\,\% de la variable aléatoire $\dfrac{X_{100}}{100}$ 
(le nombre moyen de "Pile" obtenus, ou encore la fréquence de "Pile"
sur les 100 lancers) est: 
\[\bgar{ll}
\dsp\biggl[\ 
p-1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
&\dsp p+1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}
\ \biggr]
\\[0.4cm]
&\dsp=
\lb\ 
0,5-1,96\frac{\sqrt{0,5\tm0,5}}{\sqrt{100}}\,;\, 
0,5+1,96\frac{\sqrt{0,5\tm0,5}}{\sqrt{100}} 
\ \rb\\[0.5cm]
&\simeq
\lb\ 
0,5-0,098\,;\,0,5+0,098
\ \rb
=\lb\ 0,402\,;\,0,598\ \rb %\\[0.4cm]
%&=\lb\  40,2\%\,;\,59,8\%\ \rb
\enar\]

Dans 95\% des cas, la fréquence $f'$ de "Pile" obtenue sera dans
l'intervalle %$\lb 40,2\%\,;\,59,8\%\rb$.
$\lb 0,402\,;\,0,598\rb$.

\vspd
De la même façon, l'intervalle de fluctuation au seuil de 99\% est: 
\[\bgar{ll}
\lb
p-2,58\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
p+2,58\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}
\rb
&\simeq
\lb 0,5-0,129\,;\,0,5+0,129\rb \vspd\\
%&=\lb 37,1\%\,;\,62,9\%\rb
&=\lb 0,371\,;\,0,629\rb
\enar\]

\noindent
Dans 99\% des cas, la fréquence $f'$ de "Pile" obtenue sur ces 100 lancés
sera comprise entre 0,371 et~0,629. 


\vspd
\bgcorol{
  Si $n\geqslant30$, $np\geqslant 5$ et $n(1-p)\geqslant 5$, 
  l'intervalle de fluctuation au seuil de 95\% peut-être approximé par
  l'intervalle 
  \[
  \lb p-\dfrac{1}{\sqrt{n}}\ ;\ p+\dfrac{1}{\sqrt{n}} \rb
  \]
}


\bgproof{
  L'intervalle de fluctuation au seuil de 95\%, d'après le théorème
  précédent est, avec $\alpha=5\%=0,05$, 
  \[\lb
  p-u_{0,05}\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
  p+u_{0,05}\frac{\sqrt{p(1-p)}}{\sqrt{n}}
  \rb\]
  où $u_{0,05}$ est le nombre tel que 
  si $X$ suit la loi normale centrée réduite $\mathcal{N}(0;1)$, 
  \[
  P(-u_{0,05}\leqslant X\leqslant u_{0,05})=1-0,05=0,95=95\%
  \]
  On sait que $u_{0,05}\simeq 1,96$, et donc que 
  l'intervalle de fluctuation au seuil de 95\% est: 
  \[\lb
  p-1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
  p+1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}\ .
  \rb\]
  
  De plus, soit $f:p\mapsto p(1-p)$, pour $p\in[0;1]$, 
  alors $f$ est une fonction
  trinôme du second degré dont le sens de variation est: 
  
  \[
  \begin{tabular}{|c|ccc|}\hline
    $p$  & 0 & \hspace{0.6cm}$\frac{1}{2}$\hspace*{0.6cm}& 1  \\\hline
    &&&\\
    $f(p)$&\psline{->}(0.1,-0.2)(0.8,0.6)&\rput(0,0.5){$\frac{1}{4}$}
    \psline{->}(0.3,0.6)(1,-0.2)&\\
    &0&&0\\\hline
  \end{tabular}
  \]

  d'où, la fonction racine carrée étant croissante: 
  \begin{tabular}{|c|ccc|}\hline
    $p$  & 0 & \hspace{0.6cm}$\frac{1}{2}$\hspace*{0.6cm}& 1  \\\hline
    &&&\\
    $\sqrt{p(1-p)}$&
    \psline{->}(0.1,-0.2)(0.8,0.6)&\rput(0,0.5){$\frac{1}{2}$}
    \psline{->}(0.3,0.6)(1,-0.2)&\\
    &0&&0\\\hline
  \end{tabular}

  et donc, pour tout $p\in[0;1]$, 
  \[1,96\sqrt{p(1-p)}\leqslant 1,96\tm\frac{1}{2} < 1\]
  On a donc, pour tout $p\in[0;1]$, 
  \[\lb
  p-1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}}\,;\, 
  p+1,96\frac{\sqrt{p(1-p)}}{\sqrt{n}} 
  \rb
  \subset 
  \lb p-\dfrac{1}{\sqrt{n}}\ ;\ p+\dfrac{1}{\sqrt{n}} \rb
  \]
\textsl{L'intervalle $\lb p\pm\dfrac{1}{\sqrt{n}}\rb$ est plus large, donc un
peu moins précis.}
}


\vspd\noindent
\ul{Exemple:} 
Avec les données de l'exemple précédent, l'intervalle de fluctuation
approché au seuil de 95\% est alors: 
\[\bgar{ll}
\lb p-\dfrac{1}{\sqrt{n}}\ ;\ p+\dfrac{1}{\sqrt{n}} \rb
&\dsp=
\lb 0,5-\dfrac{1}{\sqrt{100}}\,;\,0,5+\dfrac{1}{\sqrt{100}}\rb
\simeq
\lb 0,4\,;\,0,6\rb\\[0.4cm]
%&\dsp=\lb 40\%\,;\,60\%\rb
\enar\]
En comparant avec les résultats obtenus précédemment pour l'intervalle
de fluctuation au seuil de 95\%, on commet une erreur relative de seulement
0,2\%=0,002 en utilisant cette formule approchée. 

%\vspq
%\pagebreak
\subsection{Exemple}
%\vspd

Selon l'Institut national des études démographiques (INED), il naît
normalement 105 garçons pour 100 filles, soit une proportion de
garçons 
$p=\dfrac{105}{205}\simeq 0,51$. 

Aux abords d'une ville est venue s'implanter, il y a cinq ans, une
usine chimique. 
La toxicité des substances manipulées et produites par cette usine est
depuis grandement source de polémique. 

\vsp
Dans la maternité de cette ville, sont nés depuis ces cinq dernières
années 693 enfants, dont "seulement" 332 garçons. 
Les opposants à cette usine citent cette "faible" quantité de
naissances de garçons comme une conséquence néfaste de l'exploitation
de cette usine. 

Ont-ils raison ? 

\vspt
Le sexe d'un enfant à sa naissance est aléatoire. 
Ainsi, il est envisageable, en théorie, de n'avoir aucun garçon né 
parmi les 693 naissances, tout comme il serait envisageable d'avoir
vu naître 693 garçons. 
Ces cas extrêmes sont néanmoins peu probables. 

L'intervalle de fluctuation permet de préciser, et quantifier, cette
idée de "peu probable". 
En effet, dans 95\% des cas de 693 naissances, la proportion de
garçons nés sera comprise dans l'intervalle: 

\vspd
\[
I=\hspace{10cm}
%\lb\ p-\frac{1}{\sqrt{693}}\,;\,p+\frac{1}{\sqrt{693}}\ \rb
%\simeq
%\lb\ 0,472\,;\,0,548\ \rb
%=
%\lb\ 47,2\%\,;\,54,8\%\ \rb\,. 
\]

\vspq
Ici, la proportion d'enfants de garçons nés depuis les cinq dernières
années est: 
$f'=\dots$%\dfrac{332}{693}\simeq 0,479=47,9\%$. 

\vspd
Comme $f'\in I$, ce "faible" nombre de naissance de garçons
s'explique, au seuil de 95\%, 
%, ou encore au risque d'erreur de 5\%, 
par les fluctuations aléatoires des naissances de
garçons/filles. 

\vspd
L'usine ne peut être incriminée dans ces observations. 

\vspd\noindent
\ul{Remarque:} Dans le cas où on aurait eu $f'\notin I$, il faut toutefois
rester prudent: au seuil de confiance de 95\%, 
les fluctuations aléatoires
des naissances ne permettraient pas d'expliquer ce faible nombre de
naissances de garçons; 
néanmoins, cela ne signifierait pas directement que l'usine est en
cause, pas plus que probablement un certain nombre d'autres
paramètres. 

Une étude statistique (ici épidémiologique) plus poussée serait
nécessaire pour aboutir à une telle conclusion. 


\bgex
D'après les lois génétiques de Mendel, certains croisement de
différentes variétés de pois devraient donner des pois jaunes et verts
dans une proportion égale à 3 pour 1. 

Lors d'une expérience, on a obtenu un échantillon, que l'on peut
considérer comme aléatoire, présentant 176 pois jaunes et 48 pois
verts. 

\vsp
Ces résultats sont-ils cohérents avec la théorie de Mendel ?
\enex


\bgex

Deux entreprises A et B recrutent leur personnel dans un bassin
d'emploi où il y a autant d'hommes que de femmes. 

L'entreprise A  emploie 60 personnes dont 26 femmes, tandis que
l'entreprise B emploie 1050 personnes dont 480 femmes. 

\bgen
\item Calculer les proportions de femmes employées dans chaque
  entreprise. 

  Laquelle de ces deux entreprises semble au mieux respecter la parité
  homme-femme ?

\item Déterminer pour chaque entreprise l'intervalle de fluctuation au
  seuil de 95\,\% de la proportion de femmes employées. 

  Les deux entreprises respectent-elles la parité au seuil d'erreur de
  5\,\% ?
\enen
\enex

%\clearpage
\vspq
\section{Estimation}

L'estimation, ou inférence, statistique consiste à essayer de
déterminer les caractéristiques d'une population en ne connaissant
des informations que sur un échantillon la composant. 

Un des exemples les plus médiatisés de nos jours est celui de
sondage: en interrogeant un faible nombre de personnes sur leur
intention de vote, on souhaite obtenir une information sur les
intentions de vote de la population constituée par tous les
électeurs. 

Le journaliste et statisticien américain Georges Gallup a réussi à
prédire en 1936 l'élection de Franklin Roosevelt contre Alfred
Landon: les instituts de sondage étaient nés. 
 

\subsection{Position du problème}

\noindent
\bgmp{9.5cm}
Dans une population donnée, on connaît la fréquence %ou la probabilité
$f'$ d'un caractère d'un échantillon aléatoire de la population
complète. 

\vspt
A partir de la connaissance de cette fréquence empirique $f'$, 
on souhaite estimer la fréquence $f$ de ce caractère dans toute la
population.  
\enmp
\bgmp{6cm}
\psset{unit=0.8cm}
\begin{pspicture}(-7.2,-3.4)(1.5,3.4)
  \psellipse(0,0)(2.9,3.2)
  \rput(-0.1,2){Population}
  \rput(0,1.3){\scriptsize{fréquence $f$}}
  \psellipse(-0.5,-1.4)(1.9,1.1)
  \rput(-0.5,-1){Echantillon} 
  \rput(-0.5,-1.4){taille $n$}
  \rput[l](-1.7,-1.9){\scriptsize{fréquence}}
  \rput[l](-1.7,-2.15){\scriptsize{empirique\! $f'$}}
  %
  \psarc[linewidth=1.4pt,linecolor=red]{<-}(-2.1,0.4){1.6}{65}{260}
  \rput(-5.3,1){\textcolor{red}{Inférence}}
  \rput(-5.2,0.3){\textcolor{red}{(induction)}}
\end{pspicture}
\enmp

\vspq
On constitue un échantillon en prélevant aléatoirement et
successivement $n$ individus dans la population globale. 

Chacun de ces $n$ individus a la probabilité $f$ de posséder le
caractère étudié. 

Si l'effectif de cette population est assez important, 
ces tirages successifs peuvent être considérés comme étant avec remise 
et donc indépendants entre eux. 
La constitution d'un tel échantillon de taille $n$ correspond donc à
un schéma de Bernoulli. 

Si on note alors $X$ la variable aléatoire égale au nombre d'individus dans
l'échantillon qui ont le caractère étudié, alors $X$ suit une loi 
binomiale $\mathcal{B}(n;f)$ de paramètres $n$ et $f$. 

C'est justement la connaissance et l'utilisation de cette loi
binomiale, et de son approximation par une loi normale, qui permet de
donner un intervalle dans lequel on peut s'attendre à trouver la
fréquence $f$ connaissant celle, $f'$, dans l'échantillon. 


\subsection{Intervalle de confiance}

\bgprop{
  On considère la variable aléatoire $X$ qui à tout échantillon de
  taille~$n$ associe le nombre d'individus possédant le caractère
  étudié. 
  On suppose que $X$ suit une loi binomiale $\mathcal{B}(n,f)$, 
  et on note $f'=\dfrac{X}{n}$ la fréquence du caractère dans
  l'échantillon. 

  Alors, pour $n$ assez grand, 
  l'intervalle 
  \[
  I_n=\lb f'-\dfrac{1}{\sqrt{n}}\,;\,f'+\dfrac{1}{\sqrt{n}}\rb\,.
  \]
  contient la fréquence $f$ du caractère dans la population avec une
  probabilité supérieure ou égale à 0,95. 

  L'intervalle $I_n$ s'appelle l'intervalle au niveau de confiance de
  95\,\%. 
  %(ou encore au risque d'erreur de 5\%).
}

%\bgprop{
%  Soit  $X$ une variable aléatoire suivant la loi binomiale
%  $\mathcal{B}(n;p)$, \mbox{$p\in]0;1[$}.
%}

%\vspd
\bgproof{
  La fréquence $f'$ du caractère dans l'échantillon est une valeur
  prise par la variable aléatoire $\dfrac{X}{n}$. 
  Elle est ou n'est pas dans l'intervalle 
  $\lb f-\dfrac{1}{\sqrt{n}}\,;\,f+\dfrac{1}{\sqrt{n}}\rb$, 
  mais on sait que 95\,\% des fréquences des échantillons sont dans cet
  intervalle. 

  \vsp
  De plus, \vspace{-0.6cm}
  \[\bgar{ll}
  f\in \lb f'-\dfrac{1}{\sqrt{n}}\,;\,f'+\dfrac{1}{\sqrt{n}}\rb
  &\iff 
  f'-\dfrac{1}{\sqrt{n}}\leqslant f \leqslant f'+\dfrac{1}{\sqrt{n}}\\ 
  &\iff
  \la\bgar{ll}
  f'\geqslant f-\dfrac{1}{\sqrt{n}} \\
  f'\leqslant f+\dfrac{1}{\sqrt{n}}
  \enar\right.%\\[0.4cm]
  \iff
  \la\bgar{ll}
  f'+\dfrac{1}{\sqrt{n}}\geqslant f \\
  f'-\dfrac{1}{\sqrt{n}}\leqslant f
  \enar\right.\\[0.3cm]
  \enar  \]

  \vspd
  Et on a donc, \ \ 
  %\[m\in I_n 
  %\iff 
  %x-\dfrac{1}{\sqrt{n}}\leqslant m\leqslant x+\dfrac{1}{\sqrt{n}}
  %\]
  $
  f'\in \lb f-\dfrac{1}{\sqrt{n}}\,;\,f+\dfrac{1}{\sqrt{n}}\rb
  \iff
  f\in \lb f'-\dfrac{1}{\sqrt{n}}\,;\,f'+\dfrac{1}{\sqrt{n}}\rb
  $.

  Ainsi, $f$ sera dans 95\,\% des intervalles du type 
  $I_n=\lb f'-\dfrac{1}{\sqrt{n}}\,;\, f'+\dfrac{1}{\sqrt{n}}\rb$. 
}

\vspq\noindent
\ul{Exemple:} Dans un village, lors d'un sondage effectué un mois avant
le scrutin auprès de 200 personnes choisies de façon aléatoire, 
109 personnes se déclarent favorables au candidat A. 


La proportion d'électeurs favorables dans l'échantillon sondé est:
$p'=\dots$%\dfrac{109}{200}=54,5\,\%\,.$$  

\vspt\noindent
L'intervalle de confiance au niveau de 95\,\% de la proportion $p$
d'électeurs qui vont voter pour le candidat A est: 
\vspd
\[
I=\hspace{10cm}
\]
\vspq

%\[\bgar{ll}
%\lb p'-\dfrac{1}{\sqrt{n}}\,;\, 
%p'+\dfrac{1}{\sqrt{n}}\rb
%&=
%\lb 0,545-\dfrac{1}{\sqrt{200}}\,;\,0,545+\dfrac{1}{\sqrt{200}}\rb\\[0.6cm]
%&\simeq
%\lb0,474\,;\,0,612\rb\\[0.3cm]
%&=
%\lb 47,4\,\%\,;\,61,2\,\%\rb
%\enar\]

On peut donc estimer, avec un niveau de confiance de 95\,\%, à partir du
sondage effectué sur 200 personnes, 
que le score du candidat A aux prochaines élections sera dans la 
fourchette $\Bigl[ \hspace{1cm};\hspace{1cm}\Bigr]$ %$\lb 47,4\,\%\,;\,61,2\,\%\rb$. 

\vspd
En particulier, à partir de ce sondage, le candidat A ne peut pas en
conclure qu'il sera élu car, au niveau de confiance de 95\,\%, 
il n'est pas exclu que la proportion de ses électeurs soit dans
l'intervalle  $[ 47,4\,\%\,;\,50\,\%[$, et donc inférieure à 50\,\%.



\bgex
Avant le premier tour de l'élection présidentielle de 2002 un sondage
IPSOS, réalisé 
auprès de 989 personnes constituant un échantillon national
représentatif de la population française inscrite sur les listes
électorales, annonçait les intentions de vote suivantes: 

20\,\% pour J. Chirac, 18\,\% pour L. Jospin et 14\,\% pour J.M. Le
Pen. 

Les médias se préparaient donc pour un second tour entre J. Chirac et
L. Jospin. 

Le résultat réel des votes à ce premier tour a alors surpris bien des
personnes \dots 

\bgen\setlength{\itemindent}{-1em}

\item Déterminer, pour chaque candidat, l'intervalle de confiance au
  niveau de confiance de 0,95 de la proportion d'électeurs ayant eu
  l'intention de voter pour lui. 

\item Les résultats à l'issue du premier tour ont été les suivants: 

  19,88\,\% pour J. Chirac, 16,18\,\% pour L. Jospin et 16,86\,\% pour J.M. Le
  Pen. 

  Ces pourcentages sont-ils en accord avec les calculs précédents ? 

\item Pouvait-on au vu de ce sondage écarter avec un niveau de
  confiance de 0,95 l'un de ces trois~candidats ?
\enen
\enex


\vspd
\subsection{Dimensionnement des échantillons}
\vspd

Le paragraphe précédent donne un intervalle au niveau de confiance de 95\,\%. 
Dans l'exemple précédent, cet intervalle se trouve être au final trop
"large" pour pouvoir en tirer une conclusion. 

En sondant un échantillon nettement plus important 
(plus de 200 personnes), cet intervalle aurait pu être restreint. 

Quand on cherche la taille de l'échantillon à sonder, deux éléments
sont en concurrence: 
\bgit
\item si la taille de l'échantillon est trop faible, la fourchette
  obtenue est large, et l'information peut donc manquer de pertinence; 

\item on souhaite ne pas avoir à sonder des échantillons de taille
  trop importante, afin de diminuer le coût de l'étude. 
\enit

On cherche donc la taille minimale de l'échantillon à étudier pour
pouvoir aboutir à une conclusion. 

\vspd\noindent
\ul{Exemple:} 
On reprend les données de l'exemple précédent. 
L'intervalle de confiance au seuil de 95\,\%~est: 
\[
\lb p'-\dfrac{1}{\sqrt{n}}\,;\, 
p'+\dfrac{1}{\sqrt{n}}\rb
=
\lb 0,545-\dfrac{1}{\sqrt{n}}\,;\,0,545+\dfrac{1}{\sqrt{n}}\rb\\[0.6cm]
\]
On souhaite, avec un niveau de confiance de 95\,\%, réduire cette
fourchette à un intervalle ne contenant pas 50\,\%. 

\noindent
Il faut pour cela que : 
$\bgar[t]{ll}
0,545-\dfrac{1}{\sqrt{n}}\geqslant 0,5
&\iff 
0,545-0,5=0,045\geqslant \dfrac{1}{\sqrt{n}}\\
&\iff
\dfrac{1}{0,045}\leqslant \sqrt{n}
\iff
\lp\dfrac{1}{0,045}\rp^2\leqslant n
\iff n\geqslant 494
\enar$\\[.6em]
Il faudrait donc choisir un échantillon aléatoire constitué d'au moins
494 personnes. 



\bgex
Un laboratoire pharmaceutique met en place un test pour estimer
l'efficacité d'un nouveau médicament contre les migraines. 

Deux groupes de 125 patients souffrant de migraines, considérés comme
des échantillons aléatoires, participent à ce test. 

On administre aux patients du groupe A le nouveau médicament, tandis
que les patients du groupe B reçoivent un placebo. 

Au bout de 4 jours de traitement, 73 patients du groupe A et 64
patients du groupe B déclarent ressentir une diminution de l'intensité
de leurs migraines. 

\bgen[a)] 
\item Déterminer les intervalles de confiance au niveau de confiance
  de 0,95 des proportions de patients déclarant ressentir une
  diminution de l'intensité de leurs migraines, dans chaque
  échantillon. 

\item Les intervalles de confiance permettent-ils, au niveau de
  confiance 0,95, de considérer que le médicament est plus efficace
  que le placebo ? 

\item Quelle devrait-être la taille minimale de chaque échantillon
  pour que, avec des proportions indentiques à celles observées
  précédemment, les résultats confirment l'efficacité du médicament,
  au niveau de confiance 0,95.
\enen
\enex

\bgex
Un magasin s'apprête à commercialiser deux modèles d'un même produit:
le modèle A et le modèle B. 

Une enquête préalable à la commande des produits par le magasin a
montré que dans une ville 63\,\% des 400 personnes interrogées
préfèrent le modèle A, et que dans une seconde ville, 69\,\% des 500
personnes interrogées préfèrent le modèle A. 

\vsp
Peut-on considérer, au niveau de confiance de 95\,\% qu'il y a
une différence de préférence entre les personnes des deux villes ? 

\vsp
Quelle proportion de modèle A commanderiez-vous ? 
\enex

\bgex
Dans une expérience de perception extra-sensorielle on demande à un
sujet d'indiquer la couleur d'un jeton tiré aléatoirement dans un sac
par un expérimentateur placé dans une autre pièce. 
Ni le sujet, ni l'expérimentateur ne connaissent la proportion de
jetons de chaque couleur dans le sac. 

On choisit la règle de décision suivante: si le pourcentage de
couleurs devinées correctement appartient à l'intervalle de
fluctuation autour de 50\,\% à un certain seuil fixé à l'avance, on
considère que le sujet n'a pas de don de perception extra-sensorielle,
sinon on considère qu'il a un don. 

\vsp
Un sujet fait le test, et identifie correctement la couleur de 32
jetons sur 50 essais. 

Appliquer la règle de décision aux seuils de 95\,\%, puis de 99\,\%.
\enex


\end{document}

Haut de la page Haut de la page