Source Latex: en BTS


Fichier
Type: cours
File type: Latex, tex (source)
Télécharger le document pdf compilé pdficon
Description
Cours de statistique à une et deux variables.
Statistiques descriptive à une variable: moyenne et écart-type, et médiane et quantiles.
Statistiques à deux variables: ajustement affine ou régression linéraire par la méthode des moindres carrés.
Niveau
BTS
Table des matières
  • Série statistique à une variable
    • Un peu de vocabulire…
    • Description d'une série par la moyenne et l'écart type
    • Description par la médiane et les quantiles
    • Diagramme en boîte
  • Série statistique à deux variables
    • Représentation graphique - Nuage de points
    • Ajustement affine par la méthode des moindres carrés
    • Coefficient de corrélation
    • Corréler n'est pas expliquer
Mots clé
statistisques à une variable, écart-type, médiane, quantiles, boîtes à moustaches, statistiques à deux variables, ajustement affine, régression linéaire, méthode des moindres carrés
Voir aussi:

Documentation sur LaTeX
lien vers la documentation Latex
Source LaTex icone

Source Latex

\documentclass[12pt]{article}
\usepackage{amsfonts}\usepackage{amssymb}
\usepackage[french]{babel}
\usepackage{amsmath}
\usepackage[utf8]{inputenc}
\usepackage{calc}
\usepackage{enumerate}
\usepackage{pst-all}
\usepackage{multicol}
\usepackage{hyperref}
\hypersetup{
    pdfauthor={Yoann Morel},
    pdfsubject={Statistiques descriptives},
    pdftitle={Statistiques descriptives},
    pdfkeywords={Mathématiques, BTS, cours, Statistiques descriptives,
      statistiques, régression linéaire, corrélation}
}
\hypersetup{
    colorlinks = true,
    linkcolor = red,
    anchorcolor = red,
    citecolor = blue,
    filecolor = red,
    pagecolor = red,
    urlcolor = red
}
\voffset=-1.cm
% Raccourcis diverses:
\newcommand{\nwc}{\newcommand}
\nwc{\dsp}{\displaystyle}
\nwc{\ct}{\centerline}
\nwc{\bge}{\begin{equation}}\nwc{\ene}{\end{equation}}
\nwc{\bgar}{\begin{array}}\nwc{\enar}{\end{array}}
\nwc{\bgit}{\begin{itemize}}\nwc{\enit}{\end{itemize}}
\nwc{\bgen}{\begin{enumerate}}\nwc{\enen}{\end{enumerate}}

\nwc{\la}{\left\{}\nwc{\ra}{\right\}}
\nwc{\lp}{\left(}\nwc{\rp}{\right)}
\nwc{\lb}{\left[}\nwc{\rb}{\right]}

\nwc{\bgsk}{\bigskip}
\nwc{\vsp}{\vspace{0.1cm}}
\nwc{\vspd}{\vspace{0.2cm}}
\nwc{\vspt}{\vspace{0.3cm}}
\nwc{\vspq}{\vspace{0.4cm}}

\def\N{{\rm I\kern-.1567em N}}                              % Doppel-N
\def\D{{\rm I\kern-.1567em D}}                              % Doppel-N
\def\No{\N_0}                                               % Doppel-N unten 0
\def\R{{\rm I\kern-.1567em R}}                              % Doppel R
\def\C{{\rm C\kern-4.7pt                                    % Doppel C
\vrule height 7.7pt width 0.4pt depth -0.5pt \phantom {.}}}
\def\Q{\mathbb{Q}}
\def\Z{{\sf Z\kern-4.5pt Z}}                                % Doppel Z
\def\euro{\mbox{\raisebox{.25ex}{{\it=}}\hspace{-.5em}{\sf C}}}

\renewcommand{\Re}{\mathcal{R}e}
\renewcommand{\Im}{\mathcal{I}\!m}

\def\epsi{\varepsilon}
\def\lbd{\lambda}
\def\tht{\theta}

\def\Cf{\mathcal{C}_f}

\nwc{\tm}{\times}
\nwc{\V}[1]{\overrightarrow{#1}}

\nwc{\zb}{\mbox{$0\hspace{-0.67em}\mid$}}
\nwc{\db}{\mbox{$\hspace{0.1em}|\hspace{-0.67em}\mid$}}

\nwc{\ul}[1]{\underline{#1}}

\newcounter{nex}%[section]
\setcounter{nex}{0}
\newenvironment{EX}{%
\stepcounter{nex}
\vsp{\noindent {\bf Exercice }\arabic{nex}}\hspace{0.2cm}
}{}

\nwc{\bgex}{\begin{EX}}\nwc{\enex}{\end{EX}}

\nwc{\bgfg}{\begin{figure}}\nwc{\enfg}{\end{figure}}
  \nwc{\epsx}{\epsfxsize}\nwc{\epsy}{\epsfysize}
\nwc{\bgmp}{\begin{minipage}}\nwc{\enmp}{\end{minipage}}


\nwc{\limcdt}[4]{
  $\dsp
  \lim_{\bgar{ll}\scriptstyle{#1}\vspace{-0.2cm}\\\scriptstyle{#2}\enar}
  {#3}={#4}$
}
\nwc{\tq}{\ \mbox{\bf\Large /}\ }



\headheight=0cm
\textheight=26.5cm
\topmargin=-1.8cm
\footskip=.65cm
\textwidth=18cm
\oddsidemargin=-1.5cm
\parindent=0.2cm

\newlength{\ProgIndent}
\setlength{\ProgIndent}{0.3cm}

\setlength{\unitlength}{1cm}

\newcounter{ntheo}
\setcounter{ntheo}{1}
\newlength{\ltheo}
\nwc{\bgth}[1]{
  \settowidth{\ltheo}{Théorème \arabic{ntheo}}
  \noindent
  \paragraph{Théorème}% \arabic{ntheo}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\ltheo-0.5em}{\it #1}\enmp
  \stepcounter{ntheo}
}

\newcounter{nprop}
\setcounter{nprop}{1}
\newlength{\lprop}
\nwc{\bgprop}[1]{
  \settowidth{\lprop}{Propriété \arabic{nprop}}
  \noindent
  \paragraph{Propriété}% \arabic{ntheo}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\lprop-0.5em}{\it #1}\enmp
  \stepcounter{nprop}
}

\nwc{\bgcorol}[1]{
  \settowidth{\ltheo}{Corollaire \arabic{ntheo}}
  \noindent
  \paragraph{Corollaire}% \arabic{ntheo}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\ltheo-0.5em}{\it #1}\enmp
}

\newcounter{ndef}
\setcounter{ndef}{1}
\newlength{\ldef}
\nwc{\bgdef}[1]{
  \settowidth{\ldef}{Définition \arabic{ndef}}
  \noindent
  \paragraph{Définition}% \arabic{ndef}}
  \hspace{-0.5em}%\hspace{-0.4cm}
  \bgmp[t]{\textwidth-\ldef-0.5em}{\it #1}\enmp
  \stepcounter{ntheo}\bgsk
}

\nwc{\bgproof}[1]{
  \vspq\noindent
  \ul{Démonstration:} #1 
  \hfill$\square$
}

% "Cadre" type Objectifs....
\nwc{\ObjTitle}{Objectifs\!\!:\ \ }
\newlength{\lgObjTitle}
\newlength{\hgObj}
\newlength{\hgObjTitle}\settoheight{\hgObjTitle}{\ObjTitle}
\newcommand{\Obj}[1]{%
  \begin{flushright}%
  \settowidth{\lgObjTitle}{\ObjTitle}
  \settototalheight{\hgObj}{\phantom{\bgmp{16.4cm}{\bf\emph{\ObjTitle}}#1\enmp}}
  \bgmp{17.1cm}
  \psline(-1ex,-\hgObj)(-1ex,-1.5\hgObjTitle)(\lgObjTitle,-1.5\hgObjTitle)\par
    \bgmp{17.cm}{\bf\emph{\ObjTitle}}#1\enmp
  \enmp
  \end{flushright}
}

\renewcommand\thesection{\Roman{section}\ \ -}
\renewcommand\thesubsection{\arabic{subsection})}
\renewcommand\thesubsubsection{\hspace*{0.5cm}\alph{subsubsection})\hspace*{-0.4cm}}

% Bandeau en bas de page
\newcommand{\TITLE}{Statistiques descriptives}
\author{Y. Morel}
\date{}

\usepackage{fancyhdr}

\pagestyle{fancyplain}
\setlength{\headheight}{0cm}
\renewcommand{\headrulewidth}{0pt}
\renewcommand{\footrulewidth}{0.5pt}
\lhead{}\chead{}\rhead{}

\lfoot{Y. Morel - \url{https://xymaths.fr/BTS/}}
\rfoot{\TITLE\ - \thepage/\pageref{LastPage}}
\cfoot{}%\TITLE}

\pagestyle{fancy}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{document}
\thispagestyle{fancy}


\ct{\LARGE{\bf{\TITLE}}}

\vspace{-0.2cm}
\Obj{Décrire efficacement d'importants jeux de données. \\
Rechercher l'existence d'une relation (corrélation) 
affine entre deux variables.\\
Interpoler et extrapoler des données.} 


\section{Série statistique à une variable}

\vspace{-0.2cm}
\subsection{Un peu de vocabulaire\dots}

\vspace{-0.2cm}

Un {\bf caractère}, ou {\bf variable}, est une propriété commune aux 
{\bf individus} d'une {\bf population}. 

Un {\bf échantillon} est une partie de la population complète. 

L'{\bf effectif} d'une population ou d'un échantillon est le nombre
d'individus qui la compose. 

Un caractère peut-être {\bf quantitatif}, s'il peut s'exprimer par un 
nombre, ou {\bf qualitatif} (couleur des yeux, nationalité,\dots) 
dans le cas contraire.

On peut de plus distinguer les caractères quantitatifs {\bf discrets},
qui ne prennent que des valeurs numériques isolées 
(ex. nombre d'élèves par classes), 
des caractères quantitatifs {\bf continus}, lorsque toutes les valeurs
peuvent être prises dans un intervalle (ex. taille des élèves, durée
de vie d'un composant). 

\vspace{-0.4cm}

\subsection{Description par la moyenne et l'écart-type}
\vspace{-0.6cm}


\bgdef{
  On considère $N$ valeurs d'un caractère $x_1$, $x_2$,\dots,$x_N$. 
  La moyenne, notée $\overline{x}$, est: 
  \vspace{-0.3cm}

  \[
  \overline{x}=\dfrac{x_1+x_2+\dots+x_N}{N}
  =\dfrac{1}{N}\sum_{i=1}^N x_i
  \]

  Si la valeurs $x_1$ est prise $n_1$ fois par le caractère, 
  la valeur $x_2$ prise $n_2$ fois, \dots, 
  alors 

  \vspace{-0.2cm}

  \[
  \overline{x}=\dfrac{n_1x_1+n_2x_2+\dots+n_Nx_N}{N}
  =\dfrac{1}{N}\sum_{i=1}^n n_i x_i
  \quad\text{avec}\quad
  N=\sum_{i=1}^n n_i
  \]

  \vspace{-0.3cm}

  On parle alors de moyenne {\bf pondérée}.
}



La moyenne d'une série permet de situer le niveau global
de celle-ci: c'est une {\bf caractéristique de position}, 
mais ne donne pas d'information sur la répartion, 
ou {\bf dispersion}, des valeurs autour de cette position centrale. 

Par exemple les séries statistiques: 
10, 10, 10, 10, 10, 10, 10 et 
2, 2, 2, 10, 18, 18 18 ont le même effectif et la même moyenne, 
alors qu'elles sont nettement différentes. 


\bgdef{
  La {\bf variance d'une série} est la moyenne des carrés des écarts à
  la moyenne: 

  \vspace{-0.3cm}

  \[
  V
  =\dfrac{n_1\lp x_1-\overline{x}\rp^2+n_2\lp x_2-\overline{x}\rp^2+\dots
  n_N\lp x_N-\overline{x}\rp^2}{N}
  \dsp=\dfrac{1}{N}\sum_{i=1}^N n_i\lp x_i-\overline{x}\rp^2
  \]

  \vspace{-0.3cm}
  L'{\bf écart type} $\sigma$ de la série est la racine carrée de la
  variance: $\sigma=\sqrt{V}$. 
}

\vspace{-0.5cm}
\bgprop{
  La variance est égale à la moyenne des carrés moins le carré de la
  moyenne: 
  $
  V=\overline{x^2}-\overline{x}^2
  $
}


\subsection{Description par la médiane et les quantiles}
\vspace{-0.4cm}


\bgdef{
  La médiane $M_e$ d'une série statistique {\bf ordonnée} est une
  valeur qui partage la population en deux groupes de même effectif. 

  \vspd
  Si l'effectif total de la série est impair: $N=2p+1$, 
  la médiane est la $(p+1)^{\text{ème}}$ valeur. 

  Si l'effectif est pair: $N=2p$, on prend en général pour médiane la
  moyenne de la $p^{\text{ème}}$ et de la $(p+1)^{\text{ème}}$ valeur. 

  \vspd
  Le {\bf mode} d'une série statistique est la valeur du
  caractère la plus fréquente. 
}

\vspd
\bgex
1) Dans une petite société, le patron gagne chaque mois 10\,000
  euros et ses 9 employés gagnent eux 1500 euros. 
  Quel est le salaire moyen dans l'entreprise ? Le salaire médian ?

\vsp
2) Rechercher les montants des salaires moyen et médian en France.  
  Commenter.
\enex

\vspt
De même que pour la moyenne, 
la médiane est une {\bf caractéristique de position} et ne rend pas
compte de la {\bf dispersion} des valeurs. 
Pour décrire une série statistique, on doit donc en plus caractériser
la dispersion des valeurs autour de cette position. 

\bgdef{
  L'{\bf étendue} d'une série est l'écart entre les valeurs extrêmes
  de la série. 

  Les {\bf quartiles} $Q_1$, $Q_2$ et $Q_3$ d'une série sont trois valeurs
  de la série ordonnée  qui la partagent en quatre séries de même
  effectif (25\% de l'effectif total). 

  Le deuxième quartile est la médiane: $Q_2=M_e$. 

  \vsp
  L'écart inter-quartile est le nombre $Q_3-Q_1$. 

  \vspd
  On définit de la même façon les {\bf déciles} $D_1$, $D_2$,\dots,$D_9$
  d'une série, en partageant la série en dix séries de même effectif
  (10\% de l'effectif total). 

  \vsp
  L'écart inter-décile est le nombre $D_9-D_1$. 
}

\noindent
\ul{Remarque:} Dans le cas d'une série statistique continue, 
on regroupe les valeurs en classes (ou intervalles). 
Les indicateurs statistiques sont alors calculés en
utilisant le centre des classes. 

\vspd\noindent
\bgex Soit la série statistique: 
  \begin{tabular}{|*7{c|}}\hline
    Notes $x_i$ & 6 & 8 & 10 & 12 & 15 & 18 \\\hline
    Nombre d'élèves $n_i$ & 1 & 5 & 3 & 4 & 2 & 2 \\\hline
  \end{tabular}

\bgmp{9cm}
La moyenne de cette série est $\overline{x}=\ \dots$%11,18$. 

\vspd
La variance est: $V=\ \dots$ 

\vspd
et l'écart-type: $\sigma=\ \dots$

\enmp
\psline(0,1.2)(0,-1.2)\quad
\bgmp{8cm}
\vspd
L'effectif total est $N=\ \dots$. 

La médiane est donc la \ $\dots^{\text{ème}}$
valeur de la série ordonnée, soit $M_e=\ \dots$%10$

\vspd
Son mode est $8$. 
\enmp
\enex


\vspace{-0.4cm}
\subsection{Diagramme en boîte}

La représentation d'une série à l'aide d'un diagramme en boîte 
(ou diagramme à pattes, ou boîte à moustaches, ou Whiskers plots) 
repose sur la description de la série par ses quantiles. 

Cette représentation a été introduite en 1977 par 
John Tukey\footnote{
  John Wilder Tukey (16 juin 1915 - 26 juillet 2000) est un
  important statisticien américains. 
  Il a créé et développé de nombreuses méthodes statistiques. 
  Il est notamment connu pour son développement en 1965, avec James
  Cooley, de l'algorithme de la transformée de Fourier rapide 
  ({\it fft}).
}.

%\clearpage

\psset{xunit=1.3cm,yunit=0.8cm,arrowsize=7pt}
\begin{pspicture}(-1,-0.8)(10,6)
  \psline[arrowsize=6pt]{->}(0,0)(11,0)
  \multido{\i=1+1}{10}{\psline(\i,-0.1)(\i,0.1)}
  \psline(0.5,2)(3.9,2)
  % quartiles
  \psline(3.9,1)(7.3,1)(7.3,3)(3.9,3)(3.9,1)
  \psline{->}(3.5,4.5)(3.9,3.2)
  \rput(3.5,4.7){$1^{\text{er}}$ quartile}
  \psline{->}(7.5,4.5)(7.3,3.2)
  \rput(7.8,4.7){$3^{\text{ème}}$ quartile}
  %
  \psline(7.3,2)(10.2,2)
  % mediane
  \psline(5.9,0.6)(5.9,3.4)
  \psline{->}(5.9,5)(5.9,3.5)
  \rput(5.9,5.2){médiane}
  % deciles
  \psline(2,1.7)(2,2.3)
  \psline{->}(2,3.5)(2,2.5)
  \rput(2,3.7){$1^{\text{er}}$ décile}
  \psline(8.8,1.7)(8.8,2.3)
  \psline{->}(8.8,3.5)(8.8,2.5)
  \rput(8.8,3.7){$9^{\text{ème}}$ décile}
  % min
  \pscircle(0.5,2){0.1}
  \psline{->}(0.,4)(0.5,2.2)
  \rput(0,4.2){minimum}
  % max
  \pscircle(10.2,2){0.1}
  \psline{->}(10.5,4)(10.2,2.2)
  \rput(10.5,4.2){maximum}
\end{pspicture}


\bgex
Soit la série statistique: 
\begin{tabular}[c]{|*8{c|}}\hline
  Longueur $x_i$ (mm) & 4.7 & 4.8 & 4.9 & 5.0 & 5.1 & 5.2 & 5.3 \\\hline
  Effectifs $n_i$ & 1 & 4 & 23 & 30 & 27 & 9 & 6 \\\hline
\end{tabular}

  \vspd
\bgen
\item Calculer la moyenne et l'écart-type de cette série. 
\item Déterminer la médiane, l'étendue,
  et les écarts inter-quartiles et inter-deciles de cette série. 

  Représenter alors le diagramme en boîte de cette série. 
\enen
\enex

\bgmp{12cm}
\bgex
On mesure, en millimètres, le diamètre de 100 pièces prises au hasard
dans la production d'une machine. 
On obtient les résultats ci-contre. 

\vspd
Soit $\sigma$ l'écart type de cette série statistique. 
Un réglage de la machine est nécessaire lorsque \mbox{$\sigma>0,013$}. 
Faut-il régler la machine ?

\enex

\enmp\quad
\bgmp{6cm}
\begin{tabular}[t]{|c|c|}\hline
  Diamètre $x_i$ (mm) & Effectifs $n_i$ \\\hline
  80,36 & 8 \\
  80,37 & 19 \\
  80,38 & 55 \\
  80,39 & 36 \\
  80,40 & 10 \\
  80,41 & 11 \\
  80,42 & 5 \\\hline
\end{tabular}
\enmp


\section{Série statistique à deux variables - Ajustement affine}


On s'intéresse à l'étude, sur une population donnée, du lien qui peut
exister entre deux caractères. 
\[\renewcommand{\arraystretch}{1.4}
\begin{tabular}{|l|*5{c|}}\hline
Valeurs du $1^{\text{er}}$ caractère $x_i$ 
& $x_1$ & $x_2$ & $x_3$ & \dots & $x_k$ \\\hline
Valeurs du $2^{\text{ème}}$ caractère $y_i$ 
& $y_1$ & $y_2$ & $y_3$ & \dots & $y_k$ \\\hline
\end{tabular}\]


\vspd\noindent
\ul{Exemple:} L'étude du coût de maintenance annuel d'une installation
de chauffage dans un immeuble de bureaux, en fonction de l'âge de
l'installation, a donné les résultats suivants: 
\[\renewcommand{\arraystretch}{1.4}
\begin{tabular}{|l|*6{c|}}\hline
Age $x_i$ (années)
& 1 & 2 & 3 & 4 & 5 & 6 \\\hline
Coût $y_i$ (k\euro)
& 7,55 & 9,24 & 10,74 & 12,84 & 15,66 & 18,45\\\hline
\end{tabular}\]

\Obj{
Y'a-t-il un lien \ul{crédible} entre l'âge de l'installation et le coût de
maintenance ? 
Si oui, peut-on le quantifier, et peut-on, par exemple, prévoir le
coût de maintenance d'une installation de 7 ans ? 8 ans ? 10 ans ?
}

\subsection{Représentation graphique - Nuage de points}

\bgmp{6.6cm}
On appelle {\bf nuage de points}, l'ensemble des points $A_i$ de coordonnées 
$(x_i;y_i)$. 
\enmp
\bgmp{7cm}
\psset{xunit=1cm,yunit=0.3cm,arrowsize=7pt}
\begin{pspicture}(-2,-2.)(10,22)
  \psline{->}(-0.2,0)(8,0)
  \psline{->}(0,-0.5)(0,21.5)
  \multido{\i=0+1}{8}{\psline(\i,-0.3)(\i,0.3)\rput(\i,-1){$\i$}}
  \multido{\i=0+2}{11}{\psline(-0.1,\i)(0.1,\i)\rput(-0.3,\i){$\i$}}
  \rput(1,7.55){$\tm$}
  \rput(2,9.24){$\tm$}
  \rput(3,10.74){$\tm$}
  \rput(4,12.84){$\tm$}
  \rput(5,15.66){$\tm$}
  \rput(6,18.45){$\tm$}
  %
  \rput(9.2,0){Caractère 1}
  \rput(9,-1.6){\sl (Age de l'installation)}
  \rput(0,22.2){Caractère 2}
  \rput[l](0.2,20){\sl (Coût de}
  \rput[l](0.2,19.){\sl maintenance)}
\end{pspicture}
\enmp

\bgdef{
  Le {\bf point moyen} du nuage de points est le point de coordonnées 
  $(\overline{x};\overline{y})$. 
}

\noindent
\ul{Exemple:} Dans l'exemple précédent, le point moyen $G$ a pour
coordonnées $(3,5\,;\,12,41)$. 

\subsection{Ajustement affine par la méthode des moindres carrés}

Les points de l'exemple précédents ne sont pas alignés. 
Néanmoins, ces points semblent se distribuer approximativement autour
d'une droite. 

La méthode des moindres carrés permet de déterminer l'équation de la 
"meilleure" droite passant dans le nuage de points, 
ainsi que de quantifier la "qualité de l'alignement des points" du
nuage. 

\medskip
\noindent
\bgmp{10cm}
On considère un nuage de points 
$A_k(x_k;y_k)$. 

Pour une droite quelconque, on peut définir la "distance" de la droite
au nuage de points par la somme des distances 
$A_kH_k$. 

\medskip
Ainsi, la "meilleure" droite passant dans le nuage de points est celle
dont la distance au nuage de points est la plus petite. 
\enmp
\bgmp{8cm}
\psset{xunit=1.1cm,yunit=1.4cm,arrowsize=7pt}
\begin{pspicture}(-1,-0.2)(7.6,5.5)
  \psline{->}(-0.2,0)(7,0)
  \psline{->}(0,-0.5)(0,5.2)
  %
  \rput(1,2.){$\tm$}\rput(1,2.3){$A_1$}
  \rput(1,1.2){$H_1$}\psline[linestyle=dashed](1,2)(1,1.5)
  %
  \rput(2,1){$\tm$}\rput(2,0.7){$A_2$}
  \rput(2,2.3){$H_2$}\psline[linestyle=dashed](2,1)(2,2)
  %
  \rput(3,3.2){$\tm$}\rput(3,3.5){$A_3$}
  \rput(3,2.2){$H_3$}\psline[linestyle=dashed](3,3.2)(3,2.5)
  %
  \rput(4,4){$\tm$}\rput(4,2.7){$H_4$}
  \rput(4,4.3){$A_4$}\psline[linestyle=dashed](4,4)(4,3)
  %
  \rput(5,2.5){$\tm$}\rput(5,2.2){$A_5$}
  \rput(5,3.8){$H_5$}\psline[linestyle=dashed](5,2.5)(5,3.5)
  %
  \psplot{-1}{7}{x 0.5 mul 1 add}
\end{pspicture}
\enmp

\bgprop{
  Il existe une unique droite telle que la somme 
  des distances 
  \vspace{-0.3cm}

  \[
  d=A_1H_1^2+A_2H_2^2+\dots+A_nH_n^2=\sum_{k=1}^n A_kH_k^2
  \]

  \vspace{-0.2cm}
  soit minimale. 
  Cette droite est appelée {\bf droite de régression de $y$ en $x$}, 
  ou encore {\bf droite des moindres carrés}.

  \vspd
  Cette droite de régression passe par le point moyen
  $G(\overline{x};\overline{y})$. 
}

\vspq\noindent
La calculatrice, ou un tableur, permet de calculer l'équation de la
droite de régression. 


\bgex 
La droite de régression de l'exemple précédent a pour
équation $y=2,17x+4,83$. 

Retrouver cette équation à l'aide de la calculatrice. 

Estimer à partir de ce modèle le coût de maintenance pour une
installation de 7 ans, de 8 ans, puis de 10 ans. 
\enex


\subsection{Coefficient de corrélation}

La droite de régression est la droite la plus proche de tous les
points du nuage. 
Néanmoins, l'idée d'approcher tous les points du nuage par une droite
peut-être plus ou moins pertinent. 

Le coefficient de corrélation est un nombre qui quantifie justement ce
degré de pertinence. 


\bgprop{
  \bgit
  \item[$\bullet$] Le coefficient de corrélation $r$ prend des valeurs
    entre $-1$ et $1$: $-1\leqslant r\leqslant 1$ 
  \item[$\bullet$] $r$ a le même signe que le coefficient directeur de la droite
    de régression. 
  \item[$\bullet$] La corrélation est d'autant meilleure que $|r|$ est proche de
    $1$ (si $r=1$ ou $r=-1$, les points sont alignés et la corrélation
    est parfaite). 
  \enit
}

\bigskip

\bgex {\bf Temps de chargement et fréquentation d'un site web} 

Le temps de chargement d'une page sur internet dépend 
de nombreux paramètres, entre autre le nombre d'utilisateurs 
qui y sont connectés simultanément. 

Par ailleurs, le temps de chargement influe en retour 
sur le nombre de visiteurs: plus le temps de chargement est long, 
plus les utilisateurs sont susceptibles de se diriger 
vers d'autres ressources. 

\medskip\noindent
Le responsable d'un site a relevé le nombre d'internautes sur son site 
en fonction de sa durée de chargement: 
\[\begin{tabular}{|l|*7{c|}}\hline
\bgmp{5.8cm}\ \\Nombre d'internautes connectés\\ (en millier), $x_i$ \enmp
& 0,5 & 1 & 2,5 & 3 & 4 & 5 & 6 \\\hline
\bgmp{4.4cm}\ \\Durée de chargement \\ (en secondes), $y_i$ \enmp
& 0,3 & 0,4 & 0,6 & 0,9 & 1,3 & 2 & 2,8 \\\hline
\end{tabular}\]

\bgen
\item Représenter le nuage de points de coordonnées 
  $\lp x_i;y_i\rp$ associés à cette série statistique. 
  (Axes orthogonaux; unités: 2\,cm pour 1000 internautes 
  et 1cm pour 0,2\,seconde). 
\item \`A l'aide de la calculatrice, déterminer l'équation 
  $y=ax+b$ de la droite d'ajustement $\mathcal{D}$ obtenue 
  par la méthode des moindres carrés 
  (Arrondir les coefficients au millième). 
\item Pour la suite, on prendra 
  $y=0,44x-0,19$ pour équation de la droite $\mathcal{D}$. 
  \bgen[a)]
  \item Tracer la droite $\mathcal{D}$. 
  \item Avec ce modèle, estimer la durée de chargement pour 8000 
    personnes connectées. 
  \item Une étude indépendante a montré que 60\% des internautes 
    cesse de charger une page pour se diriger vers un autre site dès que 
    le temps de chargement dépasse 3,5 secondes. 

    \medskip
    Avec le modèle précédent, estimer le nombre de visiteurs sur ce site 
    lorsque la durée de chargement est de 3,5 secondes. 

    Combien de visiteurs perdrait-il alors ?
  \enen
\enen
\enex


\subsection{Remarque fondamentale: Corréler n'est pas expliquer}

Une erreur (malheureusement) assez répandue consiste à confondre
corrélation avec causalité. 

Observer que deux variables sont corrélées entre elles ne signifie pas
que l'une soit la cause ou la conséquence de l'autre, 
c'est-à-dire qu'il y ait un lien de cause à effet. 

\vspd
Par exemple en France au 20ème siècle, le nombre de
mariages a augmenté ainsi que le nombre de suicides. 
Ces deux variables sont sûrement corrélées, ce qui ne montre en
aucun cas l'existence d'un lien de cause à effet d'un phénomène à
l'autre 
(en fait ces deux augmentations peuvent être directement reliées à
une variable commune, ici cachée: l'augmentation de la démographie). 


\bgex
Le tableau suivant donne les évolutions, de Mai à Septembre, 
du nombre de climatiseurs vendus et de noyade par accident dans un secteur 
littoral. 
\[\renewcommand{\arraystretch}{1.4}
\begin{tabular}{|*3{c|}}\hline
\bgmp{3cm}\ \\[.5em]\ct{Mois}\\[.3em]\enmp 
&
\bgmp{4.8cm}\ \\Nombre de climatiseurs \\ \ct{$x_i$}\enmp 
&
\bgmp{4.5cm}\ \\Nombre de noyades \\ \quad \ct{$y_i$}\enmp \\\hline
Mai & 66 & 1\\\hline
Juin & 88 & 3 \\\hline
Juillet & 90 & 5 \\\hline
Ao\^ut & 110 & 8 \\\hline
Septembre & 60 & 0 \\\hline
\end{tabular}\]
\bgen
\item Représenter graphique le nuage de points correspondant.

\item Un ajustement affine semble-t'il pertinent ? \\
  Donner l'équation de la droite d'ajustement par moindres carrés. 
\item Prévoir le nombre de noyades si en Avril de l'année d'après, 
  88 climatiseurs sont vendus ? 
\item Commenter la relation de causalité entre les variables étudiées. 
\enen
\enex


\clearpage
\bgex {\bf \'Equilibrer offre et demande}

Une étude statistique effectué sur un produit à permis de quantifier 
l'offre et la demande de ce produit, pour différentes valeurs 
de son prix unitaire. 
\[\renewcommand{\arraystretch}{1.6}
\begin{tabular}{|*3{c|}}\hline
\bgmp{4cm}\ \\Prix unitaire\\(en euros)\\ \ct{$x_i$}\\\enmp 
&
\bgmp{4cm}\ \\Demande\\(en milliers d'unités) \\ \ct{$y_i$}\\\enmp 
&
\bgmp{4cm}\ \\Offre\\(en milliers d'unités) \\ \ct{$z_i$}\\\enmp \\\hline
1,2 & 8,4 & 0,75\\\hline
2,5 & 6 & 1,25 \\\hline
3,5 & 5 & 1,75 \\\hline
4,5 & 4,2 & 2,25 \\\hline
5 & 3,5 & 2,5 \\\hline
7 & 2,1 & 3,5 \\\hline
8,5 & 1,2 & 4,25 \\\hline
\end{tabular}\]
\bgen
\item Représenter graphiquement, sur un m\^eme graphique, 
  les nuages de points des séries à deux variables: 
  \bgit
  \item la demande en fonction du prix unitaire 
    (série à deux variables $x$ et $y$)
  \item l'offre en fonction du prix unitaire 
    (série à deux variables $x$ et $z$)
  \enit
\item Tracer, "au jugé" une droite d'ajustement pour chacun des deux nuages. 
\item Estimer graphiquement, 
  \bgen[a)]
  \item la demande et l'offre pour un prix unitaire de 6 euros;
  \item le prix unitaire pour une demande de 8 milliers;
  \item le prix unitaire pour une offre de 1 millier.    
  \enen
\item Déterminer, à l'aide de la calulatrice, les deux équations des droites 
  d'ajustement par moindres carrés. 
  
  Tracer alors ces deux droites, 
  et préciser les estimations de la question précédente. 

\item Pour quel prix unitaire y a-t'il équilibre entre l'offre et la demande ? 
\enen
\enex


\bgex
Le tableau suivant donne le nombre de clients annuel, en millier,
d'une nouvelle chaîne de magasins. 

\vspace{-3em}

\[\renewcommand{\arraystretch}{1.4}
\hspace*{3cm}
\begin{tabular}{|c|*8{c|}}\hline
  Année & 2006 & 2007 & 2008 & 2009 & 2010 & 2011 & 2012 & 2013 \\\hline
  Rang de l'année & 0 & 1 & 2 & 3& 4& 5 & 6 & 7\\\hline
  Nombre de clients & 11,2 & 20,6&29,7&37,0&39,6&41,7&44,5&48,0
  \\\hline
\end{tabular}\]

\vsp\noindent
Représenter le nuage de points $(x_i;y_i)$ du nombre de
clients en fonction du rang de l'année. 

\vspace{-0.5cm}
\paragraph{Partie A.} {\bf Ajustement affine.}

\vspace{-0.2cm}
\bgen
\item Déterminer une équation de la droite d'ajustement obtenue par la
  méthode des moindres carrés. 

  \vspd
{\sl Pour la suite, on utilisera l'ajustement
  affine donné par la droite $D$ d'équation $y=4,9x+16,7$.} 

\item Tracer la droite $D$ sur le nuage de points précédent. 
\item Prévoir à l'aide de ce modèle le nombre de clients en 2015 et
  2016. 
\enen

\vspace{-0.6cm}
\paragraph{Partie B.} {\bf Ajustement par une fonction logistique. }

\noindent
Un autre ajustement est obtenu à l'aide de la
fonction $f$ définie par 
$f(x)=\dfrac{52}{1+3e^{-0,6x}}$.

\vspace{-0.3cm}
\bgen
\item Compléter le tableau de valeurs: 

\begin{tabular}{|c|*8{p{1.2cm}|}}\hline
  Rang de l'année $x$ & 0 & 1 & 2 & 3& 4& 5 & 6 & 7\\\hline
  \rule[-.4cm]{0.cm}{1.cm}$f(x)$ &  & 19,6 & 27,3 & & & & & 
  \\\hline
\end{tabular}
\item Tracer l'allure de la courbe $\mathcal{C}$ représentative de la
  fonction $f$ sur le nuage de points précédent. 
\item Donner à l'aide de ce modèle le nombre de clients estimé en 2015
  et 2016. 
\enen
\enex


\bgex {\bf Durée de vie et maintenance d'équipements.} 

Les pourcentages $R(t_i)$ des appareils mécaniques encore en service
après un nombre $t_i$ d'heures de fonctionnement ont été relevés et notés
dans le tableau suivant: 

\[\renewcommand{\arraystretch}{1.4}
\begin{tabular}{|c|*9{c|}}\hline
  $t_i$ & 100 & 200 & 300 & 400 & 500 & 600 & 750 & 1000 & 1500\\\hline 
  $R(t_i)$ & 0,80 & 0,64 & 0,52 & 0,40 & 0,32 & 0,28 & 0,20 & 0,12 & 0,04 \\\hline
\end{tabular}
\]

\bgen
\item On pose $y_i=\ln R(t_i)$. Représenter graphiquement le nuage de
  points $M_i$ de coordonnées $(t_i;y_i)$.  
\item Peut-on envisager un ajustement affine de ce nuage de points ? 
  
  Donner l'équation de la droite de régression de $y$ en $t$. 

  En déduire une expression de la forme $R(t)=ke^{-\lbd t}$, avec $k$
  et $\lbd$ des constantes.

\item Déterminer à l'aide du modèle précédent, le nombre d'équipements
  encore en service au bout de 900 heures de fonctionnement. 
\enen

\enex


\bgex %{\bf Droite de Mayer} 
Le tableau suivant donne la durée moyenne d'intervention, en minutes,
sur les postes de télévision en panne dans un atelier de dépannage, 
de 1992 à 2000.  
\[\renewcommand{\arraystretch}{1.4}
\begin{tabular}{|c|*9{c|}}\hline
  Rang $x_i$ & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9\\\hline 
  Année & 1992 & 1993 & 1994 & 1995 & 1996 & 1997 & 1998 & 1999 & 2000 \\\hline
  Durré moyenne $d_i$ & 83 & 82 & 80 & 75 & 73 & 74 & 71 & 71 & 70 \\\hline
\end{tabular}
\]

\vsp\noindent
{\bf Partie A. Ajustement à l'aide de la droite de régression} 

\bgen
\item Calculer le coefficient de corrélation linéaire entre $x$ et $d$ 
  (à $10^{-3}$ près). 

  Semble-t-il y avoir une dépendance affine entre l'année
  et la durée moyenne des interventions ? 

\item Donner la droite de
  régression des moindres carrés de $d$ en $x$ 
  (valeurs arrondies à $10^{-2}$ près). 

\item En supposant que l'évolution se poursuit ainsi pendant les 5
  années futures, estimer la durée moyenne d'intervention dans cet
  atelier en 2002. 
\enen

\vspd\noindent
{\bf Partie B. Ajustement à l'aide de la droite de Mayer}

La méthode de Mayer consiste à partager la série en 2. 
Soit $S_1$ la série correspondant aux années 1992-1996, 
et $S_2$ la série correspondant aux années 1997-2000. 

\bgen
\item Calculer les coordonnées du point moyen $G_1$ de la série
  $S_1$, et du point moyen $G_2$ de la série~$S_2$. 

\item Déterminer l'équation de la droite $(G_1G_2)$ appelée droite de
  Mayer. 

\item Estimer la durée moyenne d'intervention dans cet atelier en 2002
  avec la droite de Mayer et comparer avec la droite de régression. 
\enen
\enex


\bgex %{\bf Ajustement exponentiel}
Après un accident nucléaire, on procède à intervalles de temps
réguliers à des mesures de radioactivité sur un site donné. 
Le tableau suivant donne les résultats de ces mesures. 
\[\renewcommand{\arraystretch}{1.4}
\begin{tabular}{|c|*6{c|}}\hline
    Rang $x_i$ de la mesure & 1 & 2 & 3 & 4 & 5 & 6 \\\hline
    Valeur $y_i$ mesurée & 100 & 61 & 37 & 22 & 14 & 7 \\\hline
\end{tabular}
\]

\bgen
\item Tracer le nuage de points correspondant. 
  Utiliser une droite de régression linéaire semble-t'il pertinent 
  (justifier en donnant le coefficient de corrélation de cette 
  droite). 



\item Pour chaque mesure on pose $z_i=\ln y_i$ et on étudie alors la série
  statistique $(x_i;z_i)$. 

 Compléter le tableau: 
  \[\begin{tabular}{|c|*6{p{1.7cm}|}}\hline
  Rang $x_i$ de la mesure & 1 & 2 & 3 & 4 & 5 & 6 \\\hline
  \rule[-.6cm]{0.cm}{1.2cm}$z_i=\ln y_i$ &  &  &  &  &  & \\\hline
  \end{tabular}
  \]

\item Calculer le coefficient de corrélation de cette série à 0,001
  près. 
  Commenter le résultat. 

\item Donner une équation de la droite $D$ de régression de $z$ en $x$ 
  (arrondir les coefficients à 0,01~près). 

\item En déduire une relation entre $x$ et $y$ du type 
  $y=\alpha e^{\beta x}$, 
  où $\alpha$ et $\beta$ sont deux constantes à déterminer. 

\item En supposant que le modèle reste valable, en déduire pour la
  prochaine mesure ($x_i=7$) une estimation de $y$. 

\item En supposant toujours que le modèle reste valable, déteminer 
  à partir de quelle mesure la valeur $y$ mesurée sera inférieure à 
  $0,01$. 
\enen
\enex


\bgex %{\bf Ajustement carré}
Au cours d'une séance d'essai, un pilote automobile doit, quand il
reçoit un signal sonore dans son casque, arrêter le plus rapidement
possible son véhicule. 
Au moment du top sonore, on mesure la vitesse de l'automobile puis la
distance nécessaire pour arrêter le véhicule. 

Pour six expériences, on a obtenu les résultats suivants: 
\[\renewcommand{\arraystretch}{1.4}
\begin{tabular}{|c|*6{c|}}\hline
  $v_i$ (km/h) & 27 & 43 & 62 & 80 & 98 & 115 \\\hline
  distance $y_i$ d'arrêt (m) 
  & 6,8 & 20,5 & 35,9 & 67,8 & 101,2 & 135,8 \\\hline  
\end{tabular}
\]

On pose $x_i=v_i^2$ et on considère la série $(x_i;y_i)$. 

\bgen
\item Compléter le tableau 
  \begin{tabular}{|c|*6{p{1.7cm}|}}\hline
  \rule[-.4cm]{0.cm}{1.cm}$x_i$ &  &  &  &  &  &  \\\hline
  $y_i$ 
  & 6,8 & 20,5 & 35,9 & 67,8 & 101,2 & 135,8 \\\hline  
  \end{tabular}
  
\item Dans un repère orthogonal représenter le nuage de points associé
  à cette nouvelle série 
  (unités: 1cm pour 1000 en abscisse, et 1 cm pour 10 en ordonnée). 

\item 
  \bgen[a.]
  \item Déterminer, à l'aide de la calculatrice, 
    l'équation de la droite de régression de $y$ en $x$ sous la forme
    $y=mx+p$. 
    Tracer cette droite dans le repère précédent. 

  \item A l'aide de cette équation, déterminer la valeur estimée de
    $x$ correspondant à une distance d'arrêt de 180 m, puis la vitesse
    correspondante du véhicule. 

  \item Quelle est la vitesse d'arrêt estimée correspondant à une
    vitesse de 150 km/h. 

  \item Le manuel du code de la route donne, pour calculer la distance
    d'arrêt, en mètres, la méthode suivante: 
    "Prendre le carré de la vitesse exprimé en dizaines de kilomètres
    par heure." 

    Comparer le résultat obtenu au c. à celui que l'on obtiendrait par
    cette méthode. 

  \enen
\enen
\enex


\label{LastPage}
\end{document}

Télécharger le fichier source Latex