Traitement des données numériques
Version du 10 avril 2005
Philippe Cibois
Chapitre 1 Médiane, quartiles, boite à moustache
Chapitre 1 Médiane, quartiles, boite à moustache
Médiane
Soit la distribution des tailles en cm des étudiants entrés en première année de licence en 2004 :
Taille et effectif de chaque
taille
Taille 151 152 155
157 158 159
160 161 162
163 164 165
166 167 168
Effec. 1 1 6 1
4 3 15
3 10 11
6 7 2
4 7
Taille 169
170 171 172
173 174 175
176 177 178
179 180 181
182 183
Effec. 6
14 1 4
1 1 4
1 1 3
4 12 1
7 3
Taille 184
185 186 187
188 189 190
206
Effec. 3
4 1 3
1 1 3
1
On cherche une valeur centrale autre que la moyenne (qui est très sensible aux valeurs exceptionnelles). On cherche l'individu qui se trouve au centre. On divise l'effectif par 2 : 161/2 = 80,5. L'individu central se trouve être après la première moitié des 80 individus, soit le 81e, il laisse ensuite une deuxième moitié des individus de rang 82 à 161.
Le 81e individu est dit individu médian. Pour connaitre sa taille, on cumule toutes les valeurs en commençant par la plus faible : à 151 on a 1 individu, à 152 compris on a en a 2, à 155 on en a 4 etc.
Cumul des effectifs pour une
taille donnée à partir des plus faibles valeurs
Taille 151
152 155 157
158 159 160
161 162 163
164 165 166
167 168
Cumul 1 2 8 9 13
16 31 34
44 55 61
68 70 74
81
Taille 169
170 171 172
173 174 175
176 177 178
179 180 181 182 183
Cumul 87
101 102 106
107 108 112
113 114 117
121 133 134
141 144
Taille 184
185 186 187
188 189 190
206
Cumul 147
151 152 155
156 157 160
161
A partir de cette liste détaillons la situation à partir de la taille 167, individu par individu :
Taille 167
168 168 168 168 168 168 168 169 169
Cumul 74
75 76 77
78 79 80 81
82 83
La taille de 168 est la valeur médiane, ou médiane, correspond à l'individu médian 81
Quartile
Dans les deux moitiés, on répète l'opération de la valeur centrale. L'effectif de 80/2=40, on a donc un premier quart (indiv 1 à 40), un 2e quart (41 à 80), l'individu médian 81, un 3e quart (82 à 121) un 4e quart (122 à 161). La taille correspondant au passage du premier au 2e quart s'appelle le premier quartile, et celle correspondant au passage entre le 3e et le 4e s'appelle troisième quartile (le 2e quartile correspond à la médiane).
En examinant le cumul, on voit que à 161 on est au 34e individu, et que du 35e au 44e on est à 162 : comme le 40e et le 41e qui sont dit l'intervalle correspondant au 1er quartile et qu'ils ont même valeur, cette valeur de 161 sera celle du premier quartile.
Par contre pour le 3e quartile, on voit que l'on change de valeur entre l'individu 121 qui est à 179 et l'individu 122 qui est à 180. Par convention le 3e quartile vaudra la valeur intermédiaire de 179,5.
On a déjà un résumé de la situation
Premier quartile = 162
Médiane = 168
Troisième quartile = 179,5
L'écart entre la valeur du 3e et celle du premier quartile est applelé Ecart Inter Quartiles (EIQ). Ici EIQ = 179,5 – 162 = 17,5 cm (puisque les tailles sont en cm).
On situe des valeurs frontières (qui ne sont dépassées qu'exceptionnellement) en prenant des valeurs qui sont une fois et demie l'écart inter quartiles à gauche de la valeur du premier et à droite de la valeur du troisième quartile soit 1,5 x EIQ
EIQ = 17,5 multipliée par 1,5 on a 17,5 x 1;5 = 26,25 3 cm
Valeur frontière à gauche (inf.) = 162 – 26,25 = 135,75
Valeur frontière à droite (sup.) = 179,5 + 26,25 = 205,75
Valeur frontière inférieure |
Premier quartile |
Médiane |
Troisième quartile |
Valeur frontière supérieure |
135,75 |
162 |
168 |
179,5 |
205,75 |
On constate que la valeur la plus basse 151 cm n'atteint pas la valeur frontière inférieure et l'on retiendra cette valeur de 151 comme vraie frontière inférieure. Par contre, un individu avec une valeur de 206 dépasse la valeur supérieure. Dans la suite cet individu sera noté.
Boite
à moustaches
On résume la distribution par un graphique à l'échelle où une boite (dont la hauteur n'est pas significative) va du premier au troisième quartile. Des "moustaches" en sortent qui vont à droite et à gauche jusqu'aux valeurs frontières observées. Si des individus dépassent ces valeurs frontières, ils sont indiqués comme points hors normes (une valeur à 206). On a donc le schéma suivant.
.
Cette boite à moustache résume graphiquement l'ensemble de la distribution. On y ajoute au centre la valeur de la moyenne de la distribution (170,0).
Le tableau suivant reprend les résultats pour l'ensemble puis par sexe. La colonne produit permet de calculer la moyenne (produit de la valeur par le nombre de cas)
Ens |
n= |
Cumul |
prod |
Masc |
n= |
cum |
prod |
Fémi |
n |
cum |
prod |
151 |
1 |
1 |
151 |
151 |
0 |
0 |
0 |
151 |
1 |
1 |
151 |
152 |
1 |
2 |
152 |
152 |
0 |
0 |
0 |
152 |
1 |
2 |
152 |
155 |
6 |
8 |
930 |
155 |
0 |
0 |
0 |
155 |
6 |
8 |
930 |
157 |
1 |
9 |
157 |
157 |
0 |
0 |
0 |
157 |
1 |
9 |
157 |
158 |
4 |
13 |
632 |
158 |
0 |
0 |
0 |
158 |
4 |
13 |
632 |
159 |
3 |
16 |
477 |
159 |
0 |
0 |
0 |
159 |
3 |
16 |
477 |
160 |
15 |
31 |
2400 |
160 |
0 |
0 |
0 |
160 |
15 |
31 |
2400 |
161 |
3 |
34 |
483 |
161 |
0 |
0 |
0 |
161 |
3 |
34 |
483 |
162 |
10 |
44 |
1620 |
162 |
0 |
0 |
0 |
162 |
10 |
44 |
1620 |
163 |
11 |
55 |
1793 |
163 |
0 |
0 |
0 |
163 |
11 |
55 |
1793 |
164 |
6 |
61 |
984 |
164 |
0 |
0 |
0 |
164 |
6 |
61 |
984 |
165 |
7 |
68 |
1155 |
165 |
0 |
0 |
0 |
165 |
7 |
68 |
1155 |
166 |
2 |
70 |
332 |
166 |
0 |
0 |
0 |
166 |
2 |
70 |
332 |
167 |
4 |
74 |
668 |
167 |
0 |
0 |
0 |
167 |
4 |
74 |
668 |
168 |
7 |
81 |
1176 |
168 |
1 |
1 |
168 |
168 |
6 |
80 |
1008 |
169 |
6 |
87 |
1014 |
169 |
1 |
2 |
169 |
169 |
5 |
85 |
845 |
170 |
14 |
101 |
2380 |
170 |
3 |
5 |
510 |
170 |
11 |
96 |
1870 |
171 |
1 |
102 |
171 |
171 |
0 |
5 |
0 |
171 |
1 |
97 |
171 |
172 |
4 |
106 |
688 |
172 |
3 |
8 |
516 |
172 |
1 |
98 |
172 |
173 |
1 |
107 |
173 |
173 |
0 |
8 |
0 |
173 |
1 |
99 |
173 |
174 |
1 |
108 |
174 |
174 |
1 |
9 |
174 |
174 |
0 |
99 |
0 |
175 |
4 |
112 |
700 |
175 |
1 |
10 |
175 |
175 |
3 |
102 |
525 |
176 |
1 |
113 |
176 |
176 |
0 |
10 |
0 |
176 |
1 |
103 |
176 |
177 |
1 |
114 |
177 |
177 |
1 |
11 |
177 |
177 |
0 |
103 |
0 |
178 |
3 |
117 |
534 |
178 |
3 |
14 |
534 |
178 |
0 |
103 |
0 |
179 |
4 |
121 |
716 |
179 |
3 |
17 |
537 |
179 |
1 |
104 |
179 |
180 |
12 |
133 |
2160 |
180 |
12 |
29 |
2160 |
180 |
0 |
104 |
0 |
181 |
1 |
134 |
181 |
181 |
1 |
30 |
181 |
181 |
0 |
104 |
0 |
182 |
7 |
141 |
1274 |
182 |
6 |
36 |
1092 |
182 |
1 |
105 |
182 |
183 |
3 |
144 |
549 |
183 |
3 |
39 |
549 |
183 |
0 |
105 |
0 |
184 |
3 |
147 |
552 |
184 |
2 |
41 |
368 |
184 |
1 |
106 |
184 |
185 |
4 |
151 |
740 |
185 |
4 |
45 |
740 |
185 |
0 |
106 |
0 |
186 |
1 |
152 |
186 |
186 |
1 |
46 |
186 |
186 |
0 |
106 |
0 |
187 |
3 |
155 |
561 |
187 |
3 |
49 |
561 |
187 |
0 |
106 |
0 |
188 |
1 |
156 |
188 |
188 |
1 |
50 |
188 |
188 |
0 |
106 |
0 |
189 |
1 |
157 |
189 |
189 |
1 |
51 |
189 |
189 |
0 |
106 |
0 |
190 |
3 |
160 |
570 |
190 |
3 |
54 |
570 |
190 |
0 |
106 |
0 |
206 |
1 |
161 |
206 |
206 |
1 |
55 |
206 |
206 |
0 |
106 |
0 |
|
161 |
total |
27369 |
|
55 |
total |
9950 |
|
106 |
total |
17419 |
div/2= |
80,5 |
moyenne |
170,0 |
div/2= |
27,5 |
moyenne |
180,9 |
div/2= |
53 |
moyenne |
164,3 |
|
1 |
151 |
|
|
1 |
168 |
|
|
1 |
151 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
40 |
162 |
|
|
13 |
178 |
|
|
26 |
160 |
|
|
41 |
162 |
|
|
14 |
178 |
|
|
27 |
160 |
|
|
|
|
|
|
15 |
179 |
|
|
28 |
160 |
|
|
80 |
168 |
|
|
|
|
|
|
|
|
|
Méd. |
81 |
168 |
|
|
27 |
180 |
|
|
53 |
163 |
|
|
82 |
169 |
|
|
28 |
180 |
|
|
54 |
163 |
|
|
|
|
|
|
29 |
180 |
|
|
|
|
|
|
121 |
179 |
|
|
|
|
|
|
79 |
168 |
|
|
122 |
180 |
|
|
41 |
184 |
|
|
80 |
168 |
|
|
|
|
|
|
42 |
185 |
|
|
81 |
169 |
|
|
161 |
206 |
|
|
43 |
185 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
106 |
184 |
|
|
|
|
|
|
55 |
206 |
|
|
|
|
|
Récapitulatif :
|
Ensemble |
Masculin |
Féminin |
Premier quartile |
162 |
178 |
160 |
Médiane |
168 |
180 |
163 |
3e quartile |
179,5 |
185 |
168 |
EIQ |
17,5 |
7 |
8 |
EIQ x 1,5 |
26,25 |
10,5 |
12 |
Valeur frontière inf. théorique |
135,75 |
167,5 |
148 |
Valeur inférieure observée |
151 |
168 |
151 |
Hors normes |
non |
non |
non |
Valeur frontière sup. théorique |
205,75 |
195,5 |
180 |
Valeur supérieure observée |
206 |
206 |
184 |
Hors normes |
oui |
oui |
oui |
Moyenne |
170,0 |
180,9 |
164,3 |
On voit immédiatement que la largeur de la boite d'ensemble vient du mélange des deux sexes ou l'écart inter quartiles est beaucoup plus faible et du même ordre.
Le fait que la moyenne se trouve à droite de la médiane indique une plus grande dispersion dans les grandes tailles pour les deux sexes, ce que confirment dans les deux cas les dépassements de la valeur frontière supérieure.
Autre exemple : les notes obtenues en février 2005 par les étudiants de fin de premier semestre de techniques quantitatives de la première année de la licence de sociologie. Il y a deux populations : ceux pour lesquels la filière est la sociologie, ceux pour qui c'est l'économie et la gestion. On a les résultats suivants :
Notes |
Etudiants de sociologie |
|
Etudiants d'économie et gestion |
|||
|
Répartition |
Cumul |
calcul |
Répartition |
Cumul |
calcul |
1 |
7 |
7 |
7 |
|
|
|
2 |
1 |
8 |
2 |
|
|
|
3 |
3 |
11 |
9 |
|
|
|
4 |
2 |
13 |
8 |
1 |
1 |
4 |
5 |
5 |
18 |
25 |
2 |
3 |
10 |
6 |
3 |
21 |
18 |
2 |
5 |
12 |
7 |
5 |
26 |
35 |
2 |
7 |
14 |
8 |
4 |
30 |
32 |
2 |
9 |
16 |
9 |
9 |
39 |
81 |
2 |
11 |
18 |
10 |
3 |
42 |
30 |
6 |
17 |
60 |
11 |
9 |
51 |
99 |
7 |
24 |
77 |
12 |
7 |
58 |
84 |
7 |
31 |
84 |
13 |
10 |
68 |
130 |
0 |
31 |
0 |
14 |
2 |
70 |
28 |
5 |
36 |
70 |
15 |
7 |
77 |
105 |
0 |
36 |
0 |
16 |
3 |
80 |
48 |
6 |
42 |
96 |
17 |
7 |
87 |
119 |
5 |
47 |
85 |
18 |
10 |
97 |
180 |
5 |
52 |
90 |
19 |
|
|
0 |
1 |
53 |
19 |
Total |
97 |
|
1040 |
53 |
|
655 |
|
|
Moyenne |
26,5 |
Moyenne |
12,36 |
|
Total/2 |
48,5 |
|
10,72 |
|
|
|
|
|
|
|
|
|
|
|
1 |
1 |
|
1 |
4 |
|
|
|
|
|
|
|
|
|
24 |
7 |
|
13 |
10 |
|
|
25 |
7 |
|
14 |
10 |
|
|
|
|
|
|
|
|
|
48 |
11 |
|
26 |
12 |
|
|
49 |
11 |
|
27 |
12 |
|
|
50 |
11 |
|
28 |
12 |
|
|
|
|
|
|
|
|
|
73 |
15 |
|
40 |
16 |
|
|
74 |
15 |
|
41 |
16 |
|
|
|
|
|
|
|
|
|
97 |
18 |
|
53 |
19 |
|
|
|
|
|
|
|
|
|
|
Socio |
Eco-gest |
|
|
|
Premier quartile |
7 |
10 |
|
|
|
|
Médiane |
|
11 |
12 |
|
|
|
3e quartile |
|
15 |
16 |
|
|
|
EIQ |
|
8 |
6 |
|
|
|
EIQ x 1,5 |
|
12 |
9 |
|
|
|
Valeur frontière inf. théorique |
-5 |
1 |
|
|
|
|
Valeur inférieure observée |
1 |
4 |
|
|
|
|
Hors normes |
|
non |
non |
|
|
|
Valeur frontière sup. théorique |
27 |
25 |
|
|
|
|
Valeur supérieure observée |
18 |
19 |
|
|
|
|
Hors normes |
|
non |
non |
|
|
|
Moyenne |
|
10,7 |
12,36 |
|
|
|
On voit sur cet exemple que les notes des étudiants de la filière sociologie sont moins bonnes que celles de la filière économie et gestion, que les notes des sociologues sont plus réparties à gauche tandis que les autres sont plus réparties à droite. On vérifie sur cet exemple que les dispositions vis-à-vis des mathématiques en général ne sont pas les mêmes suivant la filière.
Exercice
On trouvera ci-dessous les 50 villes et agglomérations urbaines les plus importantes du 18e au 20e siècle, en milliers. Sources : Atlas de la Révolution française et Insee.
Calculer les composantes de la boite à moustaches, représenter séparément les données des 18e et 19e siècle d'une part, du 20e d'autre part. Les points concernant les villes les plus peuplées ne peuvent être représentés à l'échelle.
Questions d'interprétation : à quoi correspond une "ville moyenne", comparer médiane et moyenne. D'un point de vue historique regarder les constances et les variations, l'effet de la révolution industrielle.
|
Vers1750 |
|
En 1836 |
|
En 1968 |
|
En 1999 |
|
1 |
Paris |
576 |
Paris |
909 |
Paris |
8196 |
Paris |
9644 |
2 |
Lyon |
114 |
Lyon |
151 |
Lyon |
1074 |
Marseille |
1349 |
3 |
Marseille |
68 |
Marseille |
146 |
Marseille |
964 |
Lyon |
1348 |
4 |
Bordeaux |
67 |
Bordeaux |
99 |
Lille |
881 |
Lille |
1000 |
5 |
Rouen |
67 |
Rouen |
92 |
Bordeaux |
555 |
Nice |
888 |
6 |
Lille |
63 |
Toulouse |
77 |
Toulouse |
439 |
Toulouse |
761 |
7 |
Nantes |
57 |
Nantes |
76 |
Nantes |
393 |
Bordeaux |
753 |
8 |
Toulouse |
45 |
Lille |
72 |
Nice |
392 |
Nantes |
544 |
9 |
Strasbourg |
40 |
Strasbourg |
58 |
Rouen |
369 |
Toulon |
519 |
10 |
Orléans |
37 |
Amiens |
46 |
Toulon |
340 |
Douai |
518 |
11 |
Caen |
35 |
Metz |
43 |
Strasbourg |
334 |
Strasbourg |
427 |
12 |
Montpellier |
35 |
Nimes |
43 |
Grenoble |
332 |
Grenoble |
419 |
13 |
Amiens |
33 |
Caen |
42 |
Saint-Etienne |
331 |
Rouen |
389 |
14 |
Nimes |
30 |
Saint-Etienne |
42 |
Lens |
325 |
Valenciennes |
357 |
15 |
Reims |
30 |
Orléans |
40 |
Nancy |
257 |
Nancy |
331 |
16 |
Rennes |
30 |
Reims |
38 |
Le Havre |
247 |
Metz |
322 |
17 |
Versailles |
29 |
Angers |
36 |
Valenciennes |
223 |
Tours |
297 |
18 |
Metz |
26 |
Montpellier |
36 |
GrCaAntibes |
213 |
Saint-Etienne |
291 |
19 |
Toulon |
26 |
Rennes |
36 |
Douai |
205 |
Montpellier |
287 |
20 |
Aix |
25 |
Toulon |
35 |
Clermont-F |
204 |
Rennes |
272 |
21 |
Bourges |
25 |
Avignon |
32 |
Tours |
201 |
Orléans |
263 |
22 |
Clermont-F |
24 |
Clermont-F |
32 |
Mulhouse |
199 |
Bethune |
259 |
23 |
Grenoble |
24 |
Nancy |
31 |
Rennes |
192 |
Clermont-F |
258 |
24 |
Angers |
23 |
Besançon |
30 |
Dijon |
183 |
Le Havre |
258 |
25 |
Arles |
23 |
Brest |
30 |
Montpellier |
171 |
Avignon |
253 |
26 |
Avignon |
22 |
Limoges |
30 |
Brest |
169 |
Dijon |
236 |
27 |
Dijon |
22 |
Grenoble |
29 |
Orléans |
167 |
Mulhouse |
234 |
28 |
Nancy |
22 |
Versailles |
29 |
Reims |
167 |
Angers |
226 |
29 |
Tours |
22 |
Tours |
27 |
Le Mans |
166 |
Reims |
215 |
30 |
Besançon |
21 |
Boulogne |
26 |
Metz |
166 |
Brest |
210 |
31 |
Douai |
21 |
Le Havre |
26 |
Angers |
163 |
Caen |
199 |
32 |
Brest |
20 |
Troyes |
26 |
Caen |
152 |
Le Mans |
194 |
33 |
Dieppe |
18 |
Aix |
25 |
Limoges |
148 |
Dunkerque |
191 |
34 |
Limoges |
18 |
Bourges |
25 |
Bethune |
144 |
Pau |
181 |
35 |
Poitiers |
18 |
Dijon |
25 |
Dunkerque |
143 |
Bayonne |
178 |
36 |
Troyes |
18 |
Dunkerque |
24 |
Avignon |
139 |
Limoges |
173 |
37 |
Arras |
17 |
Montauban |
24 |
Amiens |
136 |
Perpignan |
162 |
38 |
Saint-Omer |
17 |
Arras |
23 |
Thionville |
136 |
Amiens |
160 |
39 |
La Rochelle |
16 |
Le Mans |
23 |
Hagondange |
134 |
Nimes |
148 |
40 |
Le Mans |
16 |
Poitiers |
22 |
Bruay en A. |
126 |
Annecy |
136 |
41 |
Montauban |
16 |
Saint-Quentin |
21 |
Denain |
126 |
Saint-Nazaire |
136 |
42 |
Valenciennes |
16 |
Arles |
20 |
Nimes |
124 |
Besançon |
134 |
43 |
Abbeville |
15 |
Roubaix |
20 |
Besançon |
116 |
Thionville |
130 |
44 |
Chalons |
15 |
Saint-Malo |
20 |
Montbeliard |
114 |
Troyes |
128 |
45 |
Dunkerque |
15 |
Tourcoing |
20 |
Troyes |
114 |
Poitiers |
119 |
46 |
Saint-Malo |
15 |
Valenciennes |
20 |
Bayonne |
110 |
Valence |
117 |
47 |
Le Havre |
14 |
Cherbourg |
19 |
Pau |
110 |
La Rochelle |
116 |
48 |
Béziers |
13 |
Douai |
19 |
Saint-Nazaire |
110 |
Lorient |
116 |
49 |
Alençon |
12 |
Saint-Omer |
19 |
Perpignan |
106 |
Chambéry |
113 |
50 |
Beauvais |
12 |
Abbeville |
18 |
Lorient |
98 |
Montbeliard |
113 |
|
Somme |
1983 |
|
2852 |
|
20604 |
|
26072 |
|
Moyenne |
39,7 |
|
57,0 |
|
412,1 |
|
521,4 |
Avec la médiane nous avons un repère de la valeur centrale d'une distribution, avec la position des quartiles et leur écart, nous avons un indice de la manière dont les valeurs se répartissent autour de cette valeur centrale. Nous allons maintenant reprendre ces mêmes problèmes avec d'autres indicateurs non centrés sur la position dans la distribution comme la médiane mais sur l'écart à la moyenne.
La moyenne est bien connue et est un repère de valeur centrale largement utilisé. Prenons par exemple 5 notes et calculons leur moyenne :
Individu |
Note |
1 |
13 |
2 |
12 |
3 |
11 |
4 |
8 |
5 |
6 |
Somme |
50 |
Moyenne |
10 |
Le calcul est habituel et consiste à diviser la somme des notes par le nombre d'individus.
Examinons maintenant l'écart que chaque individu a avec la moyenne :
Individu |
Note |
Ecart |
1 |
13 |
+3 |
2 |
12 |
+2 |
3 |
11 |
+1 |
4 |
8 |
-2 |
5 |
6 |
-4 |
Somme |
50 |
0 |
Moyenne |
10 |
|
Les écarts se répartissent autour de la moyenne et leur somme algébrique est nulle. Un premier repère de la dispersion est le plus fort écart en valeur absolue, celui de l'individu 5 à -4, ce critère de l'écart maximum donne déjà une information.
Pour calculer un écart "moyen", une première solution consiste à prendre la valeur absolue des écarts et à en faire la moyenne :
Individu |
Note |
Ecart |
Valeur absolue des écarts |
1 |
13 |
+3 |
3 |
2 |
12 |
+2 |
2 |
3 |
11 |
+1 |
1 |
4 |
8 |
-2 |
2 |
5 |
6 |
-4 |
4 |
Somme |
50 |
0 |
12 |
Moyenne |
10 |
|
2,4 |
La moyenne des valeurs absolue des écarts est de 2,4 : l'unité est la même que pour chaque note ou la moyenne. Cet indicateur a un défaut, il ne met pas en valeur les notes extrèmes. Un écart de 1 au centre apporte autant à l'écart moyen qu'un point entre 3 et 4 alors que l'on souhaite avoir, ce que nous apportait l'écart maximum, une information sur les cas extrêmes.
Pour donner plus d'importance aux écarts extrêmes, on utilise la stratégie qui consiste à élever au carré les écarts bruts (positifs ou négatifs). On a alors :
Individu |
Note |
Ecart |
Ecarts au carré |
1 |
13 |
+3 |
9 |
2 |
12 |
+2 |
4 |
3 |
11 |
+1 |
1 |
4 |
8 |
-2 |
4 |
5 |
6 |
-4 |
16 |
Somme |
50 |
0 |
34 |
Moyenne |
10 |
|
6,8 |
On voit ainsi que l'écart maximum contribue pour 16/34 soit presque la moitié au total des écarts (alors que dans le cas de la somme des valeurs absolue, il ne contribuait que pour 4/12 soit pour un tiers). Donc la somme, et la moyenne qui est en est issue répond bien à notre objectif de mettre en relief les écarts extrêmes. Mais quelle est l'unité de cette moyenne qui est la moyenne d'une somme de carré.
Elle porte le nom de Variance et, étant la moyenne d'une somme de carré est exploitée en en calculant la racine carrée qui nous permet de revenir à l'unité de base exprimant une note, le point.
La racine carrée de 6,8 est de 2,6, écart de note appelé écart-type. Cette valeur est un peu plus forte que la moyenne des écarts absolus, mais du même ordre de grandeur. L'écart type est de 2,6 points autour de la moyenne. On voit dans le cas présent que si l'on se sert de cet écart-type pour déterminer une fourchette de variation autour de la moyenne, on a une limite supérieur à la moyenne plus un écart-type : 10 + 2,6 = 12,6 et une limite inférieure à la moyenne moins un écart-type, soit 10 – 2,6 = 7,4. Si l'on compare avec les 5 individus, on voit que seuls les individus 1 et 5 sont en dehors de la moyenne plus ou moins un écart-type (ou inversement que 3 individus sur 5 sont dans cet intervalle).
Cette situation est tout à fait générale : environ les deux tiers d'une distribution quelconque se trouve compris entre la moyenne moins un écart-type et la moyenne plus un écart-type. On peut même aller plus loin et noter dès à présent qu'environ 95% d'une distribution quelconque se trouve entre la moyenne moins deux écarts-types et la moyenne plus deux écarts-types.
De ce fait l'écart-type devient un instrument de recherche fréquemment utilisé, son défaut, mais aussi sa qualité, est qu'il est sensible aux valeurs extrêmes, ce qui fait qu'on lui préfère quelquefois l'indice dérivé de la médiane, l'écart inter-quartiles.
Propriétés
1) modifions les notes pour doubler les écarts :
Individu |
Note |
Ecart |
Ecarts au carré |
1 |
16 |
+6 |
36 |
2 |
14 |
+4 |
16 |
3 |
12 |
+2 |
4 |
4 |
6 |
-4 |
8 |
5 |
2 |
-8 |
64 |
Somme |
50 |
0 |
136 |
Moyenne |
10 |
|
27,2 |
La variance est passée de 6,8 à 27,2 (et à donc été multipliée par 4)
L'écart-type est passé de 2,6 à 5,2 et est donc multiplié par 2. Le facteur multiplicatif des écarts se retrouve dans l'écart-type.
2) augmentons toutes les notes d'origine de 2 points :
Individu |
Note |
Ecart |
Ecarts au carré |
1 |
15 |
+3 |
9 |
2 |
14 |
+2 |
4 |
3 |
13 |
+1 |
1 |
4 |
10 |
-2 |
4 |
5 |
8 |
-4 |
16 |
Somme |
60 |
0 |
34 |
Moyenne |
12 |
|
6,8 |
C'est la moyenne qui change, pas les écarts, ni la variance, ni l'écart-type
Un simple décalage des notes ne change pas la distribution autour de la moyenne.
Procédure
de calcul
La définition de l'écart-type est faite à partir des carrés des écarts à la moyenne. La moyenne de ces carrés donne la variance dont la racine carrée donne l'écart-type.
Pour simplifier les calculs, résumons en une seule ligne l'ensemble des calculs à partir de chaque note et de la moyenne.
Pour chaque note du tableau d'origine, on calcule l'écart à la moyenne, on l'élève au carré.
Pour la première note on a : (13 – 10)²
Développons : le carré d'une différence est égal à la somme des carrés moins le double produit (a – b)² = a² + b² - 2ab
(13² + 10² - 2 x 13 x 10 ) : développons le produit :
13² est le carré de la note
10² est le carré de la moyenne
2 x 13 x 10 est deux fois le produit de la note par la moyenne.
La somme de tous les écarts est :
13² + 10² - 2 x 13 x 10
+ 12² + 10² - 2 x 12 x 10
+ 11² + 10² - 2 x 11 x 10
+ 8² + 10² - 2 x 8 x 10
+ 6² + 10² - 2 x 6 x 10
Total : 13²+12²+11²+8²+6² Somme des carrés
+ 10² x 5 : le carré de la moyenne multiplié par l'effectif.
- les doubles produits de la moyenne par la note soit :
2 x 10 (13 + 12 + 11 + 8 + 6) la parenthèse correspond à la somme des notes. 2 x 10 x Somme des notes.
Pour avoir la variance, il faut prendre la moyenne de la somme précédente c'est-à-dire diviser chaque élément de la somme par 5
La somme des carrés est divisé par 5, c'est ce qu'on appelle la moyenne des carrés (en abrégé MC)
10² x 5 divisé par 5 donne le carré de la moyenne (CM)
Les doubles produits divisé par 5 donnent la somme 2 x 10 x Somme des notes / 5 or somme des notes / 5 est égal à la moyenne donc les doubles produits correspondent à – 2 x 10 x 10 soit – 2 fois le carré de la moyenne.
Résumons : la variance est égale à Moyenne des carrés + Carré de la moyenne – deux fois le carré de la moyenne. Au total on a :
Variance = Moyenne des carrés – Carré de la moyenne ou en abrégé :
Variance = MC – CM
Pour effectuer les calculs sans erreur on utilise la forme d'un tableau où il sera inutile de calculer les écarts à la moyenne mais les carré des nombre, faire leur somme, leur moyenne et soustraire à la moyenne des carrés le carré de la moyenne.
Individu |
Note |
Note au carré |
1 |
13 |
169 |
2 |
12 |
144 |
3 |
11 |
121 |
4 |
8 |
64 |
5 |
6 |
36 |
Somme |
50 |
534 |
Moyenne |
10 |
106,8 |
On ajoute ensuite une première ligne de calcul qui correspond au carré de la moyenne et on met le résultat immédiatement sous la moyenne des carrés. On ajoute une ligne supplémentaire qui donne le résultat de la soustraction Moyenne des carrés moins carré de la moyenne ici 106,8 – 100 = 6,8 qui correspond à la variance. Enfin une dernière ligne, prenant la racine carrée de la variance donne l'écart-type.
Individu |
Note |
Note au carré |
1 |
13 |
169 |
2 |
12 |
144 |
3 |
11 |
121 |
4 |
8 |
64 |
5 |
6 |
36 |
Somme |
50 |
534 |
Moyenne |
10 |
106,8 |
CarréMoyenne |
|
100 |
Variance |
|
6,8 |
Ecart-type |
|
2,6 |
Cette disposition standard, qui s'inspire des calculs sur un tableur évite les erreurs numériques.
Le formulaire à retenir est :
Variance = MC – CM
Ecart-type = racine carré (variance)
La variance étant toujours positive, il y a peu de risque d'erreur du fait d'une permutation fautive entre MC et CM : si l'on inverse par erreur le résultat est négatif et l'erreur apparait puisqu'on ne peut pas en prendre la racine carrée. Pour les calculs intermédiaires, il faut prendre suffisamment de chiffres significatifs.
Exemples
1) Taille des étudiants : ensemble puis par sexe.
En principe on affecte une ligne par étudiant mais pour éviter d'avoir beaucoup de lignes identiques, on ajoute une colonne qui pour une taille donnée donne le nombre d'individus qui ont cette taille (n=). Pour calculer la somme des tailles, par exemple pour la taille de l'ensemble correspondant à 155 cm, on multiplie par 6 la taille de 155. Pour le calcul du carré, on prend le carré 155²= 24025 et on multiplie par l'effectif correspondant soit 6 x 24025 = 144150. Pour la moyenne des taille et la moyenne des carrés des tailles on divise (pour l'ensemble) par l'effectif d'ensemble de 161 (somme des effectifs de la colonne n=)
Taille des étudiants ensemble puis par sexe Oct
04 |
|
|
|
|
|
|
|
|
|||
Ens |
n= |
taille |
taille² |
Masc |
n= |
taille |
taille² |
Fémi |
n |
taille |
taille² |
151 |
1 |
151 |
22801 |
151 |
0 |
0 |
0 |
151 |
1 |
151 |
22801 |
152 |
1 |
152 |
23104 |
152 |
0 |
0 |
0 |
152 |
1 |
152 |
23104 |
155 |
6 |
930 |
144150 |
155 |
0 |
0 |
0 |
155 |
6 |
930 |
144150 |
157 |
1 |
157 |
24649 |
157 |
0 |
0 |
0 |
157 |
1 |
157 |
24649 |
158 |
4 |
632 |
99856 |
158 |
0 |
0 |
0 |
158 |
4 |
632 |
99856 |
159 |
3 |
477 |
75843 |
159 |
0 |
0 |
0 |
159 |
3 |
477 |
75843 |
160 |
15 |
2400 |
384000 |
160 |
0 |
0 |
0 |
160 |
15 |
2400 |
384000 |
161 |
3 |
483 |
77763 |
161 |
0 |
0 |
0 |
161 |
3 |
483 |
77763 |
162 |
10 |
1620 |
262440 |
162 |
0 |
0 |
0 |
162 |
10 |
1620 |
262440 |
163 |
11 |
1793 |
292259 |
163 |
0 |
0 |
0 |
163 |
11 |
1793 |
292259 |
164 |
6 |
984 |
161376 |
164 |
0 |
0 |
0 |
164 |
6 |
984 |
161376 |
165 |
7 |
1155 |
190575 |
165 |
0 |
0 |
0 |
165 |
7 |
1155 |
190575 |
166 |
2 |
332 |
55112 |
166 |
0 |
0 |
0 |
166 |
2 |
332 |
55112 |
167 |
4 |
668 |
111556 |
167 |
0 |
0 |
0 |
167 |
4 |
668 |
111556 |
168 |
7 |
1176 |
197568 |
168 |
1 |
168 |
28224 |
168 |
6 |
1008 |
169344 |
169 |
6 |
1014 |
171366 |
169 |
1 |
169 |
28561 |
169 |
5 |
845 |
142805 |
170 |
14 |
2380 |
404600 |
170 |
3 |
510 |
86700 |
170 |
11 |
1870 |
317900 |
171 |
1 |
171 |
29241 |
171 |
0 |
0 |
0 |
171 |
1 |
171 |
29241 |
172 |
4 |
688 |
118336 |
172 |
3 |
516 |
88752 |
172 |
1 |
172 |
29584 |
173 |
1 |
173 |
29929 |
173 |
0 |
0 |
0 |
173 |
1 |
173 |
29929 |
174 |
1 |
174 |
30276 |
174 |
1 |
174 |
30276 |
174 |
0 |
0 |
0 |
175 |
4 |
700 |
122500 |
175 |
1 |
175 |
30625 |
175 |
3 |
525 |
91875 |
176 |
1 |
176 |
30976 |
176 |
0 |
0 |
0 |
176 |
1 |
176 |
30976 |
177 |
1 |
177 |
31329 |
177 |
1 |
177 |
31329 |
177 |
0 |
0 |
0 |
178 |
3 |
534 |
95052 |
178 |
3 |
534 |
95052 |
178 |
0 |
0 |
0 |
179 |
4 |
716 |
128164 |
179 |
3 |
537 |
96123 |
179 |
1 |
179 |
32041 |
180 |
12 |
2160 |
388800 |
180 |
12 |
2160 |
388800 |
180 |
0 |
0 |
0 |
181 |
1 |
181 |
32761 |
181 |
1 |
181 |
32761 |
181 |
0 |
0 |
0 |
182 |
7 |
1274 |
231868 |
182 |
6 |
1092 |
198744 |
182 |
1 |
182 |
33124 |
183 |
3 |
549 |
100467 |
183 |
3 |
549 |
100467 |
183 |
0 |
0 |
0 |
184 |
3 |
552 |
101568 |
184 |
2 |
368 |
67712 |
184 |
1 |
184 |
33856 |
185 |
4 |
740 |
136900 |
185 |
4 |
740 |
136900 |
185 |
0 |
0 |
0 |
186 |
1 |
186 |
34596 |
186 |
1 |
186 |
34596 |
186 |
0 |
0 |
0 |
187 |
3 |
561 |
104907 |
187 |
3 |
561 |
104907 |
187 |
0 |
0 |
0 |
188 |
1 |
188 |
35344 |
188 |
1 |
188 |
35344 |
188 |
0 |
0 |
0 |
189 |
1 |
189 |
35721 |
189 |
1 |
189 |
35721 |
189 |
0 |
0 |
0 |
190 |
3 |
570 |
108300 |
190 |
3 |
570 |
108300 |
190 |
0 |
0 |
0 |
206 |
1 |
206 |
42436 |
206 |
1 |
206 |
42436 |
206 |
0 |
0 |
0 |
Total |
161 |
27369 |
4668489 |
|
55 |
9950 |
1802330 |
|
106 |
17419 |
2866159 |
Moyenne |
169,994 |
28996,83 |
|
|
180,909 |
32769,64 |
|
|
164,330 |
27039,24 |
|
CarréMoy |
|
28897,89 |
|
|
|
32728,10 |
|
|
|
27004,41 |
|
Variance |
|
98,94 |
|
|
|
41,54 |
|
|
|
34,82 |
|
ET |
|
|
9,9 |
|
|
|
6,4 |
|
|
|
5,9 |
Ensemble |
|
|
Masculin |
|
|
Féminin |
|
|
|||
Méd |
168 |
Moy |
170,0 |
Méd |
180 |
Moy |
180,9 |
Méd |
163 |
Moy |
164,3 |
Q1 |
162 |
M-ET |
160,0 |
Q1 |
178 |
M-ET |
174,5 |
Q1 |
160 |
M-ET |
158,4 |
Q3 |
180 |
M+ET |
179,9 |
Q3 |
185 |
M+ET |
187,4 |
Q3 |
168 |
M+ET |
170,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Rappel 2003 |
|
|
Rappel 2003 |
|
|
Rappel 2003 |
|||
|
|
Total |
94 |
|
|
Total |
33 |
|
|
Total |
61 |
|
|
Moy |
170,8 |
|
|
Moy |
180,8 |
|
|
Moy |
165,3 |
|
|
ET |
9,3 |
|
|
ET |
6 |
|
|
ET |
5,6 |
On a mis un rappel de la médiane et des quartiles calculés au chapitre précédent et l'on voit que ces différents indicateurs donnent des résultats comparables. On vérifiera que dans l'intervalle 160 cm 180 cm qui correspond en arrondissant à la moyenne plus ou moins un écart-type, on a plus des 2/3 de la population. A plus ou moins deux écarts-types on a pratiquement toute la population.
2) Durée de grossesse
On sait que la durée de la grossesse est de 9 mois soit, du fait des longueurs inégales des mois de 273 à 275 jours. En prenant la littérature spécialisée (par exemple E. Papiernik, "La durée de la grossesse" dans E. Papiernik, D. Cabrol et J.-Cl. Pons, Obstétrique, Flammarion, 1995), on s'aperçoit que cette durée est assez difficile à observer car un écart de 10 jours existe entre les dernière règles et la fécondation et que la date des dernière règles est souvent imprécise. De même les cas de prématurités faussent les résultats mais les test fait à l'occasion d'une échographie (en mesurant la largeur du crâne) permettent de lever beaucoup d'hésitation.
Il ressort de l'article de Papiernik que la taille des femmes a une influence sur la durée de la grossesse : aux grandes tailles correspondent des durées plus grandes, de même l'âge de la mère a une influence : "l'effet de l'âge se marque aux extrémités de la distribution des durées de grossesse, avec une augmentation progressive de la prématurité et une diminution des grossesses à terme dépassé" (p.168).
L'auteur a comparé les durées de grossesse de femmes nées en Martinique et accouchant à Fort-de-France avec des femmes accouchant en région parisienne et nées en France européenne, dans les Antilles ou en Afrique sub-saharienne. "Il existe une différence nette et statistiquement significative de trois jours de durée de grossesse entre les femmes nées en Martinique et celle nées en Europe. La durée de grossesse des femmens nées aux Antilles et accouchant à Paris est égale à la durée de grossesse observée en Martinique" (p.170). L'effet de catégorie sociale n'apporte pas de modifications.
Le graphique ci-joint permet de se rendre compte visuellement que les durées de grossesse se situent entre 37 semaines (soit 37 x 7 = 259 jours) et 42 semaines (=294 jours). La moyenne pour les européennes est de 277 jours avec un écart-type de 10 jours, ce qui signifie que les deux tiers des grossesses durent entre 267 et 287 jours. Pour les Africaines la durée est de 273 jours plus ou moins un écart- type de 9,5 jours et pour les martiniquaises ou guadeloupéennes de 274 jours plus ou moins 9,2 jours. Du fait d'un écart-type proche de 10 jours, seule une analyse fine permet de différencier les durées moyennes de grossesses différentes.
Cet exemple permet de donner de l'épaisseur au concept d'écart-type : indépendamment de sa définition, il est à envisager comme l'écart qui de part et d'autre de la moyenne regroupe environ les deux-tiers de la population. C'est donc un écart assez habituel qui correspond à un graphique dit "en cloche" ou une dispersion non négligeable se fait autour de la moyenne. Avec un écart-type de 10 jours pour la durée de grossesse, l'exceptionnel (- de 5% de la population) arrive au-delà de deux écarts-types, soit 3 semaines.