Traitement des données numériques

Version du 10 avril 2005

Philippe Cibois

Chapitre 1 Médiane, quartiles, boite à moustache

Chapitre 2 : écart-type

 

 

Chapitre 1 Médiane, quartiles, boite à moustache

Médiane

Soit la distribution des tailles en cm des étudiants entrés en première année de licence en 2004 :

Taille et effectif de chaque taille

Taille  151  152  155  157  158  159  160  161  162  163  164  165  166  167  168

Effec.    1    1    6    1    4    3   15    3   10   11    6    7    2    4    7

Taille  169  170  171  172  173  174  175  176  177  178  179  180  181  182  183

Effec.    6   14    1    4    1    1    4    1    1    3    4   12    1    7    3

Taille  184  185  186  187  188  189  190  206

Effec.    3    4    1    3    1    1    3    1

On cherche une valeur centrale autre que la moyenne (qui est très sensible aux valeurs exceptionnelles). On cherche l'individu qui se trouve au centre. On divise l'effectif par 2 : 161/2 = 80,5. L'individu central se trouve être après la première moitié des 80 individus, soit le 81e, il laisse ensuite une deuxième moitié des individus de rang 82 à 161.

Le 81e individu est dit individu médian. Pour connaitre sa taille, on cumule toutes les valeurs en commençant par la plus faible : à 151 on a 1 individu, à 152 compris on a en a 2, à 155 on en a 4 etc.

Cumul des effectifs pour une taille donnée à partir des plus faibles valeurs

Taille  151  152  155  157  158  159  160  161  162  163  164  165  166  167  168

Cumul     1    2    8    9   13   16   31   34   44   55   61   68   70   74   81

Taille  169  170  171  172  173  174  175  176  177  178  179  180  181  182  183

Cumul    87  101  102  106  107  108  112  113  114  117  121  133  134  141  144

Taille  184  185  186  187  188  189  190  206

Cumul   147  151  152  155  156  157  160  161

A partir de cette liste détaillons la situation à partir de la taille 167, individu par individu :

Taille   167  168  168  168  168  168  168  168  169  169

Cumul     74   75   76   77   78   79   80   81   82   83

La taille de 168 est la valeur médiane, ou médiane, correspond à l'individu médian 81

Quartile

Dans les deux moitiés, on répète l'opération de la valeur centrale. L'effectif de 80/2=40, on a donc un premier quart (indiv 1 à 40), un 2e quart (41 à 80), l'individu médian 81, un 3e quart (82 à 121) un 4e quart (122 à 161). La taille correspondant au passage du premier au 2e quart s'appelle le premier quartile, et celle correspondant au passage entre le 3e et le 4e s'appelle troisième quartile (le 2e quartile correspond à la médiane).

En examinant le cumul, on voit que à 161 on est au 34e individu, et que du 35e au 44e on est à 162 : comme le 40e et le 41e qui sont dit l'intervalle correspondant au 1er quartile et qu'ils ont même valeur, cette valeur de 161 sera celle du premier quartile.

Par contre pour le 3e quartile, on voit que l'on change de valeur entre l'individu 121 qui est à 179 et l'individu 122 qui est à 180. Par convention le 3e quartile vaudra la valeur intermédiaire de 179,5.

On a déjà un résumé de la situation

Premier quartile = 162

Médiane = 168

Troisième quartile = 179,5

L'écart entre la valeur du 3e et celle du premier quartile est applelé Ecart Inter Quartiles (EIQ). Ici EIQ = 179,5 – 162 = 17,5 cm (puisque les tailles sont en cm).

On situe des valeurs frontières (qui ne sont dépassées qu'exceptionnellement) en prenant des valeurs qui sont une fois et demie l'écart inter quartiles à gauche de la valeur du premier et à droite de la valeur du troisième quartile soit 1,5 x EIQ

EIQ = 17,5   multipliée par 1,5 on a 17,5 x 1;5 = 26,25 3 cm

Valeur frontière à gauche (inf.) = 162 – 26,25 = 135,75

Valeur frontière à droite (sup.) = 179,5 + 26,25 = 205,75

 

Valeur frontière inférieure

Premier quartile

Médiane

Troisième quartile

Valeur frontière supérieure

135,75

162

168

179,5

205,75

 

On constate que la valeur la plus basse 151 cm n'atteint pas la valeur frontière inférieure et l'on retiendra cette valeur de 151 comme vraie frontière inférieure. Par contre, un individu avec une valeur de 206 dépasse la valeur supérieure. Dans la suite cet individu sera noté.

Boite à moustaches

On résume la distribution par un graphique à l'échelle où une boite (dont la hauteur n'est pas significative) va du premier au troisième quartile. Des "moustaches" en sortent qui vont à droite et à gauche jusqu'aux valeurs frontières observées. Si des individus dépassent ces valeurs frontières, ils sont indiqués comme points hors normes (une valeur à 206). On a donc le schéma suivant.

.

Cette boite à moustache résume graphiquement l'ensemble de la distribution. On y ajoute au centre la valeur de la moyenne de la distribution (170,0).

Le tableau suivant reprend les résultats pour l'ensemble puis par sexe. La colonne produit permet de calculer la moyenne (produit de la valeur par le nombre de cas)

 

Ens

n=

Cumul

prod

Masc

n=

cum

prod

Fémi

n

cum

prod

151

1

1

151

151

0

0

0

151

1

1

151

152

1

2

152

152

0

0

0

152

1

2

152

155

6

8

930

155

0

0

0

155

6

8

930

157

1

9

157

157

0

0

0

157

1

9

157

158

4

13

632

158

0

0

0

158

4

13

632

159

3

16

477

159

0

0

0

159

3

16

477

160

15

31

2400

160

0

0

0

160

15

31

2400

161

3

34

483

161

0

0

0

161

3

34

483

162

10

44

1620

162

0

0

0

162

10

44

1620

163

11

55

1793

163

0

0

0

163

11

55

1793

164

6

61

984

164

0

0

0

164

6

61

984

165

7

68

1155

165

0

0

0

165

7

68

1155

166

2

70

332

166

0

0

0

166

2

70

332

167

4

74

668

167

0

0

0

167

4

74

668

168

7

81

1176

168

1

1

168

168

6

80

1008

169

6

87

1014

169

1

2

169

169

5

85

845

170

14

101

2380

170

3

5

510

170

11

96

1870

171

1

102

171

171

0

5

0

171

1

97

171

172

4

106

688

172

3

8

516

172

1

98

172

173

1

107

173

173

0

8

0

173

1

99

173

174

1

108

174

174

1

9

174

174

0

99

0

175

4

112

700

175

1

10

175

175

3

102

525

176

1

113

176

176

0

10

0

176

1

103

176

177

1

114

177

177

1

11

177

177

0

103

0

178

3

117

534

178

3

14

534

178

0

103

0

179

4

121

716

179

3

17

537

179

1

104

179

180

12

133

2160

180

12

29

2160

180

0

104

0

181

1

134

181

181

1

30

181

181

0

104

0

182

7

141

1274

182

6

36

1092

182

1

105

182

183

3

144

549

183

3

39

549

183

0

105

0

184

3

147

552

184

2

41

368

184

1

106

184

185

4

151

740

185

4

45

740

185

0

106

0

186

1

152

186

186

1

46

186

186

0

106

0

187

3

155

561

187

3

49

561

187

0

106

0

188

1

156

188

188

1

50

188

188

0

106

0

189

1

157

189

189

1

51

189

189

0

106

0

190

3

160

570

190

3

54

570

190

0

106

0

206

1

161

206

206

1

55

206

206

0

106

0

 

161

total

27369

 

55

total

9950

 

106

total

17419

div/2=

80,5

moyenne

170,0

div/2=

27,5

moyenne

180,9

div/2=

53

moyenne

164,3

 

1

151

 

 

1

168

 

 

1

151

 

 

 

 

 

 

 

 

 

 

 

 

 

 

40

162

 

 

13

178

 

 

26

160

 

 

41

162

 

 

14

178

 

 

27

160

 

 

 

 

 

 

15

179

 

 

28

160

 

 

80

168

 

 

 

 

 

 

 

 

 

Méd.

81

168

 

 

27

180

 

 

53

163

 

 

82

169

 

 

28

180

 

 

54

163

 

 

 

 

 

 

29

180

 

 

 

 

 

 

121

179

 

 

 

 

 

 

79

168

 

 

122

180

 

 

41

184

 

 

80

168

 

 

 

 

 

 

42

185

 

 

81

169

 

 

161

206

 

 

43

185

 

 

 

 

 

 

 

 

 

 

 

 

 

 

106

184

 

 

 

 

 

 

55

206

 

 

 

 

 

 

 

Récapitulatif :

 

Ensemble

Masculin

Féminin

Premier quartile

162

178

160

Médiane

168

180

163

3e quartile

179,5

185

168

EIQ

17,5

7

8

EIQ x 1,5

26,25

10,5

12

Valeur frontière inf. théorique

135,75

167,5

148

Valeur inférieure observée

151

168

151

Hors normes

non

non

non

Valeur frontière sup. théorique

205,75

195,5

180

Valeur supérieure observée

206

206

184

Hors normes

oui

oui

oui

Moyenne

170,0

180,9

164,3

 

On voit immédiatement que la largeur de la boite d'ensemble vient du mélange des deux sexes ou l'écart inter quartiles est beaucoup plus faible et du même ordre.

Le fait que la moyenne se trouve à droite de la médiane indique une plus grande dispersion dans les grandes tailles pour les deux sexes, ce que confirment dans les deux cas les dépassements de la valeur frontière supérieure.

Autre exemple : les notes obtenues en février 2005 par les étudiants de fin de premier semestre de techniques quantitatives de la première année de la licence de sociologie. Il y a deux populations : ceux pour lesquels la filière est la sociologie, ceux pour qui c'est l'économie et la gestion. On a les résultats suivants :

Notes

Etudiants de sociologie

 

Etudiants d'économie et gestion

 

Répartition

Cumul

calcul

Répartition

Cumul

calcul

1

7

7

7

 

 

 

2

1

8

2

 

 

 

3

3

11

9

 

 

 

4

2

13

8

1

1

4

5

5

18

25

2

3

10

6

3

21

18

2

5

12

7

5

26

35

2

7

14

8

4

30

32

2

9

16

9

9

39

81

2

11

18

10

3

42

30

6

17

60

11

9

51

99

7

24

77

12

7

58

84

7

31

84

13

10

68

130

0

31

0

14

2

70

28

5

36

70

15

7

77

105

0

36

0

16

3

80

48

6

42

96

17

7

87

119

5

47

85

18

10

97

180

5

52

90

19

 

 

0

1

53

19

Total

97

 

1040

53

 

655

 

 

Moyenne

26,5

Moyenne

12,36

Total/2

48,5

 

10,72

 

 

 

 

 

 

 

 

 

 

 

1

1

 

1

4

 

 

 

 

 

 

 

 

 

24

7

 

13

10

 

 

25

7

 

14

10

 

 

 

 

 

 

 

 

 

48

11

 

26

12

 

 

49

11

 

27

12

 

 

50

11

 

28

12

 

 

 

 

 

 

 

 

 

73

15

 

40

16

 

 

74

15

 

41

16

 

 

 

 

 

 

 

 

 

97

18

 

53

19

 

 

 

 

 

 

 

 

 

 

Socio

Eco-gest

 

 

 

Premier quartile

7

10

 

 

 

Médiane

 

11

12

 

 

 

3e quartile

 

15

16

 

 

 

EIQ

 

8

6

 

 

 

EIQ x 1,5

 

12

9

 

 

 

Valeur frontière inf. théorique

-5

1

 

 

 

Valeur inférieure observée

1

4

 

 

 

Hors normes

 

non

non

 

 

 

Valeur frontière sup. théorique

27

25

 

 

 

Valeur supérieure observée

18

19

 

 

 

Hors normes

 

non

non

 

 

 

Moyenne

 

10,7

12,36

 

 

 

 

On voit sur cet exemple que les notes des étudiants de la filière sociologie sont moins bonnes que celles de la filière économie et gestion, que les notes des sociologues sont plus réparties à gauche tandis que les autres sont plus réparties à droite. On vérifie sur cet exemple que les dispositions vis-à-vis des mathématiques en général ne sont pas les mêmes suivant la filière.

 

Exercice

On trouvera ci-dessous les 50 villes et agglomérations urbaines les plus importantes du 18e au 20e siècle, en milliers. Sources : Atlas de la Révolution française et Insee.

Calculer les composantes de la boite à moustaches, représenter séparément les données des 18e et 19e siècle d'une part, du 20e d'autre part. Les points concernant les villes les plus peuplées ne peuvent être représentés à l'échelle.

Questions d'interprétation : à quoi correspond une "ville moyenne", comparer médiane et moyenne. D'un point de vue historique regarder les constances et les variations, l'effet de la révolution industrielle.

 

 

Vers1750

 

En 1836

 

En 1968

 

En 1999

 

1

Paris

576

Paris

909

Paris

8196

Paris

9644

2

Lyon

114

Lyon

151

Lyon

1074

Marseille

1349

3

Marseille

68

Marseille

146

Marseille

964

Lyon

1348

4

Bordeaux

67

Bordeaux

99

Lille

881

Lille

1000

5

Rouen

67

Rouen

92

Bordeaux

555

Nice

888

6

Lille

63

Toulouse

77

Toulouse

439

Toulouse

761

7

Nantes

57

Nantes

76

Nantes

393

Bordeaux

753

8

Toulouse

45

Lille

72

Nice

392

Nantes

544

9

Strasbourg

40

Strasbourg

58

Rouen

369

Toulon

519

10

Orléans

37

Amiens

46

Toulon

340

Douai

518

11

Caen

35

Metz

43

Strasbourg

334

Strasbourg

427

12

Montpellier

35

Nimes

43

Grenoble

332

Grenoble

419

13

Amiens

33

Caen

42

Saint-Etienne

331

Rouen

389

14

Nimes

30

Saint-Etienne

42

Lens

325

Valenciennes

357

15

Reims

30

Orléans

40

Nancy

257

Nancy

331

16

Rennes

30

Reims

38

Le Havre

247

Metz

322

17

Versailles

29

Angers

36

Valenciennes

223

Tours

297

18

Metz

26

Montpellier

36

GrCaAntibes

213

Saint-Etienne

291

19

Toulon

26

Rennes

36

Douai

205

Montpellier

287

20

Aix

25

Toulon

35

Clermont-F

204

Rennes

272

21

Bourges

25

Avignon

32

Tours

201

Orléans

263

22

Clermont-F

24

Clermont-F

32

Mulhouse

199

Bethune

259

23

Grenoble

24

Nancy

31

Rennes

192

Clermont-F

258

24

Angers

23

Besançon

30

Dijon

183

Le Havre

258

25

Arles

23

Brest

30

Montpellier

171

Avignon

253

26

Avignon

22

Limoges

30

Brest

169

Dijon

236

27

Dijon

22

Grenoble

29

Orléans

167

Mulhouse

234

28

Nancy

22

Versailles

29

Reims

167

Angers

226

29

Tours

22

Tours

27

Le Mans

166

Reims

215

30

Besançon

21

Boulogne

26

Metz

166

Brest

210

31

Douai

21

Le Havre

26

Angers

163

Caen

199

32

Brest

20

Troyes

26

Caen

152

Le Mans

194

33

Dieppe

18

Aix

25

Limoges

148

Dunkerque

191

34

Limoges

18

Bourges

25

Bethune

144

Pau

181

35

Poitiers

18

Dijon

25

Dunkerque

143

Bayonne

178

36

Troyes

18

Dunkerque

24

Avignon

139

Limoges

173

37

Arras

17

Montauban

24

Amiens

136

Perpignan

162

38

Saint-Omer

17

Arras

23

Thionville

136

Amiens

160

39

La Rochelle

16

Le Mans

23

Hagondange

134

Nimes

148

40

Le Mans

16

Poitiers

22

Bruay en A.

126

Annecy

136

41

Montauban

16

Saint-Quentin

21

Denain

126

Saint-Nazaire

136

42

Valenciennes

16

Arles

20

Nimes

124

Besançon

134

43

Abbeville

15

Roubaix

20

Besançon

116

Thionville

130

44

Chalons

15

Saint-Malo

20

Montbeliard

114

Troyes

128

45

Dunkerque

15

Tourcoing

20

Troyes

114

Poitiers

119

46

Saint-Malo

15

Valenciennes

20

Bayonne

110

Valence

117

47

Le Havre

14

Cherbourg

19

Pau

110

La Rochelle

116

48

Béziers

13

Douai

19

Saint-Nazaire

110

Lorient

116

49

Alençon

12

Saint-Omer

19

Perpignan

106

Chambéry

113

50

Beauvais

12

Abbeville

18

Lorient

98

Montbeliard

113

 

Somme

1983

 

2852

 

20604

 

26072

 

Moyenne

39,7

 

57,0

 

412,1

 

521,4

 

 

 

haut de page

Chapitre 2 : écart-type

 

Avec la médiane nous avons un repère de la valeur centrale d'une distribution, avec la position des quartiles et leur écart, nous avons un indice de la manière dont les valeurs se répartissent autour de cette valeur centrale. Nous allons maintenant reprendre ces mêmes problèmes avec d'autres indicateurs non centrés sur la position dans la distribution comme la médiane mais sur l'écart à la moyenne.

La moyenne est bien connue et est un repère de valeur centrale largement utilisé. Prenons par exemple 5 notes et calculons leur moyenne :

Individu

Note

1

13

2

12

3

11

4

8

5

6

Somme

50

Moyenne

10

Le calcul est habituel et consiste à diviser la somme des notes par le nombre d'individus.

Examinons maintenant l'écart que chaque individu a avec la moyenne :

Individu

Note

Ecart

1

13

+3

2

12

+2

3

11

+1

4

8

-2

5

6

-4

Somme

50

0

Moyenne

10

 

Les écarts se répartissent autour de la moyenne et leur somme algébrique est nulle. Un premier repère de la dispersion est le plus fort écart en valeur absolue, celui de l'individu 5 à -4, ce critère de l'écart maximum donne déjà une information.

Pour calculer un écart "moyen", une première solution consiste à prendre la valeur absolue des écarts et à en faire la moyenne :

Individu

Note

Ecart

Valeur absolue des écarts

1

13

+3

3

2

12

+2

2

3

11

+1

1

4

8

-2

2

5

6

-4

4

Somme

50

0

12

Moyenne

10

 

2,4

La moyenne des valeurs absolue des écarts est de 2,4 : l'unité est la même que pour chaque note ou la moyenne. Cet indicateur a un défaut, il ne met pas en valeur les notes extrèmes. Un écart de 1 au centre apporte autant à l'écart moyen qu'un point entre 3 et 4 alors que l'on souhaite avoir, ce que nous apportait l'écart maximum, une information sur les cas extrêmes.

Pour donner plus d'importance aux écarts extrêmes, on utilise la stratégie qui consiste à élever au carré les écarts bruts (positifs ou négatifs). On a  alors :

Individu

Note

Ecart

Ecarts au carré

1

13

+3

 9

2

12

+2

 4

3

11

+1

 1

4

8

-2

 4

5

6

-4

16

Somme

50

0

34

Moyenne

10

 

6,8

On voit ainsi que l'écart maximum contribue pour 16/34 soit presque la moitié au total des écarts (alors que dans le cas de la somme des valeurs absolue, il ne contribuait que pour 4/12 soit pour un tiers). Donc la somme, et la moyenne qui est en est issue répond bien à notre objectif de mettre en relief les écarts extrêmes. Mais quelle est l'unité de cette moyenne qui est la moyenne d'une somme de carré.

Elle porte le nom de Variance et, étant la moyenne d'une somme de carré est exploitée en en calculant la racine carrée qui nous permet de revenir à l'unité de base exprimant une note, le point.

La racine carrée de 6,8 est de 2,6, écart de note appelé écart-type. Cette valeur est un peu plus forte que la moyenne des écarts absolus, mais du même ordre de grandeur. L'écart type est de 2,6 points autour de la moyenne. On voit dans le cas présent que si l'on se sert de cet écart-type pour déterminer une fourchette de variation autour de la moyenne, on a une limite supérieur à la moyenne plus un écart-type : 10 + 2,6 = 12,6 et une limite inférieure à la moyenne moins un écart-type, soit 10 – 2,6 = 7,4. Si l'on compare avec les 5 individus, on voit que seuls les individus 1 et 5 sont en dehors de la moyenne plus ou moins un écart-type (ou inversement que 3 individus sur 5 sont dans cet intervalle).

Cette situation est tout à fait générale : environ les deux tiers d'une distribution quelconque se trouve compris entre la moyenne moins un écart-type et la moyenne plus un écart-type. On peut même aller plus loin et noter dès à présent qu'environ 95% d'une distribution quelconque se trouve entre la moyenne moins deux écarts-types et la moyenne plus deux écarts-types.

De ce fait l'écart-type devient un instrument de recherche fréquemment utilisé, son défaut, mais aussi sa qualité, est qu'il est sensible aux valeurs extrêmes, ce qui fait qu'on lui préfère quelquefois l'indice dérivé de la médiane, l'écart inter-quartiles.

Propriétés

1) modifions les notes pour doubler les écarts :

Individu

Note

Ecart

Ecarts au carré

1

16

+6

36

2

14

+4

16

3

12

+2

 4

4

 6

-4

 8

5

 2

-8

64

Somme

50

0

136

Moyenne

10

 

27,2

La variance est passée de 6,8 à 27,2 (et à donc été multipliée par 4)

L'écart-type est passé de 2,6 à 5,2 et est donc multiplié par 2. Le facteur multiplicatif des écarts se retrouve dans l'écart-type.

2) augmentons toutes les notes d'origine de 2 points :

Individu

Note

Ecart

Ecarts au carré

1

15

+3

 9

2

14

+2

 4

3

13

+1

 1

4

10

-2

 4

5

8

-4

16

Somme

60

0

34

Moyenne

12

 

6,8

C'est la moyenne qui change, pas les écarts, ni la variance, ni l'écart-type

Un simple décalage des notes ne change pas la distribution autour de la moyenne.

Procédure de calcul

La définition de l'écart-type est faite à partir des carrés des écarts à la moyenne. La moyenne de ces carrés donne la variance dont la racine carrée donne l'écart-type.

Pour simplifier les calculs, résumons en une seule ligne l'ensemble des calculs à partir de chaque note et de la moyenne.

Pour chaque note du tableau d'origine, on calcule l'écart à la moyenne, on l'élève au carré.

Pour la première note on a : (13 – 10)²

Développons : le carré d'une différence est égal à la somme des carrés moins le double produit (a – b = a² + b² - 2ab

(13² + 10²  - 2 x 13 x 10 )  : développons le produit :

13² est le carré de la note

10² est le carré de la moyenne

2 x 13 x 10 est deux fois le produit de la note par la moyenne.

La somme de tous les écarts est :

13² + 10² - 2 x 13 x 10

+          12² + 10² - 2 x 12 x 10

+          11² + 10² - 2 x 11 x 10

+            8² + 10² - 2 x   8 x 10

+            6² + 10² - 2 x   6 x 10

Total : 13²+12²+11²+8²+6² Somme des carrés

+          10² x 5 : le carré de la moyenne multiplié par l'effectif.

-           les doubles produits de la moyenne par la note soit :

             2 x 10 (13 + 12 + 11 + 8 + 6) la parenthèse correspond à la somme des notes.  2 x 10 x Somme des notes.

Pour avoir la variance, il faut prendre la moyenne de la somme précédente c'est-à-dire diviser chaque élément de la somme par 5

La somme des carrés est divisé par 5, c'est ce qu'on appelle la moyenne des carrés (en abrégé MC)

10² x 5 divisé par 5 donne le carré de la moyenne (CM)

Les doubles produits divisé par 5 donnent la somme 2 x 10 x Somme des notes / 5 or somme des notes / 5 est égal à la moyenne donc les doubles produits correspondent à – 2 x 10 x 10 soit – 2 fois le carré de la moyenne.

Résumons : la variance est égale à Moyenne des carrés + Carré de la moyenne – deux fois le carré de la moyenne. Au total on a :

Variance = Moyenne des carrés – Carré de la moyenne ou en abrégé :

Variance = MC – CM

Pour effectuer les calculs sans erreur on utilise la forme d'un tableau où il sera inutile de calculer les écarts à la moyenne mais les carré des nombre, faire leur somme, leur moyenne et soustraire à la moyenne des carrés le carré de la moyenne.

Individu

Note

Note au carré

1

13

 169

2

12

 144

3

11

 121

4

8

 64

5

6

36

Somme

50

534

Moyenne

10

106,8

On ajoute ensuite une première ligne de calcul qui correspond au carré de la moyenne et on met le résultat immédiatement sous la moyenne des carrés. On ajoute une ligne supplémentaire qui donne le résultat de la soustraction Moyenne des carrés moins carré de la moyenne ici 106,8 – 100 = 6,8 qui correspond à la variance. Enfin une dernière ligne, prenant la racine carrée de la variance donne l'écart-type.

Individu

Note

Note au carré

1

13

 169

2

12

 144

3

11

 121

4

  8

  64

5

  6

  36

Somme

50

534

Moyenne

10

106,8

CarréMoyenne

 

100

Variance

 

    6,8

Ecart-type

 

    2,6

Cette disposition standard, qui s'inspire des calculs sur un tableur évite les erreurs numériques.

Le formulaire à retenir est :

Variance = MC – CM

Ecart-type = racine carré (variance)

La variance étant toujours positive, il y a peu de risque d'erreur du fait d'une permutation fautive entre MC et CM : si l'on inverse par erreur le résultat est négatif et l'erreur apparait puisqu'on ne peut pas en prendre la racine carrée. Pour les calculs intermédiaires, il faut prendre suffisamment de chiffres significatifs.

Exemples

1) Taille des étudiants : ensemble puis par sexe.

En principe on affecte une ligne par étudiant mais pour éviter d'avoir beaucoup de lignes identiques, on ajoute une colonne qui pour une taille donnée donne le nombre d'individus qui ont cette taille (n=). Pour calculer la somme des tailles, par exemple pour la taille de l'ensemble correspondant à 155 cm, on multiplie par 6 la taille de 155. Pour le calcul du carré, on prend le carré 155²= 24025 et on multiplie par l'effectif correspondant soit  6 x 24025 = 144150. Pour la moyenne des taille et la moyenne des carrés des tailles on divise (pour l'ensemble) par l'effectif d'ensemble de 161 (somme des effectifs de la colonne n=)

Taille des étudiants ensemble puis par sexe Oct 04

 

 

 

 

 

 

 

 

Ens

n=

taille

taille²

Masc

n=

taille

taille²

Fémi

n

taille

taille²

151

1

151

22801

151

0

0

0

151

1

151

22801

152

1

152

23104

152

0

0

0

152

1

152

23104

155

6

930

144150

155

0

0

0

155

6

930

144150

157

1

157

24649

157

0

0

0

157

1

157

24649

158

4

632

99856

158

0

0

0

158

4

632

99856

159

3

477

75843

159

0

0

0

159

3

477

75843

160

15

2400

384000

160

0

0

0

160

15

2400

384000

161

3

483

77763

161

0

0

0

161

3

483

77763

162

10

1620

262440

162

0

0

0

162

10

1620

262440

163

11

1793

292259

163

0

0

0

163

11

1793

292259

164

6

984

161376

164

0

0

0

164

6

984

161376

165

7

1155

190575

165

0

0

0

165

7

1155

190575

166

2

332

55112

166

0

0

0

166

2

332

55112

167

4

668

111556

167

0

0

0

167

4

668

111556

168

7

1176

197568

168

1

168

28224

168

6

1008

169344

169

6

1014

171366

169

1

169

28561

169

5

845

142805

170

14

2380

404600

170

3

510

86700

170

11

1870

317900

171

1

171

29241

171

0

0

0

171

1

171

29241

172

4

688

118336

172

3

516

88752

172

1

172

29584

173

1

173

29929

173

0

0

0

173

1

173

29929

174

1

174

30276

174

1

174

30276

174

0

0

0

175

4

700

122500

175

1

175

30625

175

3

525

91875

176

1

176

30976

176

0

0

0

176

1

176

30976

177

1

177

31329

177

1

177

31329

177

0

0

0

178

3

534

95052

178

3

534

95052

178

0

0

0

179

4

716

128164

179

3

537

96123

179

1

179

32041

180

12

2160

388800

180

12

2160

388800

180

0

0

0

181

1

181

32761

181

1

181

32761

181

0

0

0

182

7

1274

231868

182

6

1092

198744

182

1

182

33124

183

3

549

100467

183

3

549

100467

183

0

0

0

184

3

552

101568

184

2

368

67712

184

1

184

33856

185

4

740

136900

185

4

740

136900

185

0

0

0

186

1

186

34596

186

1

186

34596

186

0

0

0

187

3

561

104907

187

3

561

104907

187

0

0

0

188

1

188

35344

188

1

188

35344

188

0

0

0

189

1

189

35721

189

1

189

35721

189

0

0

0

190

3

570

108300

190

3

570

108300

190

0

0

0

206

1

206

42436

206

1

206

42436

206

0

0

0

Total

161

27369

4668489

 

55

9950

1802330

 

106

17419

2866159

Moyenne

169,994

28996,83

 

 

180,909

32769,64

 

 

164,330

27039,24

CarréMoy

 

28897,89

 

 

 

32728,10

 

 

 

27004,41

Variance

 

98,94

 

 

 

41,54

 

 

 

34,82

ET

 

 

9,9

 

 

 

6,4

 

 

 

5,9

Ensemble

 

 

Masculin

 

 

Féminin

 

 

Méd

168

Moy

170,0

Méd

180

Moy

180,9

Méd

163

Moy

164,3

Q1

162

M-ET

160,0

Q1

178

M-ET

174,5

Q1

160

M-ET

158,4

Q3

180

M+ET

179,9

Q3

185

M+ET

187,4

Q3

168

M+ET

170,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Rappel 2003

 

 

Rappel 2003

 

 

Rappel 2003

 

 

Total

94

 

 

Total

33

 

 

Total

61

 

 

Moy

170,8

 

 

Moy

180,8

 

 

Moy

165,3

 

 

ET

9,3

 

 

ET

6

 

 

ET

5,6

 

On a mis un rappel de la médiane et des quartiles calculés au chapitre précédent et l'on voit que ces différents indicateurs donnent des résultats comparables. On vérifiera que dans l'intervalle 160 cm 180 cm qui correspond en arrondissant à la moyenne plus ou moins un écart-type, on a plus des 2/3 de la population. A plus ou moins deux écarts-types on a pratiquement toute la population.

2) Durée de grossesse

On sait que la durée de la grossesse est de 9 mois soit, du fait des longueurs inégales des mois de 273 à 275 jours. En prenant la littérature spécialisée (par exemple E. Papiernik, "La durée de la grossesse" dans E. Papiernik, D. Cabrol et J.-Cl. Pons, Obstétrique, Flammarion, 1995), on s'aperçoit que cette durée est assez difficile à observer car un écart de 10 jours existe entre les dernière règles et la fécondation et que la date des dernière règles est souvent imprécise. De même les cas de prématurités faussent les résultats mais les test fait à l'occasion d'une échographie (en mesurant la largeur du crâne) permettent de lever beaucoup d'hésitation.

Il ressort de l'article de Papiernik que la taille des femmes a une influence sur la durée de la grossesse : aux grandes tailles correspondent des durées plus grandes, de même l'âge de la mère a une influence : "l'effet de l'âge se marque aux extrémités de la distribution des durées de grossesse, avec une augmentation progressive de la prématurité et une diminution des grossesses à terme dépassé" (p.168).

L'auteur a comparé les durées de grossesse de femmes nées en Martinique et accouchant à Fort-de-France avec des femmes accouchant en région parisienne et nées en France européenne, dans les Antilles ou en Afrique sub-saharienne. "Il existe une différence nette et statistiquement significative de trois jours de durée de grossesse entre les femmes nées en Martinique et celle nées en Europe. La durée de grossesse des femmens nées aux Antilles et accouchant à Paris est égale à la durée de grossesse observée en Martinique" (p.170). L'effet de catégorie sociale n'apporte pas de modifications.

Le graphique ci-joint permet de se rendre compte visuellement que les durées de grossesse se situent entre 37 semaines (soit 37 x 7 = 259 jours) et 42 semaines (=294 jours). La moyenne pour les européennes est de 277 jours avec un écart-type de 10 jours, ce qui signifie que les deux tiers des grossesses durent entre 267 et 287 jours. Pour les Africaines la durée est de 273 jours plus ou moins un écart- type de 9,5 jours et pour les martiniquaises ou guadeloupéennes de 274 jours plus ou moins 9,2 jours. Du fait d'un écart-type proche de 10 jours, seule une analyse fine permet de différencier les durées moyennes de grossesses différentes.

Cet exemple permet de donner de l'épaisseur au concept d'écart-type : indépendamment de sa définition, il est à envisager comme l'écart qui de part et d'autre de la moyenne regroupe environ les deux-tiers de la population. C'est donc un écart assez habituel qui correspond à un graphique dit "en cloche" ou une dispersion non négligeable se fait autour de la moyenne. Avec un écart-type de 10 jours pour la durée de grossesse, l'exceptionnel (- de 5% de la population) arrive au-delà de deux écarts-types, soit 3 semaines.

 

Haut de page