- Exercices sur la constitution d’un échantillon représentatif (chapitre 7)

Exercice 1 :

« Une agglomération de 500 000 habitants prévoit de réaliser une enquête sur les pratiques culturelles des habitants. Certaines petites communes de 2000 et 5000 habitants n’acceptent de voter le financement de l’enquête qu’à condition d’obtenir des résultats crédibles (pour les tris à plat de leur commune). Quel échantillon proposer et pourquoi ? »

Corrigé :

Si l’on retient un échantillon de 1500 individus pour les 500 000 habitants de l’agglomération, une simple règle de trois nous indique qu’une commune de 5000 habitants sera représentée par un sous-échantillon de 15 personnes et une commune de 2000 habitants par un sous-échantillon de 6 personnes ! On ne pourra donc absolument rien dire des pratiques culturelles de ces communes.

Si l’on veut fournir des résultats crédibles pour ces communes, il faut surreprésenter leur population dans l’échantillon et faire un échantillon stratifié, c’est-à-dire réserver d’office un effectif suffisant pour les communes trop petites. La table des marges d’erreur indique qu’avec un effectif de 100 individus on peut obtenir des résultats avec une approximation grossière pour les tris à plat ; ils deviennent moins approximatifs avec 200 individus.

Attention cependant avec l’échantillon stratifié : d’une part, parce que l’on réduit la taille du sous-échantillon des grandes communes, dont les résultats du coup deviennent moins solides, et d’autre part parce que l’on ne peut de toutes façons guère effectuer de croisement pour une petite commune, mais seulement des tris à plat (voir le problème posé à l’exercice 4).

Exercice 2 :

« Un étudiant trouve scandaleux de choisir les enquêtés au hasard pour construire scientifiquement un échantillon afin d’étudier la population d’une ville : en effet certains quartiers seraient mal représentés et d’autres mieux. Que lui répondre ? »

Corrigé :

Cette question est quelquefois posée par les étudiants, car certains aspects de la procédure d’échantillonnage sont contre-intuitifs. Il suffit de répondre que si l’échantillonnage est élaboré convenablement, et si le pourcentage de population du quartier est suffisant (cf. exercice 1), la procédure aléatoire est le plus sûr moyen d’obtenir une représentation correcte du quartier. En effet le hasard, bien loin d’être subjectif, est une construction soumise à des règles extérieures objectives, qui conduisent à des résultats imparfaits, mais dont les marges d’erreur peuvent être calculées.

Exercice 3 :

« Comment construire un plan d’échantillonnage dans le cas d’étude des adhérents d’une association, de la clientèle d’un commerce, du public d’un équipement, des entrées et sorties d’un magasin ou d’un bureau ? »

Corrigé :

On a l’exemple type d’un échantillon construit à partir d’une organisation, et tout le problème est de constituer une liste de base homogène relative à cette organisation pour y sélectionner des individus ayant les mêmes chances de figurer dans l’échantillon.

Dans le cas de l’association, de la clientèle d’un commerce ou du public d’un équipement, il est probable que l’organisation possède déjà cette liste : fichier des adhérents, des clients, ou billetterie. Il suffira alors de sélectionner à l’intérieur de cette liste.

Dans le cas des entrées et sorties de magasin ou de bureau, il faut considérer un peu abstraitement que la liste de base est constituée par ces entrées et ces sorties au sein d’une temporalité qui n’est pas homogène, car constituée d’une succession d’heures, de jours, de semaines, voire de saisons avec des rythmes et des types de fréquentation très différents. Il faudra alors tenir compte de ces variables pour les neutraliser dans la construction de l’échantillon, et par exemple, sélectionner aléatoirement des plages d’interviews en tenant compte des moments différents de la journée, de la semaine, du mois, etc.

 Exercice 4 :

« A partir de résultats en pourcentage de tris à plat, indiquer les marges d’erreur et apprécier leur crédibilité. Puis faire le même exercice à partir des résultats d’un tableau. »

Corrigé :

Prenons des exemples dans les données de l’enquête « Valeurs » de 2008 pour la France.

1)      D’abord les tris à plat :

Effectif Pourcentage
Appartenance à une organisation environnementale

94

3,0%

D’accord ou tout à fait d’accord pour donner une partie de son revenu si l’on est sûr que cela servira à la protection de l’environnement

1557

50,7%

Total

3071

100%

 Pour l’appartenance à une organisation environnementale, en utilisant la table du chapitre 7, avec un effectif total de l’échantillon (n) de plus de 2000, et un taux (p) de 3%, on constate que les marges d’erreurs ne sont certainement pas supérieures à + ou – 0,8%, c’est-à-dire que le pourcentage est compris entre 2,2% et 3,8%. Cette fourchette est garantie avec 95% de chances.

Pour la propension au don environnemental, avec près de 51% (p), sur le même effectif (n), la marge d’erreur est de + ou – 2,25, soit un taux compris entre 48,75% et 53,25%, toujours avec la même probabilité de 95 chances 100.

Dans ces deux cas, les marges d’erreurs et leur probabilité sont acceptables : elles donnent une assez bonne idée du taux d’appartenance aux organisations environnementales et encore plus de la propension au don des Français.

2)      Ensuite les chiffres à l’intérieur d’un tableau :

Age

18-29   ans

30-44   ans

45-59   ans

60 ans  et +

Total

Appartenance environnementale

19

23

26

26

94

Pourcentage

20%

24%

28%

28%

100%

Propension au don

353

439

393

372

1 557

Pourcentage

23%

28%

25%

24%

100%

Si l’on veut  connaître les marges d’erreur des données à l’intérieur d’un tableau croisé, il faut penser à bien définir l’entité n à prendre en compte dans la table. Par exemple pour l’appartenance environnementale, la taille n de l’échantillon est de 94 (et non plus de 3071), et donc les 20% de 18-29 ans par exemple ont une marge d’erreur de + ou – 8%, ce qui rend le chiffre peu fiable et quasi inutilisable. En revanche, pour les 23% de 18-29 ans qui sont prêts à donner de leur revenu, la taille n de l’échantillon est de 1557, et donc la marge d’erreur sera de + ou – 2,3%, ce qui rend le chiffre tout à fait crédible.

Exercice 5

« Un groupe d’étudiants doit réaliser une enquête par quotas, auprès de la population adulte du département, sur l’opinion à l’égard de la famille. L’un d’entre eux affirme qu’il faut absolument intégrer la situation familiale dans les quotas pour que l’échantillon soit représentatif, compte tenu du thème choisi. Un autre prétend au contraire que ce n’est pas nécessaire. Lequel a raison et pourquoi ? »

Corrigé :

La question est un peu délicate. Si l’on considère comme expliqué dans le chapitre 7 que l’échantillonnage par quotas n’est qu’une procédure plus pratique et moins coûteuse pour l’obtention d’un échantillon aléatoire, il n’est absolument pas nécessaire d’intégrer le critère familial dans l’élaboration des quotas, puisque l’échantillon aléatoire final reflètera nécessairement les caractéristiques de la population globale, et donc aussi la situation familiale.

Toutefois, il est permis de s’interroger sur la mise en œuvre elle-même de la méthode par quotas, qui peut induire des biais particuliers : les enquêteurs tendent à sous-représenter les célibataires par exemple du fait de leur absence plus fréquente du domicile, ou à éviter les quartiers les plus populaires qui comptent aussi le plus de familles nombreuses… Il peut alors être judicieux d’intégrer la situation familiale dans les quotas.

Exercice 6

« Proposer un plan d’échantillonnage par quotas croisant le sexe et l’âge pour la population résidant en France. Vous chercherez sur le site internet de l’INSEE l’information statistique nécessaire. Le plan sera calculé d’abord pour un échantillon de 1000 individus, puis de 1340. »

Corrigé :

Le plan d’échantillonnage pour 1000 individus sera établi à partir du tableau de base suivant de l’INSEE pour la France entière au recensement de 2008 :

 

15 à 24 ans

25 à 54 ans

55 ans ou +

Ensemble

Hommes

4094098

12731893

8080548

24906539

Femmes

3986730

13096067

10147514

27230311

Total

8080828

25827960

18228062

52136850

 Pour établir un échantillon par quotas croisés de 1000 individus, il faut remplir toutes les cases du tableau sur la base générale de 1000 dans la dernière case en bas à droite. Par exemple  les enquêteurs devront interviewer 79 hommes et 76 femmes de 15 à 24 ans.

15 à 24 ans

25 à 54 ans

55 ans ou +

Ensemble

Hommes

79

244

155

478

Femmes

76

251

195

522

Total

155

495

350

1000

Pour établir le même échantillon avec 1500 individus, il suffit de faire la même opération avec 1500 dans la case en bas à droite du tableau.

15 à 24 ans

25 à 54 ans

55 ans ou +

Ensemble

Hommes

118

366

232

717

Femmes

115

377

292

783

Total

232

743

524

1500

Jean-Paul Bozonnet et Pierre Bréchon