- Exercices sur le codage et l’exploitation des données (chapitre 9)

Le nombre d’ordinateurs dans un foyer constitue une variable quantitative. On recueille généralement cette information sous la forme d’une quantité numérique : tel foyer est équipé d’un ordinateur, tel autre en a deux, tel autre n’en a aucun….

Cette variable quantitative peut tout à fait être transformée en une variable qualitative. Pour synthétiser l’information, on peut par exemple choisir de dénombrer les ménages disposant d’un ordinateur ou plus, et ceux qui n’en ont aucun. On isolera ainsi deux grandes catégories, les possesseurs et les non-possesseurs, ce qui constitue une information qualitative. Les données sur l’équipement informatique des ménages rendues publiques par l’INSEE sont présentées de cette manière : selon l’enquête Technologies de l’information et de la communication, 67.1 % des ménages disposent en 2010 d’un micro-ordinateur à la maison (http://www.insee.fr/fr/themes/document.asp?ref_id=ip1340).

Précisons qu’un ménage désigne un ensemble de personnes partageant la même habitation principale, tandis qu’un foyer regroupe des personnes inscrites sur une même déclaration de revenus. Il peut donc y avoir plusieurs foyers dans un même ménage.

La région de résidence d’un individu est en revanche une variable qualitative. Chaque région représente ici une caractéristique singulière, à la manière d’un nom, d’une couleur ou du sexe.

Un bon moyen pour savoir si une variable est qualitative ou quantitative est d’essayer d’en ordonner les valeurs ou les catégories, de les classer sur une échelle numérique. Il est par exemple possible d’ordonner le nombre d’ordinateurs possédés par un ensemble de ménages : un ménage qui dispose de deux ordinateurs dispose de deux fois plus d’ordinateurs qu’un ménage qui dispose d’un ordinateur. Mais il n’est pas possible d’ordonner les régions de résidence des individus en tant que telles.

La superficie d’un logement est une variable quantitative, au même titre que le nombre d’ordinateurs possédés par un ménage. On peut avantageusement s’appuyer, lorsqu’on recode une variable de ce type, sur les conventions juridiques qui s’appliquent au fait social analysé. Le chercheur gagnera par exemple ici à partir des normes minimales d’habitabilité et à distinguer des « T1″ lorsque la superficie du logement est inférieure à 30 m², des « T2″ entre 30 et moins de 46 m²… et des « T7″ quand la superficie du logement excède 117 m².

La proximité déclarée avec un parti politique et la profession de la personne de référence du ménage constituent toutes deux des variables qualitatives. Là aussi, le chercheur a tout intérêt à créer ou à recoder la variable en reprenant des catégories qui sont stables sur le plan institutionnel.

Par exemple, le recodage de la profession déclarée par chaque individu se fera selon la nomenclature des professions et catégories socioprofessionnelles de l’INSEE (http://www.insee.fr/fr/methodes/default.asp?page=nomenclatures/pcs.htm). Le chercheur devra toutefois définir le niveau de détail de la variable de « profession » qu’il veut créer, en choisissant l’un des quatre niveaux d’agrégation proposés par cette nomenclature. Ce choix dépend de la problématique de recherche (s’il s’agit d’une étude centrée sur le travail, on sélectionnera plutôt un niveau détaillé ; dans le cas contraire, on optera pour le niveau 1 en huit catégories), mais aussi du nombre d’individus (plus il y a d’individus dans la base de données, plus le chercheur peut s’autoriser une analyse précise des professions).

Il existe plusieurs manières d’enregistrer la proximité partisane. Dans les sondages d’opinion, on pose généralement la question suivante : « De quel parti ou formation politique vous sentez-vous le plus proche ou le moins éloigné ?« . Mais on peut également faire le choix d’un indicateur plus objectif, plus ancré dans un comportement politique réel. Dans l’enquête Valeurs, on demande ainsi aux répondants : « S’il y avait demain une élection nationale, pour quel parti voteriez-vous ?« .

Dans tous les cas, la variable de proximité partisane implique de disposer d’une liste de partis. Relativement solides d’un point de vue institutionnel, les listes relatives aux faits sociopolitiques sont toutefois moins stables dans le temps que les listes relatives aux faits administratifs ou socioéconomiques. Ce qui peut limiter les possibilités de comparaison entre deux enquêtes menées avec le même questionnaire mais à des périodes différentes. Voici par exemple la liste des partis proposés pour la variable de proximité partisane dans l’enquête Valeurs en 2008 :

1 – Extrême gauche (LCR, LO, PT)
2 – Parti communiste (PCF)
3 – Parti socialiste (PS)
4 – Autres partis de gauche (PRG, MRC)
5 – Les verts
6 – Autres écologistes
7 – Modem (Mouvement Démocrate)
8 – Nouveau Centre
9 – Chasse, pêche, nature et tradition (CPNT)
10 – Union pour un mouvement populaire (UMP)
11 – Mouvement pour la France (MPF)
12 – Extrême droite (Front national, MNR)

Et en 1990 :

1 – Extrême gauche
2 – Parti communiste
3 – Parti socialiste
4 – Mouvement des Radicaux de Gauche (MRG)
5 – Parti Radical Valoisien (UDF)
6 – Centre des Démocrates Sociaux (UDF, CDS)
7 – Parti Républicain (UDF, RPR)
8 – Rassemblement pour la République (RPR)
9 – Front National
10 – Mouvement écologique

L’âge de fin d’études est une variable quantitative, puisqu’elle est enregistrée sous la forme d’une série en principe continue de nombres. Il peut toutefois être utile de transformer cette variable en une variable qualitative. Imaginons que nous disposions d’une base de données documentant l’âge de fin d’études d’un échantillon représentatif de jeunes issus de la génération dite « génération Y » (nés en 1981 et après). Imaginons encore que nous intéressions au niveau d’instruction post-baccalauréat de cette génération. On isolera alors deux catégories de jeunes  : ceux qui ont terminé leurs études avant l’âge moyen d’obtention de la licence (de l’ordre de 23 ans aujourd’hui) ; ceux qui terminé leurs études après.

Bien sûr, si le fichier de données comporte aussi des individus d’autres générations, cette opération n’est pas pertinente. Coder l’âge de fin d’études des « baby-boomers » (personnes nées entre 1946 et 1959) en fonction de l’âge moyen d’obtention de la licence dans la deuxième moitié des années 2000 ne fait pas vraiment sens. Il est plus intéressant alors de comparer l’âge moyen de fin d’études entre chacune des générations afin de mettre en évidence une élévation du niveau de scolarité.

Frédéric Gonthier