Aide TrideuxOri Version 5.1 Septembre 2011 |
Pour savoir pourquoi Trideux a été créé regarder Objet du logiciel
Pour une première exploitation, voir Fichier de démarrage
Si vos données ne sont pas encore entrées en machine, voir Saisie
Si vos données existent déjà en machine voir Import
1) Objet du logiciel et raisons de sa création
2) Code maximum
3) Fichier Pos
4) Tri à plat
5) Recodages
6)
Saisie
7)
Importation de données
8)
Tris croisés
9)
Graphique triangulaire
Analyse factorielle
10)
Analyse factorielle : création des modalités
11)
Analyse factorielle : modification des modalités
12)
Profil des modalités
13)
Calcul des facteurs
14)
Graphique factoriel
15) Analyse factorielle d'un tableau croisé quelconque
Régression
16) Régression : création des modalités
17)
Régression : modification des modalités
18)
Régression sur données d'enquête
19) Régression sur données numériques
20)
Variable(s) d'intérêt
Divers
21) Question à plusieurs modalités
22) Format Ascii
23)
Tri2.ini
24)
Assistance technique
25)
Nom générique
26)
Fichier de démarrage
27)
Profil d'une modalité
28) Programmes utilitaires
Trideux traitement des mots
29)
Généralités et préparation d'un fichier texte
30)
Découpage en mots du texte
31)
Création du Tableau lexical des questions
32)
Agrégation manuelle des lignes
33) Editeur/affichage
TrideuxOri : Version 5.1 septembre 2011
Philippe Cibois
Laboratoire Printemps - Université de
Versailles - St.-Quentin en Yvelines
(phcibois@wanadoo.fr)
L'objet de ce logiciel est de fournir aux chercheurs, enseignants, étudiants et à toute personne en ayant l'utilisation, un outil simple d'usage et gratuit pour dépouiller des enquêtes en utilisant des techniques simples comme les tris croisés ou plus complexes comme l'analyse factorielle, des méthodes post-factorielles ou la régression sur données d'enquête.
Les données peuvent exister préalablement a l'utilisation de Tri-deux : le cas le plus habituel est constitué de données individuelles où à chaque ligne correspond un individu statistique et à chaque position une réponse de cet individu à une question. Ces données peuvent avoir été saisies avec Excel (et sauvegardées en format CSV) ou venir d'autres logiciels en Ascii Les données peuvent être entrées dans Trideux : il faudra préalablement à cette entrée décrire la forme que prendront ces données.
Pour un chercheur spécialisé dans la méthodologie sociologique, faire un logiciel qui permette de tester les méthodes en vraie grandeur est une nécessité. Une nouvelle méthode qui n'est pas testée dans des conditions réelles est difficilement acceptée par la communauté des chercheurs. De plus, si une méthode n'est pas proposée dans un logiciel facile d'utilisation, elle ne sera pas utilisée.
C'est pour ces raisons que j'ai développé Trideux : d'abord pour répondre aux besoins des utilisateurs du Laboratoire d'informatique pour les sciences humaines du CNRS dans les années 80 puis ensuite sur micro-ordinateur. Les nouvelles méthodes qui sont testées dans Trideux sont les suivantes :
- Visualisation en surface des tableaux croisés
- Etude de la force de la liaison entre questions et entre modalités (PEM : Pourcentage de l'Ecart Maximum)
- Définition du concept de méthodes "Post-factorielles" : visualisation du PEM sur un graphique factoriel, utilisation pour un tri factoriel des questions.
- Utilisation des composantes principales sur des écarts à l'indépendance
- Analyse tabulaire en parallèle avec la régression sur données d'enquête
- Utilisation du graphique triangulaire pour représenter des tableaux croisés
L'informatique est née dans les milieux scientifiques où la communication des résultats n'est pas une habitude mais une exigence. Un résultat n'est accepté que s'il a été communiqué. Pour les méthodes statistiques, la communication des résultats se fait par dans des revues mais elles ne sont réellement utilisées que si des logiciels les proposent. Proposer un logiciel gratuit est dans cette logique de communication indispensable au bon fonctionnement des évaluations.
De plus j'ai été confronté comme enseignant au problème de l'apprentissage des méthodes statistiques par les étudiants. Il était indispensable de leur proposer un logiciel simple d'utilisation qu'ils puissent également utiliser sur leurs propres machines.
On notera qu'Internet, également créé dans un environnement scientifique conserve cette idée que les créations informatiques doivent être librement communiquées puisque leur cout marginal de diffusion est quasi-nul. Dans la mesure où le créateur veut trouver sa rétribution dans la diffusion de sa création et la reconnaissance qui lui est associée, son intérêt est dans la libre reproduction de son logiciel.
A côté de l'aide technique pour l'utilisation des différents programme de Trideux, on trouvera dans le menu Eléments de méthode divers textes dont le but est d'apporter une information sur les méthodes employées. Les textes qu'on y trouvera ont des statuts assez différents : il y a des chapitres de livres rédigés en tant que partie d'un futur livre appelé Eléments de méthode, il y a un certains nombres d'articles parus dans le BMS (Bulletin de Méthodologie Sociologique) où je présente en général les nouvelles méthodes qui se trouvent dans Trideux, il y aussi d'autres articles qui servent d'illustration, d'exemples d'utilisation ; il y a enfin des textes divers explicitant des points de méthode.
Mon but à long terme est de transformer ce qui ne l'est pas encore en chapitres du futur livre. Si aujourd'hui, ces chapitres sont présentés dans Trideux, mon souhait à long terme est que Trideux soit distribué en accompagnement du livre dont il permettra la mise en œuvre.
Je l'ai toujours assurée sans trop de problèmes dans la mesure où les utilisateurs s'approprient assez vite la technique : c'est en général en début d'utilisation que les problèmes se posaient et j'ai essayé d'en tenir compte dans la présente version 5. L'assistance technique se fait par mail (phcibois@wanadoo.fr) : il est toujours possible de joindre à sa demande en fichier attaché le fichier *.DES en saisie, le fichier *.POS (pour les premières utilisations) et le fichier *.MOD (pour l'analyse factorielle et la régression) en précisant bien la nature du problème.
Niveau d'utilisation
Niveaux d'utilisation : deux niveaux sont possibles, le niveau 1 qui présente le minimum d'options et qui correspond à un utilisateur débutant et le niveau 2 qui présente toutes les options et correspond à un utilisateur averti.
Un menu Niveau d'utilisateur du Fichier de démarrage permet de changer a tout instant.
A la fin de chaque programme, le niveau d'utilisation choisi est conservé en mémoire a l'intérieur d'un fichier TRI2.INI qui est crée dans le répertoire en cours et mis a jour a chaque utilisation.
Retour table des matières
Code-maximum (ou code-max) : une question est affectée a une seule position de la ligne dans le fichier de données si les modalités de réponse vont de 0 a 9 au maximum. Le code-max est la valeur la plus haute que l'on peut rencontrer dans les données. Une question peut être codée sur deux positions si les modalités de réponses atteignent les valeurs 10 ou plus (exceptionnellement sur trois positions pour des données allant jusqu'à la valeur 999). Le code le plus élevé que l'on puisse rencontrer sur deux positions est évidemment 99 (999 sur trois positions). Cette valeur est admise dans les données et dans les tris à plat mais devra être recodée pour certains traitements : - pour les tris croisés le code-maximum autorisé est de 20 : les codes supérieurs seront ramenés a zéro et signalés,
- pour les analyses factorielles, le code-maximum est de 35 mais on sait que l'optimum du nombre de modalités par question doit être en général inférieur a 10.
Retour table des matières
Le premier des fichiers où se trouve l'information nécessaire au traitement est le fichier de position dont le nom est de la forme *.POS. Sa structure, créée automatiquement en début de parcours a la forme suivante :
Première ligne : titre du fichier en cours (et historique de ses recodages successifs)
Deuxième ligne : nombre d'individu de l'enquête et éventuellement divers paramètres.
Lignes suivantes : une ligne par question avec,
- le nom de la question en 3 caractères (en position 1 a 3 de la ligne),
- la position de la question dans les données (en position 4 a 7 de la ligne), (pour permettre des positions dans l'enregistrement dépassant 1000 : le nom n'a que 3 lettre, les positions peuvent être sur 4 caractères)
- le code-maximum de la question en clair en position 8 et 9 de la ligne (L3 signifie 999).
Par exemple les lignes suivantes avec les positions 1 a 15 signifient
1
123456789012345
PRA 53 4
CSP 12386
Une question appelée PRA se rencontre en position 53 des données (sur le fichier *.DAT) et que le code le plus élevé qu'on puisse y rencontrer est 4.
Une variable CSP commence en position 123 et continue sur la position suivante puisque son code-max est a deux chiffres et égal a 86. L'indication de la colonne suivante n'est pas a faire puisque le fait que le code-max dépasse 9 suffit a indiquer que la question est sur deux positions.
Le fichier *.POS a autant de lignes de ce type que de questions dans l'enquête. Cependant, on n'est pas oblige de déclarer toutes les positions de l'enquête mais uniquement celles dont on veut se servir. On peut donc avoir dans chaque enregistrement des données, des parties non utilisées dans Trideux.
Retour table des matières
En niveau d'utilisateur 1, le tri à plat déclenche l'examen de toutes les questions qui figurent dans la partie active de *. POS : cette liste peut être modifiée avec l'éditeur.
Pour chaque question numérique, le programme donne (dans le fichier *.TAP) :
- L'intitulé de la question, sa position, son code-max
- Les modalités utilisées (dans l'exemple 4, 8 et 13 ne sont prises par aucun individu et ne sont pas affichées)
- L'effectif correspondant avec le total à gauche
- Le pourcentage correspondant. Soit par exemple :
Question PRO Position 73 Code-max. 14
Tot. 0 1 2 3 5 6 7 9 10 11 12 14
1530 3 86 53 56 38 101 207 148 18 298 84 438
100 0.2 5.6 3.5 3.7 2.5 6.6 13.5 9.7 1.2 19.5 5.5 28.6
En niveau 2, les options suivantes sont proposées :
1) Non-réponses : par défaut elles sont prises mais elles peuvent être exclues. Dans ce cas, par convention, la non-réponse correspond au code zéro. Les totaux excluent les non-réponses et les pourcentages sont calculés en conséquence. Pour chaque question les non-réponses sont indiquées à droite du code-max
2) Préparation du graphique triangulaire :le programme génère un fichier *.TRG qui permettra de faire des graphiques triangulaires où on ne prend en compte que la répartition, pour une question donnée, des codes 1, 2 et 3 le reste étant ignoré. Le tri à plat ne donne que la distribution de ces 3 codes, les codes 4 et suivant sont mis avec les non-réponses qui ne sont pas prises en compte. Voir l'aide spécifique Graphique triangulaire
3) Réponses multiples :
Une question de ce type se présente quand on veut pouvoir demander plusieurs réponses à une même question sans mettre d'ordre entre les réponses. Par exemple quelles sont les activités de loisirs que vous aimez ? On propose un grand nombre de réponses possibles qui ont toutes le même codage. On s'attend … ce que les dernières aient beaucoup de non-réponse et peu de réponses. Considérer ces questions à même codage comme des réponses multiples à une question, consiste à cumuler le nombre de réponses obtenues pour un code donné.
Exemple : 5 questions pour des activités de loisir posées à 100 personnes :
Code 1=cinéma 2=télévision 3=promenade 4=bricolage
Première réponse :
Modalité 0 1 2 3 4
Effectif 2 20 68 5 5
Deuxième réponse :
0 1 2 3 4
10 30 40 10 10
Troisième réponse :
0 1 2 3 4
30 10 10 35 15
Quatrième réponse :
0 1 2 3 4
50 15 15 15 5
Cinquième réponse :
0 1 2 3 4
98 0 2 0 0
En cumulant les réponses on s'aperçoit que le cinéma a été cité 75 fois, etc. ce qui donne les résultats suivants :
Réponses cumulées :
0 1 2 3 4
190 75 135 65 35
Le total général est de 500 (5 questions à 100 individus) : il ne doit pas être pris en compte car il n'y a que 100 individus. Par contre ce qui peut l'être c'est le nombre total de choix exprimés qui est de 75 + 135 + 65 + 35 = 310, soit donc en moyenne un peu plus de trois choix par individu.
Sur un total de 310 choix exprimés, la télévision en représente 135/310 soit 43,5%, etc... Ce nombre de choix exprimés représente réellement quelque chose : si on augmente le nombre de questions, on s'aperçoit que l'on ne recueille pratiquement plus que des non-réponses, ce qui ne va pas modifier les pourcentages précédents : on voit simplement que l'on a épuisé les désirs de réponses multiples.
Si on calculait sur le nombre d'individus multiplié par le nombre de questions, on ferait artificiellement baisser la proportion d'une activité simplement en utilisant des questions qui ne sont plus prises par personne.
Cependant un autre mode de calcul du pourcentage est possible qui consiste à ramener les effectifs cumulés précédents à la population de base : la somme de ces pourcentages fait alors plus que 100 ce qui est admissible si l'on précise qu'il s'agit de réponses multiples.
Pour traiter des réponses à choix multiples, il suffit de ne mettre dans la partie active du fichier *.POS que les réponses considérées : en plus du tri à plat de chaque question considérée on aura le cumul de toutes les questions avec le pourcentage calculé sur le cumul des réponses autres que les non-réponses.
On notera bien que ce résultat est un résultat agrégé qui ne peut être considéré pour un individu donné. Pour chacun, il y a une constellation de choix qui ne peut être exploré que d'une manière combinatoire ou, plus simplement par une analyse factorielle.
4) Vérification des codes-max : par défaut, si le programme rencontre une valeur qui est au-delà du code-max , la valeur est convertie en non-réponse sans signalement. Si l'on veut une vérification, il suffit de coder cette option. Les codes supérieurs au code-max sont signalés un par un (avec un beep sonore). Après 50 erreurs le programme s'arrête.
5) Changer de fichier *.DAT : il est possible de prendre comme source du fichier de données un fichier que l'on indiquera.
Retour table des matières
Des modifications des données peuvent être réalisées par le programme 1) Prep. recodages, pondérations, filtres, VIT de Modifier qui a les fonctions suivantes : (après cette préparation on lancera l'exécution par 2)Recoder, pondérer, filtrer, céer VIT)
1) la possibilité de recoder une question par agrégation de codes de modalités,
2) un filtre qui permet d'inclure ou d'exclure une partie des individus en tenant compte d'une ou de plusieurs réponses,
3) la possibilité de créer une ou des nouvelles variables constituées à partir de la présence de modalités pour former des Variables Idéal-Typiques (VIT), des scores, des précroisements de variables, etc...
4) création d'un fichier nouveau établi en pondérant les données.
(pour les anciens utilisateurs et pour ceux qui préfèrent modifier sous éditeurs, il est toujours possible d'utiliser l'éditeur le fichier *.POS puis de lancer l'étape . 2)Recoder, pondérer, filtrer, céer VIT)
En utilisant l'option 1 de Modifier, une fenêtre apparaît avec la partie utile de *.POS. On choisit la question à recoder en cliquant dessus. On donne les règles de recodage par agrégation, voir plus loin ou utiliser le bouton d'aide de la fenêtre que précise ses règles, valider la question et faire la même opération pour les autres questions que l'on veut recoder, à la fin, enregistrer et quitter.
Pour utiliser les autres fonctions que le recodage par agrégation (filtre, création de variables nouvelles, pondération), utiliser l'aide en ligne. Pour utiliser sous éditeur les règles d'écriture, voir plus loin au paragraphe "Préparation des recodages sous éditeur".
En niveau 1 le programme est immédiatement lancé et crée un nouveau fichier de données *.DAT et un nouveau fichier de position associé *.POS. Un fichier d'impression associe est *.REC (RECodages). Ce qui différencie l'ancien nom générique et le nouveau est que la dernière lettre (ou le dernier chiffre) de l'ancien nom est incrémentée d'une lettre (ou d'un chiffre). Par exemple l'ancien nom ENQU0 générera le nouveau ENQU1, l'ancien nom ESSAI générera le nouveau ESSAJ, etc. Il est possible de revenir en arrière dans la fenêtre principale en appuyant sur le bouton générique précédent s'il existe et en acceptant le nom affiché. Il est possible d'entrer un nom existant dans le cadre générique et en acceptant.
En niveau 2, un choix d'option est proposé avant de lancer le programme :
-ne garder que les recodées
Veut-on que le nouveau fichier conserve l'ensemble du fichier d'origine ou seulement les variables/questions qui ont fait l'objet d'un recodage ?
La réponse à cette question dépend beaucoup des circonstances. Par exemple en tout début d'exploitation d'une enquête, il est des recodages que l'on veut faire, quasiment de façon définitive. Suivant le degré d'investissement on souhaitera conserver la variable recodée en plus de la variable d'origine ou l'on souhaitera plus simplement remplacer l'ancienne par la nouvelle (de toute façon un retour en arrière est possible puisque c'est un nouveau fichier qui est créé). Par contre, en milieu ou en fin d'exploitation, on désirera créer des fichiers plus restreints qui ne comportent qu'un petit nombre de variables, sélectionnées dans le fichier de départ, éventuellement recodées ou créées pour tester une hypothèse.
Première stratégie (option par défaut) : on conserve toutes les variables de l'enquête. Ceci signifie que le fichier de données est conservé non modifié pour tout ce qui n'est pas explicitement modifié. On peut ne prendre en compte dans le fichier *.POS qu'un petit nombre de questions, toutes les autres sont laissées en l'état.
Quand on choisit cette stratégie, une sous-question est posée
- mettre les recodées à la fin
c'est à dire : veut-on que le recodage soit fait sur place ou à la fin ?
- faire le recodage sur place (option par défaut) signifie que la variable recodée va prendre la place (dans le nouveau fichier) de l'ancienne : si le recodage fait qu'elle utilise moins de place, la ou les positions inutiles seront remplies par un X et un Y dans le fichier *.DAT. La position affichée dans *.POS sera toujours la même, seul le code-max sera modifié en conséquence. Ce sera l'option que l'on choisira pour un codage que l'on juge pratiquement définitif, indispensable avant de commencer (par exemple réduire des âges en clair en tranches d'âges)/
- mettre les recodées à la fin du fichier : la variable recodée est automatiquement dupliquée. L'ancienne valeur non modifiée reste à sa place d'origine, la nouvelle est mise en fin de fichier. Dans *.POS, l'ancienne n'est en rien modifiée, la nouvelle à l'ancien nom avec une étoile en 3e caractère, une nouvelle position de fin de fichier, un nouveau code-max
Cette option entraine une gestion plus lourde des variables et suppose un investissement plus professionnel.
Deuxième stratégie : (on coche "ne garder que les recodées" ) : on ne veut garder que quelques questions qui ne sont pas toutes forcément l'objet d'un recodage mais que l'on veut conserver dans leur situation d'origine. Ceci signifie que l'on ne conserve dans le nouveau fichier *.dat non pas toutes les données, mais celle de la liste utile du fichier *.POS et que l'on peut faire encore une sélection sur cette liste.
Une sous-question apparaît :
- ne sont prises que les sélectionnées
Si la case n'est pas cochée on conserve toutes les questions affichées dans la liste de *.POS)
Si on coche la case on ne conserve que les questions ayant fait l'objet d'un recodage ou que l'on sélectionne avec la lettre S dans la zone de recodage.
Le nom du fichier d'entrée est par défaut générique.DAT et il peut être modifié.
Plan
I Mise au point des demandes
II Détails recodages
III Filtre
IV Exemples recodages et filtres
V Pondération
VI Nouvelles variables (1 Variables Idéal-typiques, 2 leur usage, 3 autres usages, 4 score, 5 cumul, 6 précroisement, 7 dichotomisation, 8 opération inverse, 9 gestion des modalités non exclusives)
VII Détail création/élimination de variables
VIII Détail *.POS et limites
Retour table des matières
Sous l'éditeur on modifie éventuellement le fichier *.POS dont la structure habituelle est la suivante : (les opérations spécifiques de OUTILS sont entre parenthèse)
Ligne 1 : titre
Ligne 2 : nombre d'individus (filtre éventuel)
Lignes suivantes :
Nom Position Code-max (modifications éventuelles)
Position 1 à 3 4 à 7 8 à 9 11 et suivantes
Quand toutes les questions à recoder sont indiquées, soit le fichier est terminé, soit il est interrompu par :
- soit une ligne vide
- soit une ligne blanche
- soit deux étoiles ** dans les positions 1 à 3
- soit $$Nom-de-Variable nouvelle (dite VIT) : c'est à dire deux dollars suivi d'un nom de variable à créer (3 caractères au maximum)
Dans ce cas les lignes suivantes qui indiquent les modalités prises en compte pour la VIT ont la structure suivante (analogue à celle des questions d'origine)
Nom Modalité retenue (score facultatif)
Position 1 à 3 8 à 9 11 à 12
Les lignes qui définissent une VIT doivent se terminer par une ligne commençant par $$ sans rien après.
Retour table des matières
Dans la zone de recodage (à partir de la position 11) on trouve, soit un S signifiant une variable conservée sans recodage, soit un recodage.
Un recodage est constitué par une expression logique de la forme : liste des anciens codes = nouveau code
Une liste d'anciens codes est constituée par des anciens codes reliés par un tiret (qui prend en compte les intermédiaires) ou par une virgule. On peut utiliser les deux
notations dans une même liste : 7,1-4,0=1 est une expression valide.
Les expressions sont séparées par des slashs.
On peut désigner l'ensemble des codes non présents dans l'ensemble des listes d'anciens codes, par la notion de reste indiquée par la lettre majuscule R à gauche du signe égal (autre notation autorisée : E pour Else ou le signe égal sans rien à gauche, *, soit donc R= ou E= ou *= ou simplement =)
A droite du signe égal, une seule nouvelle valeur est autorisée.
Si un code n'a pas été nommé dans une liste d'anciens codes, il est laissé en l'état sauf si l'option R de reste est utilisée.
Si l'on veut laisser en l'état une modalité alors que le reste est utilisé, il faut la nommer avec le même code ancien et nouveau (5=5 par ex.)
Les recodages sont en format libre (blancs indifférents).
Dans l'usage du tiret, la valeur à gauche doit être inférieure à la valeur à droite. Un ancien code ne doit pas être plus grand que le code-max de la question.
On peut recoder sur trois positions. Les recodages se faisant sous la forme standard par exemple si l'on veut regrouper des tranches monétaires (en milliers de francs):
0=0/1-15=1/16-30=2/31-60=3/61-120=4/121-250=5/R=6
Attention : la notation du code-max dans le fichier *.POS d'origine comme dans celui de destination est spécifique. Comme il n'y a que 2 positions prévues pour le code-max, on supplée à l'impossibilité d'un code exact en signalant que la question est de Largeur 3 en mettant "L3" ou "l3" dans la zone du code-max. La position indiquée de la question est toujours la première.
En général, en sortie, comme on recode par agrégation, le code-max est inférieur à 100 et l'on rentre dans le cas standard. Ceci n'est pas une obligation.
Retour table des matières
Il est en ligne 2 après le nombre d'individus (qui peut être omis ou inférieur au nombre existant) : il commence soit par INCL, soit par EXCL (majuscules ou minuscules) mais sans combinaison. Vient ensuite une proposition logique qui indique une égalité entre (à gauche) un des noms qui existent réellement dans la liste des questions et à droite une des modalités de la question (une seule : si on en veut plusieurs, il suffit de recoder la question car les recodages sont faits d'abord).
Expression logique : Question = Modalité
Les expression logiques peuvent être reliés par l'opérateur booléen d'intersection noté & ou + (si l'on veut pouvoir faire une union de questions il faut, dans un premier passage créer une VIT à cette fin).
Le filtre est en format libre (blancs indifférents).
Le filtre tient toujours compte des recodages qui viennent après.
Le nom du filtre est converti en majuscules, de même que le nom de la question pour la comparaison (ce qui peut entrainer des difficultés si le nom de la question comprend des accents)
Exemple
aa0
16 incl sex=2 & age = 2
NUM 1L3A
SEX 4 2 S
AGE 585 0-69=1/R=2
CSP 799
Cet exemple donnera les femmes âgées de 70 ans et plus du fichier dans le nouveau fichier. On notera que le recodage de l'âge, bien que venant après le filtre est pris en compte.
Retour table des matières
(Tirés de l'enquête sur l'ouvrier français en 1970)
Exemple 1 (ce qui suit est le fichier OUVRIER.POS)
OUVRIER
1116
ASY 11 4 1-2=1/3-4=2
PAR 4711 1-3=1/4,11=2/R=3/0=0
**
PRF 9 2
PRE 10 2
ASY 11 4
APA 12 4
ADE 13 4
etc...
Dans cet exemple on a pris le fichier d'origine dont on a dupliqué des lignes mises en tête de fichier. Il n'y a pas de filtre ou de VIT.
La question ASY, action des syndicats est recodée en deux nouveau codes 1 (confiance) et 2 (pas confiance) la NR est inchangée à 0. Les anciens codes étaient 1= très confiance, 2= plutôt confiance, 3= plutôt pas confiance, 4= pas confiance du
tout.
La question PAR, proximité partisane est recodée en 1 (gauche, anciens codes 1 à 3), 2 (centre, anciens codes 4 et 11) et 3 (droite, le reste c'est à dire tous les codes non cités dans le recodage). Enfin les NR sont inchangées mais doivent être indiquées pour ne pas être comprise dans le reste.
Exemple 2
OUVRIER
1116 INCL PAR=1 & ASY=1
ASY 11 4 1-2=1/3-4=2
PAR 4711 1-3=1/4,11=2/R=3/0=0
**
PRF 9 2
PRE 10 2
ASY 11 4
APA 12 4
ADE 13 4
etc...
En plus des recodages précédents ne seront pris en compte en fichier de sortie que les individus qui sont de gauche (nouveau code 1 de PAR) et en même temps qui ont confiance dans les syndicats (nouveau code 1 de la question ASY)
Retour table des matières
Pondérer, c'est créer un fichier nouveau où les individus anciens ne comptent pas pour le même nombre. Il faut disposer dans le fichier en cours d'une variable de pondération. Si on ne veut pas pondérer un individu, il suffit qu'il ait dans sa variable de pondération la valeur 1, il comptera pour une fois, s'il a la valeur 2, 2 individus identiques seront générés et ainsi de suite. Les valeurs de pondération peuvent être de largeur 1 (codmax 9), 2 (codmax 99) ou 3 (codmax noté L3 correspondant à 999) ce qui offre une grande gamme de pondérations possibles. Attention une variable de pondération égale à zéro fera que l'individu en question ne sera pas du tout pris en compte.
Deux conditions sont à respecter pour pondérer :
1) indiquer le mot clé POND en ligne 2 pour signaler le désir de faire jouer la pondération.
2) avoir comme nom de question une variable appelée PON qui servira de variable de pondération.
Retour table des matières
1) Variable idéale-typique (VIT)
Une VIT (variable idéale-typique) est constituée par autant de lignes entre $$ (où se trouvent le nom de la VIT ou la fin).
S'il y a présence de VIT, le programme suppose pour chaque ligne constituant les éléments pris en compte :
- la position du début du nom des modalités en 1
- la largeur du nom des modalités de 3 au maximum
- la position du début de la valeur de la modalité en 8
- la largeur de la valeur de la modalité de 2
Le code-max d'une VIT est par défaut le nombre de ligne qui la compose.
Si plusieurs VIT se suivent elles doivent être enchainées de la manière suivante (le $$ seul interrompt la lecture) :
$$VA1
AAA 1
BBB 3
CCC 0
$$VA2
DDD 3
EEE 1
$$
Une VIT crée une nouvelle variable qui est le compteur, pour chaque individu, du nombre d'éléments de la VIT qui ont la modalité retenue.
Pour recoder une VIT, il faut faire un nouveau passage, où elle sera entrée dans le fichier *.POS et considérée comme une variable ordinaire.
Un nom d'élément de VIT doit exister dans la liste des questions retenues (quand on ne choisit pas l'option de les conserver toutes)
Les VIT tiennent toujours compte des recodages qui sont indiqués auparavant.
2) Usage des VIT
- l'usage canonique, qui leur a donné leur nom de variables idéales-typiques, vient du désir de voir quelle est l'importance d'un type-idéal repéré dans un plan factoriel. Par exemple si l'on prend la configuration de points de la démonstration de Tri-deux (affiliations de l'Ouvrier français, cf. Ph.Cibois, L'analyse des données en sociologie, PUF, 2e édition, 1990, page 124, on a à gauche 4 points de modalités qui forment le type-idéal PC-CGT. Il est constitué par les 4 modalités suivantes : appartient à la CGT (SYN modalité 3), est proche du PC (PAR modalité 1, vote CGT (VSY modalité 4), a voté Duclos (VPO modalité 3).
La VIT NPC suivante donnera pour chaque individu le nombre de modalités du type qu'il possède :
OUVRIER
1116
SYN 46 7
PAR 4711
VSY 51 7
VPO 59 7
$$NPC
SYN 3
PAR 1
VSY 4
VPO 3
$$
Commentaire :
Un tri à plat postérieur de la question NBPC donnera la distribution suivante pour un total général de 1116 : 0 modalité 1 modalité 2 modalités 3 modalités 4 modalités
629 189 137 80 81
autre exemple
OUVRIER
1116 EXCL PAR=0
ASY 11 4 1-2=1/3-4=2
APA 12 4 1-2=1/3-4=2
ADE 11 4 1-2=1/3-4=2
PAR 4711 1-3=1/4,11=2/R=3/0=0
$$CNF
ASY 1
APA 1
ADE 1
$$
**
PRF 9 2
PRE 10 2
ASY 11 4
APA 12 4
ADE 13 4
etc...
Ici on exclut ceux qui n'ont pas de préférence partisane (PAR=0), on recode en confiance ou non les trois questions ASY (action des syndicats) ; APA (partis) ; ADE (député) qui sont codées de la même façon. On crée une variable idéal-typique appelée CNF (confiance) qui compte le nombre de réponses sélectionnés de confiance que chaque individu possède. Cette variable ici peut prendre des valeurs allant de 0 (si ASY et APA et ADE sont différentes de 1) à 3 (si elles sont toutes égales à 1) avec les valeurs intermédiaires.
3) à côté de cet usage canonique, on peut utiliser les VIT
par exemple pour créer (en un passage préalable) un filtre avec l'opérateur booléen d'union (OU).
Si par exemple on veut sélectionner les ouvriers proches de la CGT, il peuvent être repérés par plusieurs indicateurs :
- est très satisfait ou satisfait de l'action de la CGT (question ACG modalités 1 ou 2)
- est syndiqué à la CGT (SYN 3)
- vote CGT (VSY 4)
Sera à prendre en compte un individu ayant l'une ou l'autre de ces réponses. Dans un premier passage on créera la VIT CGT suivante (avec recodage de ACG) :
OUVRIER
1116
ACG 33 4 1-2=1/R=0
SYN 46 7
VSY 51 7
$$CGT
ACG 1
SYN 3
VSY 4
$$
Ce premier passage créera une nouvelle variable CGT : tout individu ayant au moins le code 1 à cette question ou à l'une ou l'autre des modalités CGT. Dans une deuxième passage il suffit de mettre le filtre suivant : INCL CGT = 1 - en prenant la précaution de recoder la question CGT de la manière suivante :
CGT 81 3 1-3=1
où 81 est la position de la nouvelle variable dans le nouveau fichier où l'on a par exemple tout retenu, 3 est le code-max et où l'on recode de façon à sélectionner tous ceux qui ont une, deux ou trois modalités de type CGT.
4) score
On peut pondérer les différentes questions qui forment la nouvelle variable par l'usage facultatif d'un score en position 10 à 13. En effet dans les exemples précédents chaque modalité si elle est présente incrémente le compteur de 1. Si, reprenant l'exemple précédent, on veut que l'appartenance au syndicat compte plus que les deux autres questions on ajoutera la valeur décidée pour le score :
OUVRIER
1116
ACG 33 4 1-2=1/R=0
SYN 46 7
VSY 51 7
$$CGT
ACG 1 1
SYN 3 2
VSY 4 1
$$
Dans cet exemple SYND=3 compte pour 2 alors que ACGT=1 et VSYN=4
comptent pour 1.
Le score peut être placé après la colonne 10 n'importe où dans la ligne. Si l'on ne met rien, on suppose toujours par défaut un score de 1. Un score peut être supérieur à 9 mais une variable créée ne peut l'être au maximum que sur 2 positions ce qui exclut les valeurs supérieures à 99 comme résultat final. (si la somme des scores qui correspond au code-max théorique est supérieure à 99, le code-max est ramené à 99 : si une variable a une valeur supérieure à 99, celle-ci est ramené à 99 et un message signale le cas).
5) Cumul
Cumuler plusieurs questions revient à créer une nouvelle variable qui additionne les valeurs de plusieurs autres. Par exemple soit les deux question
FAM 2199
AMI 2399
Qui donnent le nombre de contacts pour une période donnée avec la famille et les amis. Le cumul donnera le nombre total de contacts. Il s'obtient en mettant un + à la place de la valeur de la modalité dans la VIT.
Par exemple
FAM 2199
AMI 2399
$$ALL
FAM +
AMI +
$$
6) précroisement
On peut utiliser le score pour créer une nouvelle variable qui combine tous les cas possibles de croisement entre deux questions.
Soit par exemple une variable AAA à 3 modalités 0, 1, 2 et une variable BBB à 4 modalités 0, 1, 2 et 3. On veut construire une nouvelle question CCC qui prenne en compte tous les croisement possibles de AAA et de BBB selon le tableau suivant :
BBB=0 BBB=1 BBB=2
---------------------------
AAA=0 ! CCC=00 CCC=01 CCC=02
!
AAA=1 ! CCC=10 CCC=11 CCC=12
!
AAA=2 ! CCC=20 CCC=21 CCC=22
!
AAA=3 ! CCC=30 CCC=31 CCC=32
On remarquera que le code résultant de CCC à pour code de gauche celui de AAA et pour code de droite celui de BBB, comme si on avait fait la transformation
CCC = ( 10 x AAA ) + BBB
Pour arriver simplement à ce résultat, il suffit de mettre le code de AAA multiplié par 10 comme score pour chaque valeur de AAA et le code d'origine de BBB : on a les lignes suivantes :
$$CCC
AAA 1 10
AAA 2 20
AAA 3 30
BBB 1 1
BBB 2 2
$$
On ne prend pas en compte les valeurs 0 car si on mettait un score 0, celui-ci par défaut, serait automatiquement porté à 1.
Un individu qui aura AAA=1 et BBB=2 aura CCC=12. Cette nouvelle variable CCC pourra lors d'un autre passage être recodée de façon à ce que ses codes soient contigus. On peut ainsi facilement faire des tris de profondeur 3 (et plus en répétant l'opération).
7) Dichotomisation d'une variable
Soit une question à modalités mutuellement exclusives sur une position : on désire créer à partir d'elle autant de questions en présence/absence que la question comporte de modalités.
Soit par exemple la question :
SEX 123 2
Pour créer les questions MASculin et FEMinin en présence absence on prendra :
$$MAS
SEX 123 1
$$FEM
SEX 123 2
$$
8) Opération inverse : construire une question à réponses exclusives à partir de modalités en présence/absence. Il suffit de construire une nouvelle variable par précroisement comme dans le cas numéro 5 mais en mettant comme facteur de multiplication les valeurs des modalités (puisqu'elle ne sont multipliées que par l'unité, étant en présence/absence).
Soit les modalités en présence absence MASculin et FEMinin :
MAS 124 1
FEM 125 1
la nouvelle question NSX sera obtenue par :
$$NSX
MAS 124 1 1
FEM 125 1 2
$$
Dans le cas présent la nouvelle variable NSX est strictement équivalente à l'ancienne question SEX.
9) Cas similaire mais plus compliqué : on a codé des modalités en présence/absence justement parce qu'elles n'étaient pas mutuellement exclusives. Cependant on s'aperçoit qu'il n'y a que très peu de doubles réponses et l'on voudrait construire une seule question par regroupement des présences/absences en tenant compte des quelques cas de réponses doubles.
Exemple : on demande à des gens s'ils lisent un quotidien et on imagine que certains peuvent en lire deux. On code donc en présence/absence
: lisez-vous Le Monde oui/non, Libération
(idem), le Figaro, Le Parisien, La Croix, France-Soir.
On a les questions suivantes (avec le nombre de lecteurs) :
MON 134 1 (24 lecteurs)
LIB 135 1 (17)
FIG 136 1 (15)
PAR 137 1 (20)
LCR 138 1 (8)
FSR 139 1 (28)
Il y a 114 répondants et l'on sait qu'un petit nombre lit plusieurs journaux : pour créer une question unique à partir des modalités, en distinguant tous les cas on peut utiliser la technique du codage par "puissances de deux". Cette technique consiste à donner le score 1 au premier journal, 2 au 2e, 4 au 3e, 8 au 4e, 16 au 5e et 32 au 6e. Un simple lecteur n'aura que l'un de ces scores mais par exemple seul un lecteur du Monde et de Libération pourra avoir le score 3 = 1 + 2. Seul un lecteur du Monde (score 1) et de France-Soir (score 32) pourra faire le score 33. Ce système est valable pour tous les cas multiples et le maximum de 63 serait obtenu avec quelqu'un qui lirait tous les journaux.
On utilisera donc la technique du précroisement avec comme coefficient multiplicateur les puissances de 2
$$JOU
MON 134 1 1
LIB 135 1 2
FIG 136 1 4
PAR 137 1 8
LCR 138 1 16
FSR 139 1 32
$$
Si par exemple le tri à plat de la nouvelle variable JOU donne le résultat suivant :
Tot. 0 1 2 3 4 5 8 10 12 14 16 18 32 33 40
114 15 21 11 1 10 1 14 1 1 3 7 1 26 1 1
on voit tout de suite que les puissances de deux qui correspondent aux lectures d'un seul journal sont majoritaires. Il faudra donc prendre des décisions de recodage pour les cas de multi-lecture :
- soit en prévoyant un codage spécial pour chaque multi-lecture (mais ici il il y 7 cas qui regroupent 10 personnes),
- soit en prévoyant une seule catégorie pour les multi-lectures (une 7e position considérée comme multi-lecture)
- soit en mettant ces multi-lecture en non-réponse
- soit en prenant des décisions au coup par coup pour minimiser la perte d'information : par exemple le code 3 (Le Monde et Libération) peut être affecté à Libé dans la mesure où il y a moins de lecteurs de ce journal dans l'échantillon et donc il vaut mieux conserver cette information plus rare, etc..
Toutes ces décisions sont opérationalisées par un ordre de recodage comme celui-ci qui prend le parti de mettre les multi-lecture dans une catégorie à part :
JOU 14099 0=0/1=1/2=2/4=3/8=4/16=5/32=6/R=7
(Attention, comme le code résultant doit tenir sur deux positions, on doit être certain que la somme des cas multiples ne dépasse pas 99. Si le cas se présentait, il faudrait faire l'opération complète en la décomposant en plusieurs opérations élémentaires.)
Retour table des matières
On utilise quelquefois les options DROP ou KEEP dans certains logiciels ce qui signifie que l'on peut prendre des options opposées :
- soit on garde la grande masse des questions et l'on en élimine seulement quelques unes spécifiées (option DROP),
- soit on en élimine la grande masse et l'on en garde que quelques unes spécifiées (option KEEP).
Ces deux manières de faire sont tout à fait possibles dans OUTILS.
Dans les deux cas il suffit de cocher l'option ne garder que les recodées .
- pour appliquer la stratégie DROP, il suffit d'éliminer au préalable du fichier *.POS les variables que l'on veut voir disparaitre;
- pour appliquer la stratégie KEEP, il suffit de marquer d'un S les variables que l'on veut conserver et cocher ne sont prises que les sélectionnées.
On notera que l'option par défaut où l'on conserve toutes les variables s'applique aux données de chaque enregistrement plus qu'aux variables : si l'on déclare dans *.POS seulement une variable afin de la recoder, tout ce qui est avant et après sera conservé avec cette option dans le fichier *.DAT.
Dans le cas fréquent où l'on désire conserver l'ancienne variable et faire une nouvelle avec cette variable recodée, la solution simple est de prendre l'option de recodage par défaut qui conserve toutes les variables et de choisir de mettre la recodée à la fin. Cependant, si l'on veut utiliser l'autre option qui consiste à ne conserver que les recodées, il suffit de déclarer un nouveau nom, avec l'ancienne position et les recodage désirés et de prendre l'option ne garder que les recodées. Ce dispositif met à la fin les nouvelles variables recodées à la suite des anciennes. Attention, si des parties de l'enregistrement n'ont pas été déclarées, ces portions ne sont plus présentes dans le nouveau fichier.
Exemple :
fichier *.POS d'origine
ESSAI
10
AAA 1 5
BBB 212
CCC 4 2
**
Si l'on veut recoder la variable BBB tout en la conservant dans le fichier, il faut mettre à la fin une variable BB2 avec les recodages nécessaires qui viendra se mettre en position 5 dans le nouveau fichier (options ne garder que les recodées)
ESSAI
10
AAA 1 5
BBB 212
CCC 4 2
BB2 212 1-5=1/6-10=2/R=0
**
Si l'on prenait l'option par défaut, la position 2 serait recodée selon B2 (même si l'on avait mis B2 avant B dans le fichier).
Quand on prend l'option de conserver toutes les variables, le nouveau fichier *.POS conserve aussi non seulement ce qui se trouve avant les deux étoiles, mais aussi ce qui se trouve après qui est conservé en l'état comme pouvant servir ultérieurement.
- On peut traiter jusqu'à 600 questions en un même passage.
- Une nouvelle variable peut être constituée au maximum par 50 lignes.
Retour table des matières
Réalisation du descripteur des données (appelé aussi masque de saisie)
Phase de saisie
Compléments
Saisir des données c'est rendre lisible en machine des données préalablement recueillies : pour entrer des données dans Trideux, il faut les décrire et cette description est enregistrée d'une manière permanente dans un fichier Nom générique.DES (noté souvent dans la suite *.DES) qui ne peut pas être modifié en cours de saisie (sauf exception que l'on verra dans les compléments).
Une fois cette description faite, elle sert de guide pour l'entrée des données, entrée qui peut être faite en plusieurs fois, les données étant enregistrées à chaque nouvel individu. Le mode de saisie a été organisé de façon à minimiser les déplacements visuels qui sont sources de fatigue oculaire quand il faut regarder l'écran, le clavier et un papier. Pour la plupart des questions à entrer il est possible de ne regarder que son papier, les doigts ne devant gérer que les 4 flèches (haut, bas, gauche et droite) qui suffisent pour l'entrée des données.
Réalisation du descripteur des données (appelé aussi masque de saisie)
Supposons une enquête qui comprend un numéro d'individu (inférieur à 1000), puis le sexe (code 1 ou 2), l'âge en clair, le prénom (sur 12 caractères) et 3 questions d'opinions codées de 1 à 4, le non-réponse étant par défaut codée 0.
On considère qu'il y a ici 3 types de questions :
1) les questions purement numériques dont le code-max est peu élevé (inférieur ou égal à 20 : question "numérique courte") : c'est l'option la plus fréquente dans les enquêtes. Dans l'exemple c'est le cas du sexe et des 3 questions d'opinion. La saisie de ce genre de question est automatiquement surveillée : seuls des valeurs comprises entre zéro et le code-max pourront être entrées. Ces valeurs ne sont pas entrées au clavier mais en déplaçant les touches "flèche droite" (pour augmenter le code) ou "flèche gauche" (pour le diminuer).
2) les question numériques dont la valeur la plus élevée peut être 99 ou 999 (ou plus dans des cas particuliers, cf compléments, question dite "numérique longue"): il est impossible d'appuyer 43 fois sur la flèche droite pour contrôler l'entrée d'un âge égal à 43 ans par exemple. Pour ces questions numériques avec des valeurs élevées, l'entrée se fait au clavier et le résultat est converti en nombre (si l'on a tapé un caractère, la conversion le transforme en zéro). C'est le cas dans l'exemple pour le numéro d'individu ou l'âge. Ce serait le cas pour une CSP à deux chiffres.
3) les questions alphabétiques (mais qui peuvent mélanger chiffres et lettres et qui sont aussi dites de ce fait questions alphanumériques). Dans l'exemple, c'est le cas du prénom.
A la première utilisation il est demandé un Nom générique puis le choix d'un répertoire ou stocker les données et les résultats. On passe ensuite à la description des données : on choisit le nom de la question (3 caractères qui seront convertis en majuscules), le type de question puis l'extension de la question :
- pour une question numérique courte (option par défaut) on doit donner le code numérique le plus élevé que l'on puisse rencontrer (le code maximum appelé " code-max"). Pour une question comme le sexe à deux modalités masculin et féminin codées 1 et 2, le code-maxcode-max est égal à 2 (ce n'est pas le nombre de modalités puisqu'on réserve toujours la possibilité d'une non-réponse codée zéro)
- pour une question numérique longue, c'est le nombre de positions utilisée par le nombre que l'on indique : avec 2 positions on peut coder jusqu'au code-max 99, avec trois jusqu'à 999.
- pour une question alphanumérique, on indique le nombre de caractères de la question (20 max).
Chaque description de question doit être validée et une liste apparait. Il est possible faire des modification en cliquant dans la liste la question à modifier : on revient ainsi à l'étape initiale ; on modifie et on valide à nouveau.
En fin de processus, on enregistre l'ensemble et on passe à la saisie.
Phase de saisie
En mode saisie, le nom de la première question apparaît, si elle est numérique courte, on indique son code en appuyant le nombre de fois nécessaire sur la flèche droite. Pour une question qui aurait 2 modalités (1=accord, 2= pas d'accord), on appuiera deux fois pour le désaccord, une fois pour l'accord. Pour corriger, utiliser la touche gauche pour revenir à une valeur inférieure. Cette saisie peut être faire sans quitter des yeux le papier de données. Pour un code supérieur à 4 on a intérêt à fractionner le nombre d'impulsion par tranches de 3 ou 4.
Pour permettre le contrôle auditif de l'entrée : toute tentative qui ferait entrer une valeur supérieure au code-max (ou inférieur à zéro) entraine un beep sonore. En cas de décalage des données, on est ainsi rapidement averti. Pour revenir à la question précédente, on utilise la flèche "déplacement vers le haut". Pour passer à la question suivante on utilise la flèche "déplacement vers le bas".
Pour les questions numériques longues ou alphabétiques, on doit utiliser le clavier : clavier numérique ou chiffres du clavier pour les numériques, tout le clavier pour les alphanumériques (majuscules ou minuscules)
Pour un enregistrement donné on peut visualiser toutes les questions par les flèches haut et bas. On va du début à la fin par les touches de déplacement accéléré dites "up" et "down" dont le graphisme se trouve sur le clavier numérique au touches 9 (up) et 3 (down)
Quand la dernière question à entrer est passée, le mot "FIN" apparaît ainsi que le mode d'emploi pour la suite : enregistrer l'individu en cours (par la touche "Entrée") ou sortir de la saisie sans valider l'enregistrement en cours (par la touche "Echappement" notée aussi "Escape" ou "Esc") en haut à gauche du clavier, les autres enregistrement validés précédemment sont sauvegardés. On peut reprendre la session de saisie immédiatement ou plus tard. Les données sont cumulées à chaque session et le fichier immédiatement utilisable pour un tri à plat.
Compléments
1) Description d'un fichier de description simple:
Ce fichier aura comme nom Nom générique .DES, il peut aussi être constitué avec l'éditeur de Trideux ou un éditeur quelconque.
A chaque ligne correspond une entrée, il faut donner :
- un nom en 7 cararactères au plus qui servira à repérer de quoi il s’agit (les 3 premiers caractères serviront à constituer le nom de la question dans le fichier *.POS qui sera généré automatiquement)
- trois types d’entrée :
- question numérique courte avec un code maximum faible, donner en colonne 8 ou 9 cadré à droite, ce code maximum.
- question numérique longue : donner en colonne 8 ou 9 cadré à droite, le nombre de positions occupé par la question, et signaler en position 10 par un A majuscule que l’on a affaire à de l’Alphanumérique. En colonne 12 l'indication NUM signale qu'il s'agit de numérique à cadrer à droite dans la zone.
- question alphanumérique : idem mais sans l'indication NUM. Les caractères seront cadrés à gauche dans la zone.
Exemple
Positions
1
1234567890
NOM 10A
SEXE 2
SITFAMI 5
AGE 2A NUM
CSP 2A NUM
Q1 4
Q2 4
La première entrée concerne le nom de l’enquêté sur 10 caractères : c’est de l’alphabétique
Vient ensuite le sexe avec un code-max égal à 2 : cette question comme toutes les questions numériques sera contrôlée à l’entrée, ceci veut dire que l’on ne tape pas un code, mais que l’on change le chiffre affiché par la flèche droite (et que on le diminue par la flèche gauche). La valeur affichée au moment où l’on change de question est conservée
Situation identique pour la situation familiale.
Par contre l’âge, qui est entré ici en clair est considérée comme du numérique long de deux caractères (donc de code-max = 99). Il en est de même pour la CSP.
Les entrées des deux questions suivantes de code-max 4 sont numériques courtes et contrôlées.
A chaque exploitation successive, les données entrées sont ajoutées aux données existantes (dans le fichier *.DAT) et le fichier *.POS est mis à jour en ce qui concerne le nombre d’individu.
A tou moment de la saisie, les fichiers *.POS et *.DAT sont prêts pour une exploitation par Trideux sans passer par IMPORT ( qui détruirait les informations de *.POS)
Un fichier de description commence par la première question et finit par la dernière, il ne faut pas de ligne blanche avant ou après qui serait interprétée comme une question fautive de code max 0
2) Possibilités pour faire des sauts de question
Souvent on utilise une question filtre et la question saisie ensuite dépend de la réponse à la question filtre. Par exemple à la question "lisez-vous un quotidien", si la réponse est non, il est utile de sauter toute la liste des journaux qui serait utile si la réponse était oui. On a la possibilité de sauter un nombre défini de lignes selon la valeur entrée à la question filtre qui est testé avec les opérateurs de comparaison < = >.
Syntaxe : dans le fichier *.DES ajouter à partir de la position 12 et en format libre
"si"
"opérateur comparaison" (< ou = ou >)
"valeur"
"+"
"nombre de lignes sautées"
Par exemple "si =2 +5" signifie que si la valeur 2 est entrée dans la question de la ligne, on est positionné immédiatement 5 lignes plus loin.
Ce mécanisme ne fonctionne qu'une fois par individu (au moment où l'on appuie sur la flèche de passage au suivant), si l'on revient en arrière on retrouve la possibilité de revenir sur toutes les positions.
3) possibilité d'introduire en plus une "tabulation", c'est à dire un saut direct à toute ligne définie par le mot-clé "tab" après la position 12 (et éventuellement après une clause "si")
Le saut à la tabulation suivante est déclenché pour la main gauche par la touche de tabulation et pour la main droite par la touche "Fin". Cette commande est utile quand on choisit des questions en présence absence. On peut passer facilement à la question suivante quand on n'a plus de valeurs à entrer.
4) Modifications en cours de saisie
En principe c'est impossible afin que toutes les données soient enregistrées sous le même format. Pour vérifier qu'il n'y a pas eu de modification du fichier *.DES entre deux saisies, le système calcule la longueur théorique de l'enregistrement engendré par le descripteur et la compare avec la longueur observée sur le dernier individu enregistré. S'il n'y a pas égalité, la saisie est impossible.
Entre deux saisies, on peut modifier dans le descripteur ce qui ne touche pas à la longueur de l'enregistrement : intitulé de question, filtres ou tabulation. Cependant, si l'on a à ajouter une indication nouvelle en fin d'enregistrement il est possible de forcer le passage en modifiant le dernier individu du fichier *.DAT de façon que le dernier individu soit cohérent avec le nouveau descripteur. Les individus enregistrés antérieurement à la modification ne sont modifiables que sous éditeur. Il est donc indispensable d'avoir toutes ses données avant de commencer. Si ce n'est pas le cas, il faudra créer un fichier Excel à partir de *.DAT, ajouter sous Excel les nouvelles données et utiliser ensuite la procédure d'importation "Import"
5) Questions numériques longues : on peut utiliser ce type de question pour entrer des valeurs numériques de largeur quelconque, décimales ou entières qui serviront de données pour une régression sur données numériques par ex. Le point décimal peut être n'importe où dans la zone. S'il est suivi d'un zéro, il n'apparaitra pas.
6) description d'un fichier *.DES complexe dont la variation des formes majuscules et minuscules permet de voir les tolérances du système.
Numero 4A num
1 Filie 2A NUM
1 Dg/Li 2
2 Sejou 2 si =2 + 9
2 Pays120
2 Typ1 3
2 Pays220
2 Typ2 3
2 Pays320
2 Typ3 3
2 Pays420
2 Typ4 3
3 Choi120 SI <16 +2 TAB
Si17-2012A
3 Univ112A
4Rais1A12 Si =0 +3
4Rais1B12 sI=0+2
4Rais1C12
3 Choi220 si<16+2
Si17-2012A
3 Univ212A
4Rais2A12 si = 0 + 3
4Rais2B12 si=0+2
4Rais2C12
5 Appro 6 tab
5 Decou 6
5 Prepa 6
5 Speci 6
5 Auto 6
5 Autre 6 si=0+2
Si autr12A
6 Lang1 9 si<9+2 tab
6 Si 9 12A
6 Lect 3
6 Redac 3
6 Comp 3
6 Expr 3
6 Lang2 9 si<9+2
6 Si 9 12A
6 Lect 3 si=0+4
6 Redac 3
6 Comp 3
6 Expr 3
6 Lang3 9 si<9+2
6 Si 9 12A
6 Lect 3
6 Redac 3
6 Comp 3
6 Expr 3
6 uvsq1 9 si<9+2 tab
6 Si 9 12A
6 uvsq2 9 si<9+2
6 Si 9 12A
7 Diplo 2 si=2+7 tab
7 Dip1 3
7 Lang1 9
7 Niv1 12A
7 Dip2 3 si=0+3
7 Lang2 9
7 Niv2 12A
8 Echan 2 si=2+2 tab
8 Nom 5
9 Filie 4 tab
10Serv 3
11Prep 2 si=2+4
11Lang 9 si<9+2
11Si 9 12A
11Type 4
12Dur‚e 5 tab
13Final 5
14Obst 2 si=2+6
14Fina1 1
14Fami2 1
14Niv.3 1
14Autr4 1 si=0+2
Si autr12A
15Montn 4 tab
16AnBac 2A num
16SeBac15
16Lang1 9 si<9+2
16Si 9 12A
16Lang2 7 si<9+2
16Si 9 12A
17Sexe 2
18Mois 2A num
18Ann‚e 2A num
19PerL1 9 si<9+2
19Si 9 12A
19PerL2 9 si<9+2
19Si 9 12A
19MerL1 9 si<9+2
19Si 9 12A
19MerL2 9 si<9+2
19Si 9 12A
20Fami1 1 tab
20Bour2 1
20Stag3 1
20Trav4 1
20Conj5 1
20Pret6 1
20Autr7 1 si=0+2
Si autr12A
21Vie 6 si<6+2 tab
Si autr12A
22EtPer 2
22EtMer 2
23SitP 6 tab
23SitM 6
24cspP 2A num tab
24cspM 2A NUM
24ProP 5 tab
2
Retour table des matières
Pour que l'importation soit possible, il faut impérativement passer par le menu Première utilisation de Fichier de démarrage.
Cette procédure Import permet de mettre au format Trideux deux types de données : des données aux formats CSV ou dBase (option de sauvegarde d'un fichier Excel) ou des données déjà en format Ascii (format texte issu de Spss ou de Sas).
- Importation d'un fichier CSV
C'est le type d'importation qui est impératif avec les nouvelles versions d'Excel et même pour ceux qui disposent encore de la sauvegarde en dBase, c'est l'option conseillée car elle est beaucoup plus souple et des vérifications y sont faites. L'option de sauvegarde est "CSV (séparateur : point virgule) (*.csv)".
Ce qui est dit ici vaut aussi pour des importations d'un fichier Excel sauvegardé en TXT avec l'option "Texte (séparateur : tabulation) (*.txt)".
Dans tous les cas, on suppose par défaut que la première ligne du fichier Excel est un intitulé de colonne qui décrit les variables et qui sera utilisée quand il s'agit de codes de modalités pour constituer le fichier *.POS, les autres lignes constituant le fichier *.DAT.
Les colonnes de largeur 1, 2 ou 3 seront pris en compte. Les colonne de largeur supérieure seront laissées dans le fichier *.DAT mais ne seront pas référencées dans le fichier *.POS. En particulier, pour le traitement de mots, ceux-ci doivent être laissées dans la dernière colonne du fichier Excel.
Pour lancer la procédure faire Fichier de démarrage puis Base de données puis Assistant d'importation une fenêtre apparait qui donne d'abord l'état de la présence des différents types de fichiers (CSV, TXT, POS, DAT) : une seule option est proposée qui doit être cliquée si le fichier Excel ne comporte pas de première ligne donnant les intitulés de données. Dans ce cas, seul le fichier *.DAT sera généré mais il n'y aura pas de fichier *.POS.
Dans le cas d'un fichier en Ascii ordinaire, c'est à dire un fichier dont l'extension doit être *.TXT, (qui n'est pas une sauvegarde du fichier Excel avec une tabulation), il pourra être traité par cette procédure à condition de signaler par l'option précédente qu'il n'a pas de première ligne de description. Un fichier reçu avec une autre extension doit être renommé en TXT.
Les résultats de l'importation sont donnés dans le fichier *.IMP
- Importation à partir de dBase (cette option n'est conservée que pour les anciens fichiers sauvegardés sous cette forme, la sauvegarde en CSV étant maintenant conseillée)
IMPORT va utiliser la structure dBase d'une fichier *.DBF pour créer un fichier *.POS en utilisant les noms des champs et va calculer les positions en fonction des largeurs de ces champs. Il va ensuite créer un fichier *.DAT en extrayant les données du fichier dBase.
Les colonnes de largeur 1, 2 ou 3 seront pris en compte. Les colonne de largeur supérieure seront découpés en tranches d'une seule position et nommées en utilisant leur position.
Dans Excel et avant la sauvegarde en dBase IV (ou DBF 4), il faut que la première ligne donne le contenu de chaque colonne en 3 caractères (et en majuscules de préférence). La largeur de la colonne doit être de 1 si les données numériques sont inférieure à 10, la largeur est de 2 pour des données inférieures à 100, 3 pour des données inférieures à 1000. Pour des largeurs supérieures, un travail de modification du fichier *.POS résultant sera nécessaire, cf. compléments.
Attention : les largeurs des colonne ne peuvent être les options par défaut de Excel qui sont trop importantes. Quand les données sont prêtes, il faut sélectionner toutes les colonnes de même largeur (1, puis 2, puis 3) et dans Format, de Excel, prendre l'option Colonne, puis Largeur et mettre la largeur de la colonne aux valeurs 1, ou 2 ou 3. Cette opération aura pour résultat de rendre illisible les intitulés de colonne qui ont 3 caractères, c'est nécessaire et sans importance pour le résultat final. Attention ne pas oublier de désélectionner les colonnes car sinon on enregistrera dans la sauvegarde toutes les lignes possibles du fichier Excel. Il suffit de cliquer sur une des cases utilisées du tableau.
On sauvegarde sous le même nom, qui doit être le futur nom générique, avec l'option DBF 4. Sans même quitter Excel, on peut appeler Trideux soit en utilisant la Première utilisation soit la procédure Import après avoir utilisé Création d'un nom nouveau . Si l'on est passé par l'une ou l'autre de ces procédures, le programme Import n'est pas accessible. Le programme Import donne (sous le nom *.IMP) un tri à plat des données qui sont utilisables ensuite immédiatement. Pour les colonnes de largeur 1 et 2 le code-max de chaque question est le code-max observé.
Difficultés possibles : une erreur 6 (dépassement de capacité) ou un nombre d'individu fautif (trop grand en général) viennent souvent du fait que l'on a sauvegardé sans désélectionner la ou les colonnes dont on a changé le format. Recommencer en cliquant simplement sur une case active avant de sauvegarder .
Compléments
Si on importe des colonnes de largeur supérieur à 3, les différentes positions sont mal découpées dans le fichier *.POS qui découpe en autant de positions de largeur 1 que nécessaires, leur donne le nom du numéro de position et convertit l'alphabétique en numérique, ce qui donne zéro en général sauf s'il s'agissait de numérique. Par exemple soit une date codée sur 4 caractères et qui est découpée en 4 questions de largeur 1.
Positions
123456789
011 11 1
012 12 9
013 13 9
014 14 8
On remarquera que les codes-max correspondent forment une date faite des max de chaque position. Pour exploiter ces données, on peut ignorer les deux premiers chiffres et recoder les deux dernier en une question de code-max 99. Même si les dates comprennent des années 2000, il est rare que les millésimes 00 ou 01 puissent être ambigus. On aura donc simplement la question DAT en position 13 qui lira sur deux positions 13 et 14 :
DAT 1399
L'option Tris croisés déclenche la lecture des données pour la partie active de *.POS. Partie active dont les intitulés de question apparaissent dans la première liste d'une fenêtre de choix des questions.
On sélectionne une ou des questions dans cette liste et on ajoute cette sélection dans les questions prises en ligne par le bouton Ajoute des lignes. De même pour les colonnes. Le nombre de tableaux engendrés par cette demande apparaît. Pour lancer l'exécution de ces tris, cliquer sur Lancer les tris. Les résultats s'affichent dans la fenêtre principale.
Chaque question de la liste ligne est croisée avec chaque question de la liste colonne. Pour chaque croisement on a 4 éléments avec la répartition indiquée dans la case en haut à gauche : les effectifs (N=), les pourcentages en ligne (%Ligne) et des marges (pour les cases marginales), la contribution au Khideux de la case (Khi2) et le PEM de la case (%Attrac) avec un signe plus ou moins : une étoile à droite de ce PEM indique qu'il est significatif au seuil de 10% ou moins.
Sur le PEM cf Eléments de méthode, chapitre 1 §6-10. Pour l'utilisation de ces résultats voir les Eléments de méthode, chapitre 1 §1-3 Attraction et indépendance
Options possibles :
- Prendre en compte ou exclure les non-réponses (code zéro)
- Inverser les lignes et les colonnes
- Ordre de lignes/colonnes. Garder l'ordre d'origine ou changer l'ordre pour pouvoir calculer le PEM, Pourcentage de l'Ecart Maximum qui indique la force de la liaison entre les deux questions. Sur le PEM cf Eléments de méthode, chapitre 1 §6-10
- Type d'édition
Par défaut, les éditions se font en mode étendu dont on peut choisir la taille du caractère. Cette option donne les intitulés des modalités quand ils ont été entrés. L'option compactée (qui correspond aux anciennes versions de Trideux) donne d'abord les effectifs, puis les pourcentages en ligne, puis les signes des écarts à l'indépendance.
- Faire un tri individuel avec graphique. Cette option, qui ne fait qu'un tri croisé à la fois, génére la représentation en surface des écarts à l'indépendance. Sur cette question cf Eléments de méthode, chapitre 1 §4-5 Visualisation des écarts Cette option n'est possible que si un intitulé de question et un seul se trouve en ligne et de même en colonne. Cette dernière option fait apparaître un graphique. On peut :
- Diminuer ou augmenter la taille du graphique
- Déplacer des points : cliquer sur un intitulé dans la liste que l'on veut déplacer (en tête de liste se trouve le titre, c'est à dire la première ligne du fichier *.POS, l'échelle et la valeur du PEM qui sont à déplacer en un seul bloc). Si l'on désire faire disparaître le titre du graphique (générique en cours), il suffit de le faire sortir du graphique par déplacement. Pour déplacer cliquer sur une des 4 flèches orientées. Par défaut le déplacement est moyen, on peut le rendre faible ou fort. Ces options valent aussi pour les autres modifications.
- Ecarter ou rapprocher les profils en utilisant les touches + et -
- Déplacer l'ensemble du graphique dans la fenêtre avec les flèches violettes.
- Initialiser aux valeur d'origine simplement pour la taille et l'écartement.
- Imprimer directement le graphique
- L'enregistrer sous le nom "générique en cours"+"Tab.BMP". L'enregistrement est également fait dans le presse-papier du système qui est utilisable dans les autres programmes comme Word sous le mode copier/coller.
- Revenir à la fenêtre précédente pour d'autres demandes
- Quitter les tris : on revient à la fenêtre principale dans laquelle on trouvera tous les tris effectués précédemment à la suite dans le fichier *.TCR (comme Tri Croisé).
niveau 2 d'utilisateur
L'option supplémentaire proposée est la possibilité de faire un tri en 3 dimensions. Si cette option est choisie, on perd la possibilité de faire des graphiques en surface et une nouvelle liste de choix apparaît pour ajouter une question filtre (ou plusieurs).
Quand le tri croisé sera lancé, le croisement ligne-colonne prévu sera effectué plusieurs fois, pour chaque sous-population définie par les différentes modalités de la variable filtre. Il n'y a pas de tri pour une sous-population vide.
Par exemple, si l'on prend le sexe comme variable filtre, tous les tris demandés seront faits pour les hommes puis pour les femmes.
Retour table des matières
Quand dans les options de tri à plat on a choisi Préparation du graphique triangulaire :le programme génère un fichier *.TRG qui permettra de faire des graphiques triangulaires où on ne prend en compte que la répartition, pour une question donnée, des codes 1, 2 et 3 le reste étant ignoré. Le tri à plat ne donne que la distribution de ces 3 codes, les codes 4 et suivant sont mis avec les non-réponses qui ne sont pas prises en compte.
Pour comprendre le principe du graphique triangulaire, on peut examiner le premier exemple de l'Exemple Graphique triangulaire des Eléments de méthode. On ne traite ici que des détails techniques. On retiendra simplement que le graphique triangulaire permet de représenter une question par un point dans un graphique, point placé plus ou moins près d'un pôle du triangle selon que le pourcentage de sa distribution est fort sur l'un des trois codes. On ne peut donc comparer que des questions qui n'ont que trois modalités et pour lesquelles, ces trois modalités ont la même signification. Quand on lance l'option Graphique triangulaire de Tris, une fenêtre de graphique apparait.
Un certain nombre d'options sont communes avec la fenêtre des graphiques de tris croisés et d'analyse factorielle:
- Diminuer ou augmenter la taille du graphique
- Points superposés : les points superposés peuvent être déplacés avec la souris. Il suffit de cliquer avec le bouton gauche de la souris sur le point exact affiché (grâce à l'option "point exact") ou sur sa position approximative : l'intitulé du point se met en rouge. On déplace le point en tenant le bouton gauche de la souris enfoncé et on le positionne en relâchant le bouton gauche. Si l'option "point exact" est activée, une ligne rouge permet de relier la position exacte avec l'intitulé déplacé. La sensibilité de proximité de saisie est réglée par le coefficient de modification faible, moyen ou fort. Le trait est rouge par défaut, il peut être mis en noir ou rendu invisible (trait abs. = trait absent). Cette option permet de déplacer des intitulés pour faciliter la lecture d'une édition définitive sans que la place exacte du point soit modifée (alors que si l'option "point exact" n'est pas activée, c'est l'ensemble point+intitulé qui est déplacé).
On peut aussi cliquer sur un intitulé dans la liste que l'on veut déplacer (en tête de liste se trouve le titre, c'est à dire le nom générique.). Pour déplacer cliquer sur une des 4 flèches orientées. Par défaut le déplacement est faible, on peut le rendre moyen ou fort. Ces options valent aussi pour les autres modifications.
- Déplacer l'ensemble du graphique dans la fenêtre avec les flèches violettes.
- Initialiser aux valeur d'origine simplement pour la taille et la position du graphique
- Imprimer directement le graphique
- L'enregistrer sous le nom " générique en cours"+"Trg.BMP". L'enregistrement est également fait dans le presse-papier du système qui est utilisable dans les autres programmes comme Word sous le mode copier/coller.
- Quitter les tris : on revient à la fenêtre principale dans laquelle on trouvera le fichier *.TRG qui a servi pour la confection du graphique
Les options suivantes sont spécifiques au graphique triangulaire:
Dans la gestion des points, cocher l'option Intitulés longs fait apparaitre des intitulés qui doivent être entrés dans le fichier *.TRG avec l'éditeur. Ces intitulés sont à situer dans la ligne de chaque question à droite des nombres. En leur absence c'est l'intitulé court qui est affiché.
On peut sous l'éditeur modifier le titre (ligne 1) et les 3 intitulés des codes 1, 2 et 3 (3 lignes).
On peut faire varier l'aspect des traits intérieurs au graphique. Par défaut ils sont en noir, on peut les rendre plus discrets en gris ou les supprimer par l'option rien.
L'option déplacement des côtés permet de ne visualiser que la partie intéressante du graphique où sont concentrés les points. En effet bien souvent les variations ne sont pas gigantesques bien que significatives. En cliquant sur les flèches dans un sens ou dans l'autre on fait apparaitre ou disparaitre toutes les parties inutiles du graphique. Si on va trop loin on fait disparaître des points et il faut revenir en arrière. Le graphique se trouve ainsi réduit mais on peut en augmenter la taille par l'option prévue. Dans l'exemple suivant extrait de REL86 on teste 5 croyances : Jésus-Christ est Fils de Dieu (oui/non/NR), et coryez vous (oui/non/NR) à la Résurrection, aux miracles, à l'enfer, au démon ? Sur le graphique CROY0 on voit que les points n'occupent qu'une petite part du graphique.
{bml croy0.bmp}
On supprime les parties non utiles du graphique, on met des intitulés longs et on a le graphique suivant CROY1 :
{bml croy1.bmp}
On voit sur ce graphique que la croyance centrale (JC est Fils de Dieu) est du côté du pôle de croyance (la position exacte correspond à la première lettre de l'intitulé).mais avec le plus fort taux de non-réponses (20%). Les croyances à l'enfer et au démon (ou diable) sont pratiquement confondues avec 60% de non-croyance. Les deux autres points Résurrection et croyances au miracles sont intermédiaires : on peut considérer qu'ils sont mis sur le même plan.
Enfin une option qui est utilisé dans l'exemple des Eléments de méthode relie des points entre eux. Ceci est fait automatiquement quand des points ont les mêmes trois premiers caractères identiques. On peut ainsi réaliser sous forme de graphique triangulaire un tableau croisé. D'une manière pratique on peut se servir sous l'éditeur des résultats en pourcentage d'un tri croisé que l'on mettra au format de *.TRG et que l'on sauvegardera sous ce nom.
Par défaut le graphique est triangulaire, mais on peut le mettre à angle droit pour des raisons pédagogiques, afin de faire comprendre la logique du graphique triangulaire en faisant apparaitre ou non la 3e coordonnée : option réinitialisation angulaire du graphique.
La taille des caractères est modifiable, de même que la taille des points
Retour table des matières
L'analyse factorielle d'un questionnaire se fait sur les modalités des différentes questions choisies. Rappelons qu'une question a plusieurs modalités depuis la non-réponse jusqu'au code-max. Par exemple la question sexe (en 3 caractères SEX) a deux modalités, masculin et féminin codées chacune en 4 caractères (SEX1 et SEX2).
La première opération à faire quand on lance l'étape 1 : création des modalités est de choisir des questions dans la partie active de *.POS qui est proposée dans la liste de gauche. Après avoir sélectionné une ou plusieurs questions, on les ajoute dans la liste des actives ou dans celle des supplémentaires.
Combien de questions ? Dès que l'on a mis des questions dans une des deux listes actives ou supplémentaires, le programme indique combien de modalités actives ou supplémentaires cela engendre. L'expérience montre que :
- Une analyse à moins de 50 modalités actives ne donne pas beaucoup plus de renseignements que l'examen de plusieurs tableaux croisés.
- Qu'au de 150 à 200 modalités, les facteurs sont d'une généralité telle que l'intérêt n'est pas toujours présent.
- L'optimum est à une centaine de modalités actives, le nombre de supplémentaire n'ayant pas trop d'importance s'il est raisonnable (une cinquantaine au plus).
Que mettre en actives ? A ce niveau du programme, c'est toute une question qui est mise en active ou en supplémentaire. On met en active les questions sur lesquels seront faites les typologies, les regroupements, celles qui sont spécifiques à l'enquête considérée, c'est à dire les opinions, les comportements, les pratiques, etc.
On met en supplémentaires, c'est à dire à titre de modalités illustratives, ne participant à la création des facteurs, mais se positionnant au plus près des modalités actives qui leur ressemblent le plus, les modalités qui permettent une "explication" des comportements, c'est à dire le sexe, l'âge, la position sociale, le niveau d'étude, etc. Si on faisait l'inverse, la typologie devrait être la même pour toutes les enquêtes représentatives et des modalités de comportement différentes selon les enquêtes. On ne le souhaite évidemment pas : on souhaite que chaque typologie de chaque enquête soit spécifique étant entendu que les modalités illustratives auront des comportements différents selon les enquêtes.
Le programme met automatiquement en supplémentaires, les codes zéros qui correspondent au non-réponse (dont le statut est incertain en général).
En niveau 1, une fois que les choix sont faits, on lance la création des modalités et en fenêtre principale on a un compte-rendu des options choisies. On peut alors passer à l'étape 2 suivante.
En niveau 2, les options supplémentaires sont à prendre après avoir choisi sa liste de variables (des modifications de la liste en annulent certaines) :
Ne pas prendre en compte les codes zéro : cette option permet d'exclure toutes les non-réponses de l'analyse factorielle. Comme elles sont en supplémentaires, cela ne change pas l'analyse avec ces non-réponses, celles-ci disparaissent simplement. Cette option est surtout utile quand on a beaucoup de supplémentaires de type "modalités illustratives" et que l'on veut rendre le graphique plus lisible. Autre utilité, quand on utilise des variables en présence/absence, en zéro/un, ce qui permet de ne visualiser que les présences;
Ajouter les individus en supplémentaires : on peut ainsi visualiser les individus d'une enquête. Pour repérer les individus, soit on laisse le système donne le numéro d'ordre, soit on coche "il y a un numéro d'individu existant dans les données", ce qui permet de choisir soi-même la zone de lecture dans l'enregistrement dont on doit alors indiquer la position du début de lecture du nom, puis son nombre de caractères (4 au maximum). On peut ainsi également visualiser des zones de variables correspondant à des données. L'inconvénient de la procédure des individus supplémentaires est d'allonger notablement le temps de calcul des facteurs et le temps d'affichage.
Ne pas vérifier les codes-max : par défaut, ils sont vérifiés. Si le nombre de 50 erreurs n'est pas atteint, les codes fautifs (plus grands que le code-max) sont ramenés à zéro. Au-delà de 50 erreurs, le programme s'arrête. Cette option permet en fait de mettre à zéro des hors-codes même s'ils sont nompbreux.
Ne pas tenir compte des supplémentaires du fichier précédent : si un fichier de modalité à déjà été créé, tous les intitulés longs qui existent déjà sont conservés et les choix des supplémentaires antérieurs. Si l'on coche cette case, on revient au système par défaut : appartenance à la liste active ou supplémentaire, codes zéro en non réponse.
Retour table des matières
Une fenêtre de modification des modalités apparaît. Cette étape est facultative, elle permet deux opérations (qui peuvent être faites dans n'importe quel ordre):
1) Modification des supplémentaires : il suffit de cliquer sur une modalité pour inverser son statut de supplémentaire (S apparent) ou d'active (rien) la modification apparaît tant dans la liste de gauche que dans le récapitulatif de droire.
2) Récapitulatif et modification intitulé :en cliquant sur une modalité on peut modifier (ou créer) un intitulé long qui, dans le plan factoriel permettra de remplacer le code court (nom de question + numéro de modalité) par un intitulé plus explicite. Par exemple on remplace SEX1 par Masculin et SEX2 par Féminin. La longueur maximum est de 25 (la taille de l'écran de saisie) mais il est préférable en général de n'avoir que des intitulés plus court, 5 à 10 lettres pour éviter les superpositions de points.
On peut passer au suivant directement en utilisant la commande correspondante (ou Entrée). Mais on peut opérer en cliquant chaque modalité.
3) A la fin, enregistrer l'ensemble permettra de revenir à la fenêtre principale et de passer à l'étape suivante. On peut revenir à cette étape le cas échéant.
Données textuelles
Dans le cas des données textuelles, la partie basse de la fenêtre concerne les lignes du tableau où les mêmes possibilités que pour les modalités sont offertes avec quelques différences :
- tant pour les lignes que pour les colonnes, la sélection multiple est possible (en cliquant ou en déplaçant la souris). Une nouvelle sélection inverse le processus. Si l'ordre des lignes, qui est par fréquence croissante à la première utilisation, ne convient pas, il faudra passer par l'étape d'agrégation manuelle des lignes ou le tri est possible (mais en créant un nouveau tableau de burt avec un générique incrémenté). Les intitulés longs pour les lignes sont de 10 au maximum.
Données textuelles : dans le cas du traitement des données textuelles, la possibilité de modification des intitulés de colonne est possible aussi pour les lignes.
Retour table des matières
C'est une étape facultative. Son principe est de prendre toutes les modalités définies à l'étape antérieure, de les croiser toutes deux à deux et de calculer toutes les forces de liaison par l'intermédiaire d'un PEM (cf chap 1 § 6-10 dans les éléments de méthode).
Résultats : ils sont donnés dans la fenêtre principale sous le nom *.PRO (comme profil). Pour chacune des modalités dans l'ordre initial on donne le profil des autres modalités qui lui sont associées par ordre décroissant de PEM. On trouvera des exemples d'utilisation au § 7 du chap 1 des éléments de méthode.
Options :
La fenêtre propose des options par défaut :
Edition de tableaux. La valeur par défaut des éditions de tableau est qu'ils sont édités si le nombre de lignes et le nombre de colonnes est égal au maximum à 30. Sinon les tableaux seront édités, quelque soit leur taille.
Noms courts ou longs pour l'édition. Les noms longs (10 car.) sont utilisés par défaut. Sinon l'édition est compactée en 4 caractères avec au choix le nom court ou les 4 premiers caractères du nom long.
PEM positifs et négatifs. Seuls les écarts positifs sont pris en compte par défaut. Sinon les écarts positifs et négatifs sont utilisés
PEM significatifs ou non. Par défaut tous les PEM sont pris en compte quelque soit le degré de significativité du tableau à partir duquel il est fait. Sinon il faut choisir le seuil du test (risque de 10%, 5%, 1%)
Options complémentaires (utilisateurs avancés)
- Diagonalisation du fichier. En plus du tableau observé, l'algorithme de chargement de la diagonale est appliqué sur le tableau avec même marge qui est examiné à la suite de l'observé. Cette option s'applique sur de petits tableaux dont on veut faire une analyse de PEM global avec tout les détail des opérations. Il n'y a pas de permutation de lignes et colonnes et l'indice Khi2 / khi2max est calculé.
- Liaison entre lignes du tableau (PEL). Les liens entre lignes sont calculés en prenant la moyenne des valeurs absolues des différences des PEM. L'indice est ensuite soustrait à 100 pour avoir un indice de proximité, la valeur par défaut au démarrage dans le graphique est fixée à 90. Pour minimiser le temps d'affichage, par défaut on ne prend que les 2000 premières valeurs. Sinon on peut prendre toutes les valeurs de l'indice entre 80 et 100% de proximité ou encore toutes les valeurs.
En niveau 1, le calcul des facteurs sur le tableau de Burt qui croise toutes les modalitas deux à deux (*.BRT) se fait avec les options par défaut suivantes :
L'analyse est l'analyse des correspondances
Le nombre de facteurs extraits est de 3
L'édition se fait selon le nombre de modalités : s'il y en a moins de 50, l'édition se fait sous la forme traditionnelle, les modalités étant rangées dans l'ordre initial et l'on a pour chacun des trois facteurs la coordonnée factorielle en millièmes sous la rubrique F= ; on a sous la rubrique CPF la Contribution Par Facteur dont la somme fait 1000. La coordonnée servira à positionner le point dans le plan, la contribution au facteur permettra de voir si la modalité a contribué ou non au facteur. On a d'abord un tableau pour les modalités actives, puis un pour les modalités supplémentaires où les contribution sont simulées : ce seraient celles d'une variable active qui serait identique à la supplémentaire.
S'il y a au moins 50 modalités, l'édition se fait de manière "triée", c'est à dire que pour chaque facteur les modalités sont triées par contribution décroissante en partant du côté négatif du facteur. Sont sautées toutes les modalités de contribution inférieure à la moyenne (la moyenne est de 1000 divisé par le nombre de modalités). Puis l'affichage reprend du côté positif du facteur par ordre croissant des contributions. Ceci est fait pour les modalités actives, puis pour les supplémentaires (si aucune n'apparaît, c'est qu'elles sont toutes contributives pour moins que la moyenne ce qui est fréquent : se mettre en niveau 2 pour modifier cette situation).
En niveau 2 une fenêtre de choix des paramètres apparaît elle propose :
Le type d'analyse des écarts à l'indépendance : par défaut c'est l'analyse des correspondances mais on peut choisir aussi l'analyse en composantes principales. Attention le tableau sur lequel porte le type d'analyse est celui des écarts à l'indépendance, non le tableau d'origine. En correspondances cela revient au même puisque le facteur zéro d'une analyse des correspondances correspond à l'indépendance mais non en composantes principales ou le facteur initial est proche de l'indépendance mais n'y est pas identique. De ce fait les écarts au facteur zéro en composantes principales ne sont pas des écarts à l'indépendance. Ici le tableau dont on fait l'analyse est bien le tableau des écarts où l'on confronte une méthode avec pondération par les marges (correspondances) ou sans pondération (composantes principales). Pour une justification des méthodes et des exemples, voir dans les éléments de méthode l'article "Pièges de l'AFC".
Nombre de facteurs à extraire : 3 par défaut. 2 sont un minimum il est rarement utile d'aller plus loin que 5 ou 6.
Type d'édition : 3 types d'édition sont possibles : compactée, triée ou étendue. L'édition par défaut est compactée : modalités en ligne, facteurs en colonne. Pour l'édition triée voir plus haut en niveau 1
Si l'édition est triée on peut choisir la contribution minimum pour l'édition des colonnes qui est par défaut la moyenne. On peut demander l'impression des lignes du tableau et choisir aussi la contribution minimum pour l'édition.
L'édition étendue donne pour les modalités dans l'ordre d'origine :
- sous la rubrique QLT, ce que l'on appelle traditionnellement la qualité de la représentation : c'est un indice dérivé de la contribution relative à chaque modalité dont a cumulé les valeurs pour les facteurs affichés. Si tous les facteurs étaient affichés, la QLT serait par définition égale à 1000.
- pour chaque facteur on trouve avant la contribution relative au facteur (CPF) la contribution relative à chaque modalité nommée COS2 car elle peut être assimilé au carré du cosinus entre la modalité et le facteur dans une représentation géométrique. On la trouve aussi sous le nom de COR car on peut l'assimiler à une corrélation.
Si l'on considère que la contribution d'une case au phi-deux est la contribution absolue, il existe deux contributions relatives (exprimées ici en millièmes). Si l'on prend comme dénominateur le phi-deux du facteur, c'est à dire la valeur propre, on a la CPF, contribution relative au facteur. Si l'on prend comme dénominateur le phi-deux de la modalité (ligne ou colonne) dans le tableau d'origine, on a la contribution relative à la modalité notée COS2.
En bas des modalités actives, une valeur moyenne est donnée : pour la QLT, c'est la contribution moyenne cumulée sur les facteurs affichée, c'est à dire la somme des pourcentages d'explication de chaque facteur (mais ici exprimée en millièmes en non en pourcentages), de même sous la rubrique COS2 de chaque facteur, la moyenne sera le contribution moyenne de chaque facteur, son taux d'explication exprimé en millièmes. Sous la rubrique CPF, la contribution moyenne est simplement obtenue en divisant 1000, le total, par le nombre de modalités actives (lignes ou colonnes).
D'une manière optionnelle on peut faire afficher les lignes du tableau (actives, et supplémentaires si elles existent) . On notera que dans le cas d'un tableau de Burt, ces lignes actives sont strictement identiques au colonnes actives (et que les lignes supplémentaires, strictement identiques aux colonnes supplémentaires ne sont pas calculées et donc ne peuvent être affichées).
Retour table des matières
La fenêtre pour le graphique factoriel présente des points communs avec les précédentes fenêtres graphiques pour les coefficients de modification, la taille du graphique, le déplacement des points, les intitulés longs, les déplacements de l'image, l'enregistrement (ici avec pour nom " générique en cours"+"Fac.BMP") et l'impression. Les spécificités sont les suivantes :
Option PEM : fait apparaître en superposition au plan factoriel des liens entre modalités correspondant à un PEM significatif. En bas la gestion des PEM permet de choisir des liens entre toutes les modalités, entre supplémentaires et actives (élimine les liens entre supplémentaires), ou enfin n'affiche aucun lien avec des supplémentaires. On peut gérer le niveau du PEM qui par défaut est au minimum observé. C'est par essais/erreurs que l'on déterminera le bon niveau. Le niveau de PEM s'enregistre par OK ou par Entrée. Plus le niveau de PEM est fort, moins de liaisons apparaitront.
Le graphe peut être valué ou non : s'il l'est, le trait est d'autant plus important que la valeur du PEM est plus grande, s'il ne l'est pas le trait sera toujours le même.
Les valeurs correspondent aux seuils suivants :
PEM inférieur à 10 : représentation par des points
PEM >= 10 mais <20 : tirets
PEM >=20 mais <30 : trait simple (celui du graphe non valué)
PEM >=30 mais <40 : trait double
PEM >=40 mais <50 : trait triple
PEM >=50 trait quadruple
Complément : il est possible de gérer également la limite supérieure des PEM, par exemple si l'on veut éliminer des PEM trop forts, proches du maximum 100. Pour cela, il suffit d'indiquer l'encadrement souhaité : indiquer la limite supérieure et la limite inférieure séparées par un tiret. Par ex. 90-25 donnera tous les PEM inférieurs ou égaux à 90 et supérieurs ou égaux à 25. Le tiret ne doit être utilisé que s'il y a une borne supérieure.
Taille réelle : par défaut le graphique factoriel est cadré dans la fenêtre ce qui entraine une déformation visible sur la marque de l'origine du graphique marquée par un quadrant dont l'horizontale a même valeur que la verticale s'il n'y a pas de déformation. Si l'option taille réelle est utilisée, il faudra se déplacer pour voir tous les points ou réduire la taille du graphique.
Gestion des points : par défaut fait apparaître tous les points quelque soit leur contribution. On peut ne faire apparaître que les actives ou que les supplémentaires et gérer le niveau de contribution : plus la contribution exigée est forte, moins il y aura de point. On valide le niveau demandé par OK ou Entrée.
Axe horizontal et axe vertical : par défaut on prend le plan 1 en horizontal et 2 en vertical : il est possible de modifier ces valeurs, à condition que l'on ait calculé les valeurs que l'on demande.
Inversion de l'axe des x, des y : comme le sens d'un axe est aléatoire, il est toujours possible d'inverser l'une ou les deux dimensions. Cette option est utile quand on veut comparer deux plans qui ne varient que peu mais dont la modification a inversé l'un ou l'autre des axes.
Points superposés : les points superposés peuvent être déplacés avec la souris. Il suffit de cliquer avec le bouton gauche de la souris sur le point exact affiché (grâce à l'option "point exact") ou sur sa position approximative : l'intitulé du point se met en rouge. On déplace le point en tenant le bouton gauche de la souris enfoncé et on le positionne en relâchant le bouton gauche. Si l'option "point exact" est activée, une ligne rouge permet de relier la position exacte avec l'intitulé déplacé. La sensibilité de proximité de saisie est réglée par le coefficient de modification faible, moyen ou fort.
Mémorisation des points déplacés : la place des points déplacés est mémorisée d'une utilisation à l'autre (sauf le titre). Si l'on a inversé un axe, cette nouvelle position devient la référence à l'utilisation suivante, si l'on est sorti de trideux (ce qui a pour effet l'enregistrement d'un fichier auxiliaire de mémorisation d'extension *.FA2).
Des niveaux différents de Contribution peuvent être demandés pour les actives et les supplémentaires (on affichera les actives de contribution supérieures à la moyenne par exemple et les suppl. de contribution >0). Ces seuils sont également mémorisés. Si deux valeurs différentes sont prises pour actives et suppl., le bouton Act+Sup n'affichera pas de valeur numérique mais un signal. Ce bouton ne sera utilisable globalement que si les deux valeurs de actives et suppl. ont été séparément remises à zéro (affichage puis bouton OK)
Graphe de contribution : pour un facteur quelconque, il est possible de mettre les contributions de ses points dans l'autre dimension en mettant un C (pour contribution) à la place de l'autre axe.
Permutation des axes : on met ce qui est en horizontal en vertical et réciproquement
Agrégation de lignes ou colonnes : il est possible d'agréger par addition des lignes ou des colonnes du tableau. Il suffit de les sélectionner avec le bouton droit de la souris : ils seront alors en couleur (bleus pour les lignes, verts pour les colonnes). Tous les points lignes (réciproquement colonnes) sélectionnés seront agrégés et on doit donner le nom en bas de l'intitulé choisi pour désigner le regroupement. On peut renoncer à une sélection en cliquant sur le point avec le bouton gauche de la souris. La création d'un nouveau tableau (avec un générique incrémenté) ne se fera qu'après avoir utilisé le bouton "associer lignes et/ou colonnes".
Sélection de points pour le graphe des PEM. Quand un graphe de PEM est demandé, il produit le graphe complet. En sélectionnant en couleur avec le bouton droit de la souris un intitulé, le graphe des PEM ne se dessine qu'à partir du point indiqué. On peut en sélectionner plusieurs pour aller de proche en proche dans le graphe. En désélectionnant tout, le graphe entier est rétabli. Pour éviter les temps d'affichage trop long, il est utile de commencer par sélectionner un point.
Le PEM peut être Valué ou Simple : quand il est valué, le trait est d'autant plus épais que la valeur du PEM est forte : petits pointillés pour les PEM inférieurs à 10, pointillés longs entre 20 et 10, trait fin entre 30 et 20, plus épais entre 40 et 30, trait large au-dessus de 40.
L'apparition des traits peu être progressif du plus fort au plus faible et on les fait apparaitre en cliquant sur le signe plus ou disparaitre en utilisant le signe moins.
On peut coupler ces ordres avec des plages indiquées dans le niveau de PEM sous le graphique la plage commence par le plus faible et fini par le plus fort, le tout relié par un tiret : ex. 30-10 fera apparaitre les PEM inférieurs à 30 et supérieurs à 10 (bornes comprises).
Graphe des PEM entre lignes (fichiers *.PEL) : si le graphe des PEM entre lignes existe, il est possible de l'afficher en sélectionnant la case marquée ligne sous la mention PEM. Comme cet indicateur est une moyenne des valeurs absolues des différences de PEM entre lignes, s'il n'y a aucune différence, l'indicateur est nul. Comme on veut un indice de proximité, il est soustrait à 100 et par défaut, la première utilisation porte l'indice à 90. Si l'on veut une plus grande proximité, on augmente la valeur (91, …) 100 correspond à la proximité maximum.
Concordance : si on utilise des données textuelles et que l'on a fait les étapes précédentes, il est possible de demander la concordance sur un mot affiché en cliquant dessus avec la souris tout en tenant la touche Ctrl. Le mot choisi est au centre et son contexte gauche et droit apparait. Un début ou une fin de paragraphe, c'est à dire une absence de contexte gauche ou droit est symbolisé par des étoiles. S'il y a beaucoup de lignes à afficher, le temps préalable à l'affichage peut durer quelques secondes.
Retour table des matières
Pour faire l'analyse factorielle d'un tableau croisé quelconque (d'un "tableau de contingence" dans le langage des statisticiens), il faut pouvoir donner au programme : un tableau, son nombre de lignes et de colonnes, la taille des nombres qui s'y trouvent, les intitulés de lignes, de colonnes et les indications sur les lignes et colonnes actives et supplémentaires.
Le tableau a les contraintes suivantes : les intitulés de colonnes n'y figurent pas mais chaque ligne commence par un intitulé de ligne en 4 caractères. Pour chaque ligne on une succession de nombres tous de même largeur, sans total de ligne. La largeur de chaque nombre est la même pour toutes les lignes et toutes les colonnes. Il s'agit de la largeur totale où les décimales sont admises. Le nombre peut être n'importe où dans la zone définie par la largeur.
Après le dernier nombre de chaque ligne on peut entrer un intitulé long de la ligne, ceci est facultatif.
Le tableau doit être enregistré sous le nom " générique.BRT" . La spécification BRT est en principe celle d'un tableau de Burt, ce qui n'est pas le cas ici où le tableau peut ne pas être carré.
Pour créer un tableau on peut sous éditeur reprendre les résultats d'un tableau croisé (*.TCR) en supprimant tout ce qui est inutile (et en sauvegardant le résultat sous *.BRT)
On peut le créer de toute pièce sous éditeur, importer un fichier Excel (par Import d'une sauvegarde dBase), le créer par Saisie (Dans ces deux cas le nom sera *.DAT et sous l'éditeur on devra relire et sauvegarder sous *.BRT : attention pour sauvegarder sous l'éditeur sans se voir imposer de nom d'extension, il faut être en *.*). On ignorera le fichier *.POS créé qui aura découpé des largeurs supérieures à 3 en colonnes élémentaires qui ne conviennent pas ici.
Pour créer le fichier *Nom générique.MOD nécessaire pour donner les autres informations, on utilisera la structure suivante :
Première ligne : un titre qui sera repris dans le graphique d'analyse factorielle
Deuxième ligne : ligne des paramètres. Il sont écrits en format libre sous la forme "nom du paramètre = valeur du paramètre", leur ordre est indifférent de même que leur écriture en majuscule minuscule. Les paramètre suivants peuvent être utilisés !
LI= nombre de lignes du tableau (actives et supplémentaires)
CO= nombre de colonnes du tableau (actives et supplémentaires)
LA= largeur de la zone des nombres (ou FO ou FM pour Format)
LS= nombre de lignes supplémentaires : elles doivent être à la fin du fichier.
Lignes suivantes : une par colonne commençant par un intitulé court en 4 lettres suivi par 3 caractères blancs ou avec un S au milieu pour désigner une colonne supplémentaire, puis par l'intitulé long. Les S de supplémentaires et les intitulés longs peuvent être faits avec le menu Modification modalités.
Il ne faut évidemment pas utiliser l'étape 1 qui travaille à partir du fichier *.POS inexploitable ici. L'étape 2 on l'a vu est possible, l'étape 3 profil des modalités ajoute ici un calcul des marges du tableau qui permet une vérification.
L'étape 4 calcul des facteurs donne les résultats pour les lignes et pour les colonnes.
L'étape 5 graphique factoriel permet le déplacement tant des points lignes que des points colonnes.
Retour table des matières
Une régression sur données d'enquête se fait sur les modalités des différentes questions choisies. A la différence de l'analyse factorielle qui utilise un grand nombre de modalités, il s'agit ici, avec un petit nombre de modalités de rendre compte en profondeur des liaisons entre un petit nombre de données. Il va falloir sélectionner la question dans laquelle se trouve la modalité à expliquer et les questions où se trouvent les modalités explicatives.
La première opération à faire quand on lance l'étape 1 : création des modalités est de choisir des questions dans la partie active de *.POS qui est proposée dans la liste de gauche. Après avoir sélectionné une ou plusieurs questions, on les ajoute dans la liste des questions choisies.
En niveau 1 d'utilisateur, quand on lance la création des modalités on retrouve en fenêtre principale un affichage analogue à celui venant de la création des modalités en analyse factorielle. En fait la fenêtre de création des modalités est la même mais avec des options spécifiques : les codes zéros sont pris en compte, les individus sont pris en compte avec un numéro d'ordre donné par le système, les codes-max sont vérifiés. Si par hasard ces options ne convenaient pas, il faut passer en niveau 2
En niveau 2 il est possible surtout de ne pas prendre en compte les codes zéros des questions mais cette option n'est possible que si les codes zéro ne sont pris par personne, c'est à dire qu'il n'y a pas de non-réponses ou qu'elles ont été recodées. La vérification ,n'a pas lieu ici mais au niveau de l'étape 3 qui signale le cas échéant des individus qui n'ont pas de réponse à une question ce qui vient du fait qu'on a exclu l'option de non-réponse qui était la leur.
Retour table des matières
Pour faire une régression il faut définir une seule modalité à expliquer et plusieurs modalité explicatives. Dans chaque question d'origine on distingue soit une modalité à expliquer (codée Y) soit une modalité de référence (codée R).
Les autres modalités des questions explicatives autre que la référence sont explicatives (codées X).
Une seule question est à expliquer, plusieurs peuvent être explicatives.
Pour procéder au codage, choisir en 1) le type de question (à expliquer par défaut à la première utilisation), puis cliquer sur la question en 2) puis sur la modalité choisie en 3)
En cas d'erreur reprendre en 1)
D'une manière indépendante, il est possible de modifier les intitulés longs.
Conseil : faire en sorte que les 4 premiers caractères de l'intitulé long soient significatifs car seuls ces caractères sont utilisés dans certains affichages. La longueur maximale est celle de l'affichage du récapitulatif.
Retour table des matières
L'étape 3 lance l'analyse prévue dans le fichier *.Mod sur les données de *.CDG. L'affichage de la fenêtre principale précise d'abord questions et modalités employées puis donne les données de base. Trois analyses sont ensuite données :l'analyse tabulaire, la régression linéaire, la régression logistique. L'analyse tabulaire est une observation des données, les deux régressions des estimations des paramètres en utilisant l'algorithme du maximum de vraisemblance. Pour l'intelligence des résultats voir les deux articles des éléments de méthode tirés du BMS 1999 et du BMS 2000
Deux modifications de l'analyse peuvent être obtenues: il faut au préalable modifier le fichier *.MOD en ajoutant dans la ligne 2 un nouveau paramètre dont les deux lettres sont DE (pour Detail). Pour DE=1 on aura dans l'analyse tabulaire les tableaux croisés qui permettent de calculer les effets (analyse multivariée). Avec DE=2, ce sont les rapports des chances (odds ratios) que l'on observe dans une analyse baptisée alors analyse logistique puisque ses résultats sont comparables à ceux de la régression logistique.
Les résultats sont dans le fichier *.TPR (comme TRi Profond)
Retour table des matières
La régression multiple sur données numériques est plus largement connue que la régression sur données d'enquête, il suffit de disposer d'un tableau de données où on a des colonnes de nombres et désigner quelle est la variable à expliquer et quelles sont les colonnes explicatives.
D'un point de vue plus technique les données seront dans un fichier *.DAT qui peut avoir été importé ou créé par Saisie. On suppose que chaque individu (chaque ligne) a un nom ou un numéro dans ses 4 premiers caractères et que toutes les colonnes ont la même largeur. C'est dans le fichier *.MOD que cette information devra être avec la structure suivante :
Première ligne : titre
Deuxième ligne : ligne des paramètres. Il sont écrits en format libre sous la forme "nom du paramètre = valeur du paramètre", leur ordre est indifférent de même que leur écriture en majuscule minuscule. Les paramètre suivants doivent être utilisés !
LI= nombre de lignes du tableau
CO= nombre de colonnes du tableau
LA= largeur de la zone des nombres (ou FO ou FM pour Format)
Lignes suivantes : une par colonne commençant par un intitulé court en 4 lettres suivi par 3 caractères blancs ou avec un Y au milieu pour désigner une colonne variable à expliquer ou un X pour une variable explicative. Après, à partir de la colonne 8 on peut mettre des intitulés longs (pour mettre ces intitulés on peut utiliser le menu Modification modalités (de la régression ou de l'analyse factorielle) mais uniquement pour l'étape de la modification des intitulés.
Deux modifications de l'analyse peuvent être obtenues: il faut au préalable modifier le fichier *.MOD en ajoutant dans la ligne 2 un nouveau paramètre dont les deux lettres sont DE (pour Detail). Pour DE=1 on aura en plus l'impression des données. Avec DE=2, ce sera le fichier *.CDG qui sera pris comme source des données et non le fichier *.DAT.
Les résultats sont dans le fichier *.REG (comme REGression)
Retour table des matières
Avant de faire une analyse factorielle, il est de bonne pratique de sélectionner les questions qui sont le plus pertinentes et choisir celles-ci pour en faire une analyse globale. A cette fin on utilise une variables d'intérêt (ou plusieurs), c'est-à-dire des questions qui sont au cœur de l'enquête, qui l'ont motivée, dont on attend que les réponses soient éclairées par l'enquête. Une utilisation de cette procédure se trouve dans l'exemple sur le choix de l'option latin. (Cette technique avait alors le nom de TRIFAC)
A cette fin, dans la procédure notée 0 de l'analyse factorielle (notée zéro pour dire qu'elle n'est pas obligatoire mais éventuellement préalable) et intitulée variable d'intérêt, la liste de toutes les questions se trouvant dans le fichier *.pos est proposée. L'utilisateur est invité à en choisir une ou plusieurs.
Le PEM global de chacune des questions de l'enquête va être calculé en croisant chaque question avec la variable d'intérêt et l'on obtiendra ainsi la liste en ordre décroissant des questions qui sont le plus liées à la variable d'intérêt. . Sur le PEM cf Eléments de méthode, chapitre 1 §6-10
Dans le choix des questions pour l'analyse factorielle on sélectionnera ainsi les questions les plus intéressantes. On y ajoutera aussi en élément supplémentaires les questions de statut.
Les profils sont édités avec les noms longs, sauf si on met plus de 5 variables d'intérêt : une option avec les noms courts est alors utilisée. Cependant en niveau 2 cette option par défaut devient option à choisir.
En niveau 2 d'utilisateur, on pourra aussi, en sélectionnant toutes les questions de l'enquête créer un tableau de burt où à l'interserction de chaque ligne et colonne se trouve le PEM correspondant (et zéro par convention sur la diagonale). On crée aussi un tableau de modalités pour toutes les questions de l'enquête. On peut faire ensuite l'analyse factorielle de ce tableau.
Le but est alors d'analyser les questions (et non les modalités) de l'enquête pour voir les rapports qu'elles entretiennent entre elles à l'aide d'un PEM généralisé. Le programme crée un tableau de Burt entre toutes les questions affichées dans la partie active de *.POS, tableau *.BRT à analyser par le calcul des facteurs et à visualiser par un graphique factoriel. Le programme affiche également le fichier *.TRF (pour TRi Factoriel) qui donne un profil de chacune des questions avec par ordre décroissant de PEM les questions qui lui sont associées.
Le but de ce programme de Tri Factoriel des questions (anciennement TRIFAC), à passer en début de dépouillement, est de se faire une idée des domaines de questions qui pourraient être traités dans une même analyse factorielle au niveau des modalités. Comme ici chaque question tient la place d'une modalité, on peut envisager de 200 à 300 questions à traiter en même temps.
Cette procédure TRIFAC peut être passée aussitôt que *.DAT et *.POS existent.
Partie active de *.POS : c'est la liste de questions qui se trouve en tête de fichier, après le titre et la ligne réservée au nombre d'individus ou à des paramètres et avant une interruption de la liste qui peut être : deux étoiles dans la zone des noms de questions ; une ligne blanche ; une ligne vide.
Exemple où la partie active correspond à deux questions :
OUVRIER
1116
ASY 11 4
PAR 4711
**
PRF 9 2
PRE 10 2
ASY 11 4
APA 12 4
ADE 13 4
etc...
Retour table des matières
Question à plusieurs modalités
Une question a plusieurs modalités depuis la non-réponse jusqu'au code-max. Par exemple la question sexe (en 3 caractères SEX) a deux modalités, masculin et féminin codées chacune en 4 caractères (SEX1 et SEX2). Son code-max est de 2.
La format Ascii est un format d'enregistrement des caractères qui est utilisé en particulier pour l'affichage à l'écran ou sur imprimante. C'est ce format qui correspond souvent à l'option Txt ou Texte de certains logiciels.
Le fichier Tri2.ini est généré à chaque nouvelle utilisation de Trideux dans un répertoire donné. Il contient deux lignes, le nom générique en cours dans ce répertoire et le niveau d'utilisateur. Il est mis à jour à chaque modification du nom générique ou du niveau. Comme il est spécifique à un répertoire donné, on peut avoir des utilisations de Trideux dans plusieurs endroits et ces utilisations restent toujours indépendantes.
Retour table des matières
L'assistance technique se fait par mail (phcibois@wanadoo.fr) : il est toujours possible de joindre à sa demande en fichier attaché soit le fichier *.DES (en saisie), soit le fichier *.POS (pour les premières utilisations), soit le fichier *Nom générique.MOD (pour l'analyse factorielle et la régression) en précisant bien la nature du problème.
Toujours préciser la version avec laquelle on travaille en lisant le numéro complet (par exemple 3.1.0) dans Aide puis Numéro de version de Trideux.
Nom générique ou "générique" : c'est la partie commune du nom des fichiers propres à une exploitation dans un répertoire donné. Pour que Trideux fonctionne, il a au minimum besoin d'un fichier de données nommé par exemple Essai.dat et d'un fichier qui décrit la structure de ces données (le nom des questions, leur position, leur code-max) nommé Essai.pos. Le nom qui génére les deux extensions des fichiers est "Essai".
Quand on recode, afin de toujours pouvoir revenir en arrière, les anciens fichiers sont conservés et les nouveaux ont un nom générique légèrement modifié par rapport au précédent. Le dernier caractère du nom est seul modifié en passant au caractère suivant en utilisant l'ordre alphabétique si c'est une lettre, l'ordre numérique si c'est un chiffre.
Dans la documentation l'étoile "*" désigne un nom générique utilisé. Par exemple on parle du fichier de données *.dat et du fichier de position *.pos.
Retour table des matières
Ce premier menu permet de gérer l'entrée dans Trideux, en première exploitation ou dans les exploitations ultérieures, de gérer divers paramètres comme le niveau d'utilisateur, les options pour les impressions et de quitter Trideux.
Quand Trideux a déjà été utilisé, il se positionne automatiquement dans le dernier répertoire actif en utilisant le nom générique en cours alors.
Au tout premier démarrage de Trideux aucun fichier n'est ouvert : éditions et affichages sont muets et si l'on tente de lancer une méthode, le programme signalera que c'est impossible en l'absence de données à traiter et d'indications pour les traiter. Pour que Trideux fonctionne, il a au minimum besoin d'un fichier de données nommé par exemple Essai.dat et d'un fichier qui décrit la structure de ces données (le nom des questions, leur position, leur code-max) nommé Essai.POS. Le nom qui généreNom générique les deux extensions des fichiers est "Essai".
Le premier menu, Première utilisation… ouvre une fenêtre qui guide l'utilisateur en lui posant des questions successives. La première question est de savoir si les données existent ou non. Il s'agit de données lisibles en machine car on suppose que les données existent au moins sur un support papier, même si dans ce cas elles n'existent pas en tant que données lisibles en machine.
Si les données existent en machine, il faut donner un nom générique, c'est à dire qui sera commun à tous les fichiers. L'habitude est de prendre un nom court de 8 caractères au plus mais en fait il suffit que ce nom soit compatible avec windows. Ce nom est sans extension : les extensions (comme .pos ou .dat) seront données automatiquement par Trideux.
Quand on a enregistré un nom générique, un cadre relatif au répertoire apparaît : par défaut on se trouve dans le répertoire où se trouve Trideux. Il vaut mieux affecter un répertoire à ses données : on change avec un double-clic jusqu'au répertoire souhaité, que l'on enregistre avec le bouton correspondant. On peut soit passer à l'étape suivante de la création du descripteur par le bouton correspondant soit le faire plus tard en passant par le menu Saisie.
Si les données existent en machine, la procédure est analogue mais si on clique sur le bouton Passer à l'étape d'importation des données, il faut que le fichier créé sous Excel soit déjà prêt à être utilisé. Pour plus d'information voir Import.
Les trois menus suivants : Précédent du répertoire en cours, Chercher "Tri2.ini" ailleurs et Afficher/modifier répertoire en cours ont le même objectif, permettre à l'utilisateur de faire le choix dans les données déjà traitées dans Trideux et qu'il veut traiter à nouveau. A ces trois menus, il faut ajouter, après une première exploitation les fichiers antérieurs traités qui se trouvent en bas du menu.
Quand on quitte Trideux, dans le répertoire où l'on a travaillé, un fichier auxiliaire permanent nommé Tri2.ini est conservé : il conserve le nom commun aux différents fichiers d'une exploitation donnée (nom générique) et le niveau d'utilisateur. Quand on prend le menu Précédent du répertoire en cours Trideux va lire ce fichier Tri2.ini et y trouve le nom de la précédente exploitation qui devient l'exploitation en cours avec la possibilité de continuer l'exploitation de tous les programmes. En plus, Trideux indique les autres nom génériques d'autres exploitations antérieures qui se trouvent dans le même répertoire. Si l'on veut changer de nom générique, il suffit de prendre le menu Création d'un nom nouveau, et à droite de la fenêtre d'entrer le nom générique choisi.
Si l'on veut travailler dans un autre répertoire que le dernier utilisé, on peut soit rechercher et ouvrir le fichier Tri2.ini qui se trouve dans un répertoire par l'intermédiaire d'une boite de dialogue (menu Chercher "Tri2.ini" ailleurs ), soit prendre le menu Afficher/modifier répertoire en cours qui ouvre une fenêtre permettant de changer de lecteur et de répertoire et de lister tous les fichiers de ce répertoire, de plus le bouton Rechercher un générique dans le répertoire en cours permet de lister, comme précédemment tous les génériques disponibles dans ce nouveau répertoire.
Quant aux fichiers ayant déjà servi, il s'agit toujours des fichiers Tri2.ini des différents répertoires utilisés, avec, entre parenthèses le générique qui y est indiqué. En cliquant dessus, on va dans le répertoire considéré et on ouvre le générique indiqué.
Création d'un nom nouveau permet, dans un répertoire donné soit de changer de générique (en utilisant le menu déroulant qui donne la liste des génériques disponibles), soit de créer de toute pièce une nouvelle exploitation : pour commencer il faut indiquer le nouveau générique, ce qui permet ensuite par Saisie de créer des données de toute pièce, par Import, d'importer des données existantes. La solution alternative est de passer par Première utilisation…
Le précédent menu fait aussi apparaître une possibilité de choix du niveau d'utilisateur qui peut venir isolément par le menu correspondant Niveau d'utilisateur. Deux niveaux sont possibles, le niveau 1 qui présente le minimum d'options et qui correspond à un utilisateur débutant et le niveau 2 qui présente toutes les options et correspond à un utilisateur averti.
Le menu Imprimer… ouvre une boite d'option qui permet de définir les paramètres d'impression habituels : police, style et taille. Il s'agit des impressions qui pourront être faites par le bouton imprimer toujours visible à droite des fichiers affichés dans le fenêtre principale. Le Courrier New a été choisi comme police par défaut car beaucoup d'impressions sont des tableaux où il importe que tous les caractères occupent la même superficie.
Enfin Quitter permet de sortir de Trideux : le précédent générique est toujours sauvegardé. Le même résultat est obtenu avec le bouton en bas à gauche Quitter Trideux et la fermeture en haut à droite de la fenêtre principale.
Retour table des matières
Ce programme suppose qu'on a préalablement créé une liste de modalités soit en passant par l'analyse factorielle, soit par la régression et donc que les fichiers *.MOD et *.BRT existent. Son principe est de calculer, pour une modalité donnée la force de la liaison par l'intermédiaire d'un PEM et de trier par ordre décroissant les PEM du plus fort au plus faible. Pour un univers de modalités données on a ainsi un profil qui "explique" une modalité par les autres modalités qui lui sont le plus proche.
Mise en œuvre : Dans le menu Compléments prendre Profil d'une modalité : une fenêtre fait apparaître la liste existante des modalités. En cliquant sur la modalité désirée, celle-ci est affichée en bas. On peut, de manière facultative modifier les intitulés longs des modalités. Les choix précédents sont pris en compte en cliquant sur le bouton Enregistrer et lancer le programme.
Options complémentaires
Par défaut les modalités sont triées par ordre décroissant de PEM. Si l'on veut les modalités dans l'ordre d'origine, cocher la case Profils non triés.
Des résultats plus détaillés avec l'effectif théorique, l'écart à l'indépendance de la case et le khideux du tableau 2 x 2 sont données si l'on coche la case Détail du khideux.
Résultats : ils sont dans le fichier *.PR2 (et non *.PRO comme dans la version DOS qui avait l'inconvénient d'écraser les profils généralisés). Pour une modalité donnée on a par ordre décroissant de PEM son nom, la valeur du PEM, le nombre d'observation communes aux deux modalités, le test de signification (Khideux significatifs à .01 = 3 étoiles, significatif à .05 = 2 étoiles, significatif à à .10 = 1 étoile, ns signifie non significatif.
Exemple : soit le résultat suivant (non trié)
Profil de la modalité BAP1 bap+
Nom PEM Obs. Théorique Ecart Khideux Test Intitulé
BAP0 -100 0 5.79 -5.79 137.43 *** bapnr
BAP1 100 1476 1423.91 52.09 1500.77 *** bap+
BAP2 -100 0 46.31 -46.31 1325.40 *** bap-
MAR0 -31 4 5.79 -1.79 8.16 *** marnr
MAR1 74 1070 1041.88 28.12 73.10 *** mar+
MAR2 -40 137 156.28 -19.28 75.39 *** mariage2
MAR3 -16 265 272.05 -7.05 6.34 ** mariage3
Il correspond aux calculs des PEM entre BAP1 et toutes les autres modalités du tableau croisé suivant :
COL: MAR MAR MAR MAR TOT
Modal. 0 1 2 3
BAP0 1 2 2 1 6
BAP1 4 1070 137 265 1476
BAP2 1 8 23 16 48
TOT 6 1080 162 282 1530
Et du croisement entre BAP1 et les autres modalités issues de la même question soit le tableau sans intérêt :
COL: BAP BAP BAP
Modal. 0 1 2 TOT
BAP0 6 0 0 6
BAP1 0 1476 0 1476
BAP2 0 0 48 48
TOT 6 1476 48 1530
Calculons par exemple le PEM de la case BAP1 MAR1
Effectif observé 1070
Théorique : 1476 x 1080 / 1530 = 1041,88
Ecart à l'indépendance : 1070 - 1041, 88 = 28,12
Maximum de la case (plus petite marge) : 1080
Ecart dans le cas du maximum : 1080 - 1041,88 = 38,12
PEM = 28,12 / 38,12 x 100 = 73,8 arrondi à 74%
Le Khideux est calculé sur le tableau 2 x 2 où pour chaque question on a la modalité choisie et le regroupement de toutes les autres. (Cf dans les éléments de méthode le chapitre 1, §6 à 10 pour le PEM et chap 2 pour le Khideux )
On a le tableau 2 x 2 suivant avec dans chaque case l'observé, le théorique, l'écart à l'indépendance et la contribution au Khideux.
MAR1 Autres
BAP1 1070 406
1041,88 434,12
28,12 -28,12
0,7588 1,8212
Autres 10 44
38,12 15,88
-28,12 28,12
20,7411 49,7786
La somme des contributions au Khideux est de 73,10 (valeur affichée dans le détail du Khideux)
On remarquera que le PEM d'une modalité avec elle-même correspond à 100% : on ne peut pas faire mieux comme liaison. Le PEM avec les autres modalités issues de la même question est à -100%, la liaison est au maximum du négatif.
Retour table des matières
Ces programmes disposent d'une documentation en ligne automatique.
Fusion de fichiers
Il y a plusieurs types de fusions. Soit ce sont de nouveaux individus qui ont la même structure de variables que le fichier déjà existant. On les met simplement à la suite du premier. Soit il s'agit de nouvelles variables pour des individus déjà existants. Pour chaque individu on met les nouvelles données côte à côte avec les anciennes.
Ajout à la suite : Les deux fichiers ont même structure. Le fichier B va être mis à la suite du fichier A et constituer le fichier C
Ajout côte à côte : Les fichiers doivent avoir le même nombre d'individus.
Il y a un premier fichier appelé A qui sera à gauche, et un fichier B qui sera à droite dans le fichier C résultant
Soit on suppose que l'appariement entre individus est correct, soit on le vérifie. Dans ce dernier cas il faudra indiquer la position initiale de l'identificateur d'individu (nom ou numéro) dans A, puis dans B, puis la largeur commune à A et B (nombre de positions)
Si les fichiers *.POS des deux fichiers A et B sont supposés existants (sinon le fichier *.POS résultant ne sera pas créé) chaque fichier doit décrire l'intégralité des données (si ce n'est pas le cas le fichier *.POS résultant sera à corriger manuellement).
Tri d'un fichier
Tri d'un fichier : il faut définir un fichier à trier et un fichier résultant du tri, définir le champ de tri (position initiale de la zone de tri, largeur du champ de 10 caractères au maximum) et si le tri se fait en ordre croissant ou décroissant
Suppression des blancs à droite de chaque enregistrement. Si la position du champ de tri est mise à zéro, seule cette opération de suppression des blancs à droite sera faite
Création d'un fichier *.DAT à partir d'un tableau
But : faire l'opération inverse de celle d'un tableau croisé où à partir de données individuelles (le fichier *.DAT) et d'un fichier de description des données (*.POS) on crée un tableau croisé. Ici on suppose que l'on a un tableau croisé et que l'on veut à partir de lui créer des données individuelles, ce qui permettra de faire d'autres types d'analyses.
Fichiers nécessaires : il faut recopier le tableau dans un fichier *.BRT et les indications nécessaires à sa lecture dans un fichier *.MOD
Dans le fichier *.BRT il ne doit y avoir que les lignes du tableau. L'intitulé en 4 caractères puis les effectifs de chaque case avec toujours la même largeur (qui sera indiquée plus loin). Ne pas mettre les totaux de marge.
Dans le fichier *.MOD, la première ligne est un titre. Les paramètres obligatoires de la 2e ligne sont LI= où l'on indique le nombre de lignes, CO= nombre de colonnes, LA= largeur commune à toutes les cases. Ensuite on met les intitulés de colonne, chacun sur une ligne en 4 caractères.
Examen approfondi d'un tableau
Le but de cet examen approfondi est de donner pour un tableau tous les tableaux suivants : effectifs, pourcentages en ligne et des marges, écart au pourcentage moyen, effectifs théoriques, écarts à l'indépendance, somme des écarts positifs, contributions au khideux et khideux total, PEM de chaque case et khideux associé à chaque PEM.
Ensuite viennent pour chaque modalité les profils de PEM positifs et négatifs, puis, les effectifs correspondant à une liaison maximale, sans modification de l'ordre affiché, puis les écarts à l'indépendance, les contributions au khideux et la somme des écarts pour le calcul du PEM généralisé qui est donné ainsi que le pourcentage du khideux correspondant à la liaison maximum
Fichiers nécessaires : les mêmes que pour l'option précédente. Il faut recopier le tableau dans un fichier *.BRT et les indications nécessaires à sa lecture dans un fichier *.MOD
Dans le fichier *.BRT il ne doit y avoir que les lignes du tableau. L'intitulé en 4 caractères puis les effectifs de chaque case avec toujours la même largeur (qui sera indiquée plus loin). Ne pas mettre les totaux de marge.
Dans le fichier *.MOD, la première ligne est un titre. Les paramètres obligatoires de la 2e ligne sont LI= où l'on indique le nombre de lignes, CO= nombre de colonnes, LA= largeur commune à toutes les cases. Ensuite on met les intitulés de colonne, chacun sur une ligne en 4 caractères.
Ce programme peut être lancé en utilisant dans l'analyse factorielle le programme 3 "profil de modalités" (=Ecapem)
Retour table des matières
Le principe de l'utilisation de Trideux pour les textes consiste à croiser les mots émis par un émetteur avec ses caractéristiques. Le principe est expliqué dans le BMS 1989 "éclairer le vocabulaire des questions ouvertes par les questions fermées : le tableau lexical des questions" (voir aide méthodologique).
D'une manière pratique, par rapport à un fichier ordinaire où une ligne correspond à une individu statistique, la seule différence est que, après les codes correspondant aux réponses aux questions, on met ensuite en format libre le texte.
Par exemple soit l'enquête suivante où on a un numéro d'individu en 4 caractères puis 3 questions sur un caractère puis une réponse en format libre qui peut être de n'importe quelle longueur.
0001234 je pense qu'on devrait réduire les inégalités
0002232 inégalités justifiées dans certaines conditions
etc.
dans le fichier *.POS on ne déclarera que la partie fixe, ici jusqu'en colonne 7 et le fichier de données pourra être un fichier *.DAT standard sur lequel on peut travailler normalement. La présence du fichier *.POS décrivant la partie fixe est indispensable pour la suite.
On peut traiter des questions ouvertes (courtes en général mais une seule à la fois) et des entretiens longs : dans ce cas il est conseillé de faire précéder chaque paragraphe par les caractéristiques de celui qui l'émet (et qui sont donc dupliquées). On peut aussi remplacer les textes par des thèmes standardisés, issu d'une analyse préalable.
L'étape initiale, est la transformation d'un fichier *.DAT en fichier *.TXT par l'étape 0, préparation du fichier texte : on peut supprimer les accents, la ponctuation et passer toutes les majuscules en minuscules : le programme distingue toutes les variations et considérera comme différents des mots qui différent d'une majuscule ou d'un accent. Un mot est seulement une chaine de caractères comprise entre deux blancs, c'est pourquoi la ponctuation doit être éliminée par l'étape inititale.
La première étape est le découpage des mots du texte : chaque mot est associé aux caractéristiques de celui qui l'a émis. La chose à indiquer au programme est l'endroit où se termine la partie fixe des enregistrements (qui sont visualisés). Des statistiques sur les fréquences des mots sont données.
La deuxième étape est la création du tableau lexical des questions qui va mettre en ligne les mots et en colonne les caractéristiques : dans le cas des entretiens où l'on a peu de caractéristiques et d'individus, ce peut être l'individu lui-même. Il faut définir un niveau minimum de fréquence des mots (4 par défaut). On retrouve la logique de la création des modalités d'une analyse factorielle ordinaire.
La troisième étape est le calcul des facteurs par analyse factorielle : il n'y a aucune différence par rapport au programme habituel
De même la quatrième étape est le graphe où des dispositions nouvelles ont été apportées (mais qui valent pour tout graphique)
Trois programmes supplémentaires ont les fonctions suivantes :
- gestion des lignes et colonnes actives et supplémentaires : en plus du changement de statut, on peut modifier les intitulés. C'est l'équivalent des modifications de modalités en analyse factorielle ordinaire.
- agrégation manuelle de lignes du tableau : on peut décider que deux mots doivent être confondus en un seul. Dans le tableau lexical, les deux lignes sont ajoutées avec un nouveau nom. Les listes peuvent être triées par ordre alphabétique, par fréquence ou selon l'ordre d'un facteur.
- les PEM peuvent être calculés avec un certain nombre d'options d'édition. On peut aussi calculer un indice de proximité entre lignes du tableau.
Retour table des matières
Ce programme dispose d'une documentation en ligne automatique.
Le présent programme, facultatif, permet : de choisir un fichier de texte qui n'a pas une extension *.txt (option par défaut) :le choisir manuellement
- de supprimer les accents du texte (option à décliquer éventuellement)
- de supprimer la ponctuation (idem)
- de transformer les majuscules en minuscules (idem)
- inversement de transformer les minuscules en majuscules (idem)
- ou de ne pas modifier les lettres en majuscules et minuscules en décliquant les deux options.
Un nouveau fichier d'extension *.txt sera créé et le générique incrémenté
Pour avoir le détail des traitements possibles, cliquer sur chacune des options
Pour lancer le programme, choisir le fichier par l'intermédiaire de la boite de dialogue ("Choisir le fichier de texte"). Ce n'est pas indispensable si le fichier à traiter est déjà d'extension *.txt et a pour générique le générique courant.
Suppression des accents
Cette option transforme les accents de la manière suivante :
- â,ä,à,å,Ä,Å,æ,Æ,á, deviennent a
- é,ê,ë,è,É, deviennent e
- ï,î,ì, deviennent i
- ô,ö,ò, deviennent o
- û,ù, deviennent u
de même, ç devient c et tous les caractères de code ascii numérique supérieur à 122 et non encore transformés par les règles précédentes sont transformés en blancs"
Suppression de la ponctuation
Cette option transforme en blancs les ponctuations suivantes :
! "" ' ( ) , . : ; ? `
Transformation des majuscules en minuscules
Cette option transforme les majuscules en minuscules.
Transformation des minuscules en majuscules
Option inverse qui transforme les minuscules en majuscules.
Pour laisser le texte en l'état, il suffit de décliquer ces deux options.
Ce programme est équivalent de celui permettant d'indiquer quelles sont les questions utilisées dans une analyse factorielle. On a donc à gauche la liste des questions du fichier *.POS avec leur nom éventuellement. Dans la fenêtre de droite se trouvent les questions sélectionnées en actives (pour la mise en supplémentaire, il faudra utiliser une étape ultérieure de "Gestion des lignes et colonnes du tableau"). En première utilisation, cette fenêtre est vide, mais après une première utilisation, les questions déjà utilisées sont mises par défaut.
Deux options sont à prendre : le statut des codes zéros dans les caractéristiques. Par défaut, ils sont ignorés mais on peut les prendre (et ils seront alors en supplémentaires, ce qui ne change pas les résultats).
La deuxième option concerne la fréquence minimum pour sélectionner un mot. La valeur par défaut est de quatre : elle peut être amenée à trois ou moins mais on risque d'avoir des facteurs associés à quelques mots. La fréquence choisie peut être beaucoup plus forte mais on risque de ne pas tenir compte de mots utiles car les fortes fréquences ne sont le fait que des mots outils ou de mots tellement liés à l'enquête qu'ils sont utilisés par beaucoup d'individus.
Le fichier résultant (*.PRT) indique le nombre de mots retenus en fonction de la fréquence minimum choisie. Un tableau de burt est créé où les mots sont en fréquence croissante et où, à l'intersection d'une modalité et d'un mot se trouve le nombre d'individus qui ont fait cette association. De ce fait, pour une seule question donnée, l'effectif du mot se retrouve sur les différentes modalités de cette question (sauf s'il y avait des non-réponses à cette question et que l'on ait pris l'option d'ignorer les codes zéros).
Retour table des matières
Agrégation manuelle des lignes
Ce programme permet des modifications du fichier de burt (ce qui entrainera un nouveau générique incrémenté d'un chiffre ou d'une lettre). On peut agréger en une seule ligne plusieurs lignes du tableau de burt, par exemple en regroupant des mots qui ne différent que par une ou quelques lettres, soit par erreur, soit parce qu'on juge que le sens est le même.
Lors de la première utilisation, la liste des mots est en ordre de fréquence mais on peut modifier l'ordre en choisissant l'ordre alphabétique (ou l'ordre d'un facteur si l'analyse factorielle est déjà faite).
On agrége en sélectionnant les lignes concernées (en cliquant dessus : une sélection multiple et discontinue est possible). On désélectionne en cliquant dessus à nouveau. Une fois la sélection faite, on indique un intitulé qui remplacera les mots : ce peut être un intitulé d'origine ou un intitulé spécifique (en majuscule par exemple si le reste est en minuscule). Il faut ensuite enregistrer l'agrégation ("entrée" fait cette agrégation par défaut). L'opération peut être réitérée autant de fois que nécessaire mais à la fin, il faudra enregistrer toutes les modifications, ce qui entrainera la création d'un nouveau fichier *.brt et la recopie des fichiers de modalités (*.Mod).
Deux lignes sont agrégées par une addition stricte, colonne par colonne. La fréquence résultante est la somme des fréquences. Du fait de la propriété d'équivalence distributionnelle en analyse des correspondances, la ligne résultante sera intermédiaire des lignes d'origine.
On peut se servir de ce programme simplement pour changer l'ordre des lignes du tableau de Burt, sans faire d'agrégations de lignes. Il faut alors simplement prendre une option de tri et sauvegarder à la fin.
Les traces des opérations sont incrémentées dans le fichier *.prt. Attention, ce fichier par défaut a pour générique le futur nom du tableau de Burt. Si celui-ci n'est pas créé, le fichier *.prt affiché est déjà incrémenté d'une lettre ou d'un chiffre.
Retour table des matières
L'éditeur du système permet de gérer des petits fichiers (taille inférieure à 65000 caractères environ), c'est également la taille limite pour une édition du fichier complet dans la fenêtre principale. Rappelons que Edition et Affichage signifient deux opérations différentes : "éditer" un fichier c'est le montrer mais aussi avoir la possibilité de le modifier. A la différence d'un traitement texte ou l'unité de contexte est le mot ou le paragraphe, dans un éditeur, l'unité de contexte est la ligne. La sauvegarde se fait sans ajout de codes de gestion. L'affichage est une simple visualisation d'un fichier sans possibilité de modification : il se fait dans la fenêtre principale (on peut cependant, après sélection et avec le bouton contextuel droit de la souris, copier des éléments de l'affichage et les coller ailleurs, par exemple comme nom nouveau).
Quand un générique est actif, les deux menus Editeur et Affichage indiquent dans leurs sous-menus quels sont les fichiers qui sont présents et peuvent être affichés et modifiés.
Editeur : quatre fichiers sont modifiables directement :
- Le fichier de description de l'entrée des données par Saisie *.des
- Le fichier où se trouvent les noms des questions de l'enquête *.pos
- Le fichier qui permet le graphique triangulaire *.trg
- Le fichier de gestion des modalités *.mod
Ce sont les fichiers que l'utilisateur peut être amené à manipuler : cela suppose une certaine compétence pour ne pas commettre d'erreur et cette option est utilisable par des utilisateurs avancés.
Les options précédentes ne sont disponibles que si les fichiers en question existent. Les deux options suivante sont toujours disponibles :
Autres : ouvre l'éditeur sans fichier d'entrée. On peut avec les menus et les boutons faire toutes les opérations usuelles. L'option Ouvrir, permet aussi, après sélection d'un fichier, de le renommer ou de le supprimer (envoi à la corbeille) par le bouton contextuel droit de la souris.
L'Editeur gros fichiers correspond à l'appel de l'éditeur Worpad du système. Il permet l'édition de toute taille de fichier, son inconvénient est qu'il ouvre dans son répertoire par défaut, qui n'est pas celui du nom générique et que par défaut le type de fichier qu'il lit est *.doc. Il faut donc remplacer le type par défaut par *.*
Affichage : chaque méthode employée par Trideux génère son type de fichier par exemple *.tap pour les tris à plat, etc. L'affichage de tous les résultats antérieurs déjà existants est possible. De plus les fichiers éditables peuvent être aussi affichés. Pour les fichiers trop importants, l'affichage partiel permet de voir le début des fichiers avec en haut des lignes de chiffres qui permettent, en lisant de haut en bas de trouver la position de chaque caractère des données. (gros tris croisés, fichier de données, tableau de Burt, données textuelles), enfin une option "fichier quelconque" entraine une fenêtre de choix du fichier. Si toutes les lignes du fichier sont identiques, la position du curseur est indiquée en bas à droite sous la forme Lign= numéro de la ligne, Pos= position du caractère dans la ligne.
Le fichier affiché peut être enregistré sous un nom spécifique, il peut être imprimé par les boutons correspondants ou les menus.
Retour table des matières