Traduire une échelle d’évaluation

Pourquoi adopter un processus scientifique de traduction et de validation d’un outil tel qu’AttrakDiff ?

Les échelles d’évaluation standardisées de l’UX sont fréquemment utilisées mais les processus de création et de traduction sous-jacents sont souvent incompris. Cela peut amener à de mauvais usages. Nous synthétisons ci-dessous la méthode de traduction de ce types d’échelles.

Souvent, chercheurs ou professionnels traduisent eux-mêmes les outils dont ils ont besoin sans forcément suivre de méthodologie précise. Or, les questionnaires standardisés tels que l’AttrakDiff, le UEQ ou le meCUE ont des propriétés psychométriques qui ne peuvent être préservées que si l’on adapte un processus rigoureux de traduction et de validation.

Plusieurs étapes jalonnent une méthodologie de traduction et de validation transculturellle :

1) Préparation d’une version préliminaire. Plusieurs chercheurs bilingues (ou trilingues dans le cas de l’AttrakDiff) créent une première version française. Ils donnent ensuite cette version française à d’autres chercheurs trilingues (sans leur donner la version originale) et leur demandent de re-traduire les items français en allemand et en anglais. C’est ce qu’on appelle une back-translation (ou traduction renversée).

2) Evaluation par un comité d’experts trilingues des versions traduites. Les items qui ont été retraduits fidèlement par les traducteurs sont conservés. Les autres items sont discutés jusqu’à ce qu’un consensus soit trouvé sur la traduction. Il est possible en cas de doute de contacter l’auteur de l’outil original pour savoir quel sens donner à un item. A noter qu’il ne s’agit pas ici d’une traduction littérale parfaite. Parfois, il est nécessaire d’adapter un peu certains items pour que la signification d’origine soit la même dans la langue traduite. La version de l’outil obtenue à ce stade s’appelle la version expérimentale.

3) Avant de réaliser une étude à grande échelle, on effectue un pré-test de la version expérimentale. Concrètement, on interroge une vingtaine de personnes à qui on demande de remplir le questionnaire traduit en présence d’un chercheur. On demande également aux personnes de commenter à voix haute toutes leurs impressions sur les items et d’évaluer la compréhensibilité de chaque item. On vérifie que tous les items reçoivent un score de compréhensibilité élevé et on réajuste si besoin la version expérimentale en repassant par la deuxième étape « comité ».

4 et 5) Enfin, sur base de la version expérimentale pré-testée et validée par le comité, on réalise une étude de l’expérience utilisateur à grande échelle. Un échantillon supérieur à 100 personnes est nécessaire pour pouvoir faire les analyses statistiques nécessaires. On analyse ensuite diverses propriétés de l’échelle et de chaque sous-échelle (consistance interne notamment) pour vérifier que les propriétés psychométriques de l’instrument de base sont respectées. Par exemple, on vérifie que les 7 items constitutifs de chaque sous-échelle de l’AttrakDiff font bien partie de leur échelle de base. De même, on vérifie les liens entre l’AttrakDiff traduit et d’autres variables de mesures de l’UX pour s’assurer que les scores obtenus sont bien corrélés aux mesures similaires et sont bien indépendants de mesures qui évalueraient des aspects différents de ceux de l’AttrakDiff.

Methodo traduction AttrakDiff
Méthodologie de traduction et de validation transculturelle du questionnaire AttrakDiff (Lallemand, 2015 ; adaptée de Vallerand, 1989)

Questionnaire UX meCUE version française

L’échelle meCUE est un questionnaire standardisé d’évaluation de l’expérience utilisateur (UX). Il a été développé par Minge, Riedel, & Thüring en 2007 sur base du modèle des composantes de l’UX de Thüring et Mahlke. Le meCUE fait partie des échelles généralistes, qui produisent une évaluation globale de l’UX.

Comme pour l’Attrakdiff ou le UEQ, j’ai réalisé la version française de l’échelle meCUE suivant un processus de traduction scientifique. La version française du questionnaire meCUE comporte seulement 30 items (contre 34 au total dans la version d’origine). Les modules du meCUE sont tous indépendants et vous pouvez donc choisir de les passer tous ou d’en sélectionner certains selon vos besoins.

Questionnaire UX meCUE coverpage

Voici le document de présentation de la version française du questionnaire d’évaluation UX meCUE, incluant les items pour la passation et les instructions pour le scoring. Le document est téléchargeable au format pdf.

 

AttrakDiff : une évaluation quantitative de l’UX

Le questionnaire AttrakDiff, élaboré par Hassenzahl et ses collègues en 2003, est un outil de référence pour les chercheurs en UX. Il permet d’évaluer les qualités hédoniques et pragmatiques des systèmes interactifs. Jusqu’en 2014, il n’avait jamais été traduit et validé en version française. Afin de pouvoir étudier l’UX sur des échantillons francophones dans le cadre de ma thèse, j’ai traduit et validé ce questionnaire en suivant une méthodologie scientifique (ce qui permet de garantir les qualités psychométriques de l’outil traduit).

Le modèle théorique d’Hassenzahl

AttrakDiff est basé sur un modèle théorique développé par le chercheur Marc Hassenzahl et son équipe. Selon ce modèle, les utilisateurs perçoivent les produits interactifs selon deux dimensions :

  • les qualités pragmatiques : capacité à soutenir l’accomplissement de « do-goals » (tâches). Focus sur le produit (utilité, utilisabilité, réalisation des tâches). Un produit perçu comme ayant de bonnes qualités pragmatiques sera structuré, clair, contrôlable, efficace, pratique, etc.
  • les qualités hédoniques : capacité à soutenir l’accomplissement de « be-goals ». Focus sur le soi (pourquoi on possède et on utilise un produit particulier). Un produit perçu comme ayant de bonnes qualités hédoniques sera original, créatif, captivant (versant hédonique – stimulation) ou encore présentable, professionnel, de bon goût, qui me rapproche des autres (versant hédonique – identification).

Ces deux dimensions (pragmatique et hédonique) vont influencer la perception subjective de l’attractivité du produit ou système, qui va donner naissance à des comportements (par exemple une utilisation accrue) et émotions (ex : joie, frustration).

Modèle théorique d’Hassenzahl (User Interface Design GmbH, http://attrakdiff.de/)

L’AttrakDiff, un outil de mesure quantitative de l’expérience utilisateur

L’AttrakDiff est un questionnaire standardisé comprenant 4 sous-échelles de 7 items chacune, soit 28 items au total. Il est exploité par la société allemande User Interface Design GmbH, qui propose la passation en ligne gratuitement (en allemand et en anglais) sur son site http://attrakdiff.de/

Les sous-échelles de l’AttrakDiff sont les suivantes :

  • Echelle de qualité pragmatique (QP) : décrit l’utilisabilité du produit et indique à quel point le produit permet aux utilisateurs d’atteindre leur(s) but(s)
  • Echelle de qualité hédonique – stimulation (QH-S) : indique dans quelle mesure le produit peut soutenir le besoin de stimulation
  • Echelle de qualité hédonique – identification (QH-I) : indique dans quelle mesure le produit permet à l’utilisateur de s’identifier à lui
  • Echelle d’attractivité globale (ATT) : décrit la valeur globale du produit basée sur la perception des qualités pragmatiques et hédoniques

Format : Les items se présentent sous la forme de différenciateurs sémantiques (paires de mots contrastés) à évaluer par des échelles de Likert en 7 points. L’ordre de passation des items est standardisé. Ceux-ci sont mélangés et les 7 items d’une même sous-échelle ne sont jamais passés à la suite.

Passation et scoring

Passation : L’AttrakDiff est un outil auto-administré. Les utilisateurs peuvent y répondre aussi bien en présentiel (après un test utilisateur par exemple) qu’en ligne. La passation dure généralement entre 5 et 10 minutes maximum. Pour les plus pressés, une version raccourcie existe en 10 items seulement.

Types d’évaluation : L’AttrakDiff soutient 3 types d’évaluation

  • Evaluation unique : adaptée pour une évaluation unique ou temporaire d’un produit ou système
  • Comparaison avant-après : ce type d’évaluation permet de tester le produit 2x : avant et après l’implémentation de changements. Vous aurez ainsi un résumé détaillé des effets des changements.
  • Comparaison Produit A – Produit B : ce type d’évaluation implique deux produits qui sont évalués et comparés. Vous serez en mesure de voir comment les utilisateurs perçoivent les différents produits.

Scoring : Le scoring de l’AttrakDiff est relativement facile.

  • Tout d’abord, il faut inverser certains items, c’est à dire transformer le score obtenu par son opposé (+3 depuis -3, +2 devient -2, etc). Cette étape est nécessaire car, pour éviter la tendance à l’acquiescement lors de la passation, les items n’ont pas la même valence (parfois le mot à gauche est négatif et parfois il est positif). Avant de calculer un score, il faut donc s’assurer que les items sont bien scorés dans le même sens, c’est à dire que les termes négatifs soient à gauche et les termes positifs à droite.

scoring AttrakDiff

  • Il s’agit ensuite de calculer les moyennes et écart-types pour chaque échelle, ainsi que les intervalles de confiance (le calcul de l’intervalle de confiance est détaillé dans les slides de l’atelier Evaluation UX)

Présentation des résultats

La présentation des résultats peut se faire sous différentes formes. Les concepteurs de l’outil en proposent 3 formes principales.

Diagramme des valeurs moyennes

AttrakDiff_results_1Les valeurs moyennes des différentes dimensions de l’AttrakDiff sont représentées sur ce diagramme. Les qualités hédoniques stimulation et hédoniques identité sont distinguées et l’attractivité globale est présentée.

Les valeurs proches de la moyenne (zone entre 0 et 1) sont standards. Elles ne sont pas négatives et remplissent leur fonction. Toutefois, des améliorations sont possibles sur ces aspects pour créer une UX ou attractivité très positive.

Graphique des paires de mots

Ce diagramme présente les valeurs moyennes pour chaque paire de mots. Les items sont regroupés par sous-échelles et placés autour d’un continuum avec au centre la valeur neutre 0, ce qui permet de distinguer très rapidement quels aspects sont perçus comme négatifs et quels aspects sont perçus comme positifs.

Les valeurs extrêmes (entre -2 et -3 ou à l’inverse entre +2 et +3) sont particulièrement intéressantes. Elles montrent quelles dimensions sont critiques ou au contraire particulièrement positives, et appellent à des actions d’amélioration sur ces aspects.

Portfolio des résultats

Dans cette représentation des résultats, les valeurs moyennes obtenues aux échelles hédoniques sont représentées sur l’axe vertical (avec en bas valeur la plus basse, soit -3) et la valeur moyenne à l’échelle pragmatique est représentée sur l’axe horizontal (à gauche valeur la plus basse). Selon les scores obtenus aux deux dimensions, le produit ou système évalué sera positionné dans l’une des zones, définissant ainsi sa « personnalité » ou son « orientation ».

Chaque valeur moyenne est entourée d’un rectangle représentant l’intervalle de confiance du résultat. Le rectangle de confiance montre si les utilisateurs ont fait une évaluation homogène du produit ou si on constate une grande variété dans l’évaluation. Plus l’intervalle de confiance est grand, plus l’évaluation a varié selon les utilisateurs. Ainsi, il est plus difficile de catégoriser le produit dans une zone particulière. Un petit intervalle de confiance est un avantage car il signifie que les résultats sont plus précis et plus fiables.

Conseils pratiques

  • L’AttrakDiff étant un outil quantitatif, essayez d’avoir un échantillon d’utilisateurs raisonnable pour une passation.
  • Ne modifiez aucun élément de l’AttrakDiff (formulation des items, nombre d’items, format, ordre de passation, etc) sous peine de détériorer les qualités psychométriques du questionnaire.
  • Utilisez la version courte (abridged AttrakDiff) en 10 items si vous ne pouvez pas faire passer l’échelle complète.
  • Ajoutez avant ou après l’AttrakDiff des questions socio-démographiques pour croiser les résultats en fonction de certaines caractéristiques de votre échantillon. Les plus fréquentes sont le sexe, l’âge et le sentiment de maîtrise des technologies.

Retrouvez les items de la version française ainsi que les instructions de passation dans la section Ressources.

La version abrégée du questionnaire consiste en une sélection de dix items sur les 28 que comprend l’outil d’origine Voilà les codes des items à retenir pour la version courte :
• qualité pragmatique (4 items) : QP2, QP3, QP5, QP6 ;
• qualité hédonique (4 items) : QHS5, QHS2, QHI3, QHI4 ;
• attractivité (2 items) : ATT2, ATT5.

Sources