Vous êtes sur la page 1sur 15

Interaction Homme-Machine

Jean-Yves Antoine
http://www.sir.blois.univ-tours.fr/~antoine/
IUP Blois
Master 2
Interaction Homme-Machine
Chapitre 7 valuation des systmes interactifs
Le cycle logiciel concerne galement
linteraction avec lutilisateur
IUP Blois
Mastere 2
EVALUATION DE LINTERACTION
Pourquoi valuer ?
Lintuition du concepteur du systme ne peut suffire
Modlisation formelle du systme et de linteraction ne couvre pas tous
les choix de conception
Les recommandations (guidelines) restent des garde-fous et des
bonnes pratiques trop gnrales pour couvrir tous les aspects dune
interaction spcifique.
Le cycle de vie logiciel concerne galement linteraction
Cycle en spirale avec prototypage
Evaluation toutes les tapes du dveloppement
EVALUATION DE LINTERACTION
Comment valuer ?
Avec des utilisateurs: exprimentations
Sans utilisateur: a priori
EVALUATION DE LIHM
Evaluation a priori / heuristique
Evaluation a priori: review dexpert, cognitive walkthrough
Modles prdictfis
Paradigmes dvaluation
Evaluation exprimentale
Evaluation subjective
Tests dutilisabilit avec des utilisateurs potentiels
Tests dacceptabilit auprs de populations chantillon
Evaluation post-commercialisation (ou version de test)
Exprimentation cognitives
: loi de Fitts, Keystroke model, etc
EVALUATION A PRIORI
Modles prdictifs
GOMS, Keystroke, Fitts(cf. chapitre V)
Evaluation heuristique (Nielsen & Mack, 1994)
Revue du systme par un expert (ou plusieurs experts) :
simulation dusages
Validation dun certain nombre dheuristiques ergonomiques (cf.
heuristiques de Nielsen, chapitre II)
Sur spcifications dcran et dinteraction (valuation a priori) ou
systme ou prototype existant
Promenade cognitive (cognitive walkthrough)
EVALUATION A PRIORI
1. Spcification des utilisateurs viss et du systme raliser
sous forme denchanement dcrans
2. Evaluation a priori par des experts en prsence du concepteur
3. Lvaluateur se promne travers les crans en simulant la
ralisation de la tche suivant un scnario crdible. Il value :
si laction a raliser apparatrait de manire vidente
lutilisateur,
si lutilisateur percevrait aisment que laction raliser
est disponible,
si lutilisateur pourra voir le rsultat de son action et
linterprtera correctement
4. Revue critique de lvaluation avec le concepteur
5. Document de synthse (cf. document papier)
Promenade cognitive (Nielsen & Mack, 1994)
(Spencer,2000)
Laboratoire dutilisabilit
Salle quipe de tout le matriel permettant dobserver un utilisateur
prenant en main le logiciel interactif
Observateur(s) ct du sujet, ou cach (salle annexe)
Enregistrement vido, audio, logfiles
Sujet dcrivant son exprience en direct (think aloud ou valuation
cooprative avec lobservateur) ou se contenant de raliser la tche
Exemples : IBM (Boca Raton, Floride), Microsoft, Sun
Etudes de terrain
Conditions plus cologiques par rapport au labo. dutilisabilit
Limitations
Evalue le plus souvent la premire prise en main du logiciel :
pas de suivi de lapprentissage au cours du temps
Ne permet pas une couverture large des fonctionnalits
EVALUATION EXPERIMENTALE
Principe : opinion post-utilisation
1. Session dutilisation du systme par un sujet suivant une tche ou
un scnario clairement dfini
2. Interrogation des sujets pour leur demander leur avis sur le
systme
Diffrentes techniques
Interview libre ou orient (rponses des questions prdfinies)
Questionnaires: chelles de valeurs sur des points prcis
EVALUATION SUBJECTIVE
Interview libre
Le sujet aborde des points qui lont marqu et qui navaient
peut-tre pas retenu lattention du concepteur
Manque dhomognt des avis, prcision variable: analyse
synthtique difficile
% %% %
Interview dirig
Questions ouvertes ou fermes testant des points prcis
Evaluation structure: analyse facilite
Aviez-vous dj rserv un htel en ligne? oui non
Cette fonctionnalit vous semble-t-elle intressante? oui non
Etes-vous facilement arriv rserver un htel? oui non
Cela vous a-t-il pris trop de temps? oui non
EVALUATION SUBJECTIVE
Interview semi-structur : exemple (Nielsen et al. 1986)
Why do you do this ? (connatre le but de lutilisateur)
How do ou do it ?
(rcuprer les sous tches pour appliquer rcursivement les questions)
Why do you not do this in the following manner ?
(comprendre les choix de lutilisateur)
What are the prconditions for doing this ?
(valuer si lutilisateur a compris les conditions de dclenchement)
What are the results of doing this ?
Do errors ever occur when doing this ?
How do you discover and correct these errors ?
EVALUATION SUBJECTIVE
Questionnaires
Lutilisateur a parfois du mal donner des avis tranchs
Evaluation subjective sur une chelle multivalue, sur une chelle
de Lickert ou encore sur une chelle de prfrence
Evaluez de 1 (pas du tout) 4 (tout fait) votre accord avec les
affirmations suivantes :
Cette fonctionnalit est intressante 1 2 3 4
Il est facile de rserver avec le systme 1 2 3 4
Le temps de rservation est acceptable 1 2 3 4
Exemples
QUIS (Chin et al 1988)
IBM Post-Study System Usability Questionnaire (Lewis 1995)
Software Usability Measurement Inventory (Kirakowski et Corbett 1993)
EVALUATION SUBJECTIVE
QUIS (Questionnaire for User Interaction Satisfaction)
www.lap.umd.edu/QUIS/
exprience passe sur le systme test
exprience passe sur dautres systmes
opinion gnrale de lutilisateur sur le systme
affichage
terminologie utilise et information fournie par le systme
apprenabilit
documentation papier et aide en ligne
documentation en ligne
multimdia
tlconfrence et travail collaboratif
installation du systme
EVALUATION SUBJECTIVE
Evaluation subjective: quels critres de qualit?
Exemple : norme ISO 9241
Fiabilit :
adquation la tche
Adaptation aux
utilisateurs entrains
Apprenabilit
Robustesse : tolrance
aux erreurs
chelle de satisfaction
Echelle de satisfaction pour les
fonctionnalits avances
Echelle de perception de la facilit
dapprentissage
Echelle de satisfaction dans la gestion
des erreurs
EVALUATION SUBJECTIVE
Principe : observation post-utilisation
1. Session dutilisation du systme par un sujet suivant une tche ou
un scnario clairement dfini
2. Observation et/ou enregistrement de la session et dpouillement
des donnes
3. Analyse des donnes
Diffrentes approches
Evaluation qualitative
Evaluation quantitative
EVALUATION OBJECTIVE
DEPOUILLEMENT DES OBSERVATIONS
Evaluation qualitative
recherche des problmes dutilisabilit les plus flagrants : cas
exemplaires
Evaluation quantitative
Calcul de mtriques (exemple:% derreurs) partir des
donnes dobservation
Analyse de la vido
Transcription et analyse des verbalisations du sujet
Analyse des prises de notes de lobservateur
Dpouillement des donnes de log : touches presses, parcours
donn par les fichiers de log dun serveur WWW
Mtrique quantitative caractrisant la qualit de linteraction
Exemple (Whiteside, Bennett et Holtzblatt 1988)
Temps dexcution dune tche donne
% de la tche excute compltement
Ratio sessions russies / checs
Nombre derreurs
Distribution du nombre derreurs suivant les sujets
Temps perdu sur des erreurs
Nombre de commandes utilises pour raliser la tche
Frquence dutilisation de laide ou de la documentation
% de commentaires favorables / dfavorables (think aloud)
Nombre de rptitions dune commande errone
Nombre de commandes invoques non utilises
Nombre de fois o le sujet a t distrait de la tche exact
Nombre de fois o le sujet a perdu le contrle du systme
Nombre de fois o le sujet exprime une frustration

EVALUATION OBJECTIVE : TESTS DUTILISABILITE
Tests dutilisabilit de Nielsen (1993)
Efficacit : vrification que les objectifs viss par lutilisateur
sont atteints
Efficience : valuation des ressources mises en uvre pour
atteindre cet objectif (par exemple, temps pour raliser une
tche
Satisfaction : quantification du niveau de satisfaction de
lutilisateur
EVALUATION OBJECTIVE : TESTS DUTILISABILITE
Efficacit : OK si 95 % des utilisateurs russissent le test
Efficience : OK si 90% des utilisateurs mettent moins de 3 minutes
pour raliser une tche
Satisfaction : OK si moins de 10% des utilisateurs expriment un
problme de fonctionnement
norme ISO 9241-11
Exemple norme ISO 9241-11
Fiabilit :
adquation la tche
Adaptation aux
utilisateurs entrains
Apprenabilit
Robustesse : tolrance
aux erreurs
% de buts raliss
Temps de ralisation de la tche
Nb de fonctionnalits avances utilises
Efficacit relative avec un expert
% de fonctions apprises aprs un tps t
Temps pour apprendre une fonction
% erreurs corriges
Temps perdu sur la rcupration des
erreurs
EVALUATION OBJECTIVE: TESTS DUTILISABILITE
Principe
Mme principe quun test dutilisabilit objectif mais les mtriques quon
utilise fixent des seuils de russites attendus.
Utilisation plus frquente pour le systme final : cahier des charges
Exemple de mtriques
Temps (ou nombre de sessions) pour apprendre une fonction spcifique
Temps dexcution dune tche donne
Taux derreurs lors de la ralisation dune tche
Proportion de sujets ayant russi la tche dans un temps imparti
Temps de rtention dune commande apprise
Rsultats dvaluation subjective

Aprs 5 heures dutilisation par des novices et 15 jours
dattente, 50% de la population de test doit tre capable
de raliser 75% de la tche de test correctement.
EVALUATION OBJECTIVE: TESTS DACCEPTATION
Dfinition de la tche de test
Donner une liste de tches excuter au sujet en dbut dexprimentation
Bien choisir les tches proposes en fonction de ce que lon veut valuer
La tche doit amener l'utilisateur se centrer sur les parties de
l'interface sur lesquelles porte lvaluation.
Bien dimensionner le temps allou chaque tche (objectif issu de
lanalyse des besoins, comparaison avec dautres logiciels
existants, ).
Estimer le temps ncessaire en moyenne et se dfinir une
proportion moyenne de dpassement acceptable (cf. mtriques) :
variabilit interindividuelle.
Bien sassurer que l'nonc des tches est suffisamment clair pour
une comprhension par un novice ou un primo-utilisateur.
EVALUATION OBJECTIVE: TESTS DACCEPTATION
PLAN DEVALUATION
Une valuation ne donne de rsultat que si elle est bien prpare
[Basili et al, 1994]
Quels sont les buts gnraux de lvaluation ?
Quelles sont les questions spcifiques pour lesquelles on veut
obtenir une rponse ?
Quel est le paradigme et les techniques de tests ncessaires
pour atteindre ces objectifs ?
Comment organiser en pratique lvaluation : recrutement des
utilisateurs, prparation des utilisateurs, dispositifs de recueil
Sassurer du respect des rgles dontologiques en vigueur
Comment dpouiller, interprter et prsenter les donnes
recueillies ?
PLAN DEVALUATION
subjectif
prdictif (modles)
objectif (observation)
Quel paradigme dvaluation utiliser ?
% %% %
dtection pbs
large porte
modification
comportement
peu coteux
avis usager
prcision
taux rponse
systme non
ncessaire
peu coteux
porte limite
grande expertise
peut rater des pbs
prdictif (experts)
PLAN DEVALUATION
prdictif
labo dutilisabilit
tudes de terrain
quick and dirty
c
o
n
c
e
p
t
i
o
n
p
r
o
t
o
t
y
p
e
p
r
o
d
u
i
t
Quand utiliser un paradigme dvaluation particulier ?
EVALUATION ET DIVERSITE DUTILISATEURS
Echantillonnage de la population
Aussi important en valuation objective que subjective
Caractriser les communauts dutilisateurs vises
Echantillonner la population suivant diffrents critres rpondant cette
caractrisation (homme/femme, experts/novices, habitude de loutil
informatique, ge, catgorie socioprofessionnelle)
Taille de lchantillon : 5, 12, 20, 100? (Dumas & Reddish,1999)
Remarque : tudes pilotes / valuation quick and dirty
Analyse des tests
Analyse multi-critres : distribution des rsultats suivants ces diffrentes
caractristiques
Pertinence statistique des rsultats
Discipline part entire : statistique (protocoles et tests)
EVALUATION ET DIVERSITE DUTILISATEURS
Analyse statistique des rsultats
2.1 2 2 3 1 3 3 1 qualit de laide
1.7 1 3 2 1 2 2 1 facilit usage
4.0 9 4 6 2 0 2 5 anne PC
3.0 2 1 4 4 4 2 4 Niveau dtude
4F,3M M F F M M F F Sexe
40.9 21 44 46 54 43 41 37 Age
Moy 7 6 5 4 3 2 1
Exemple: mesures de qualit dune interface
Temps dapprentissage et persistance de lapprentissage
Rapidit dexcution dune tche (benchmark)
Taux et type derreurs
Satisfaction (subjective) de lutilisateur
Conception dune IHM = compromis entre diffrents facteurs
Experts : la rapidit dexcution prime sur le temps dapprentissage.
Novices : le temps dapprentissage et les taux derreurs rduits priment
sur la rapidit dexcution
Systme critique : rduction du taux derreurs avant tout
Systme industriel : apprentissage et excution coteux
.
EVALUATION ET DIVERSITE DUTILISATEURS
EVALUATION : EN DEHORS DES UTILISATEURS
Lutilisateur nest pas tout et souvent nest pas lacheteur
Typologie dintresses par le choix dun logiciel
[SESL: Ramage, 1997]
Les utilisateurs du logiciel
Leurs collgues et suprieurs (directeurs)
Les dveloppeurs et les revendeurs du logiciel
Le service informatique de lorganisation (si ncessaire)
Les clients de lorganisation
Les syndicats et associations demploys
Les entreprises mres
Les associations demploys
Les actionnaires
Les gouvernements.
Mais lutilisateur reste lalpha et lomega !
PLAN DEVALUATION: DEONTOLOGIE
Consentement clair: formulaire dacceptation
AVANT LA SESSION ! Expliquer au sujet :
Quel est le but de lvaluation et ce que lon attend du sujet
Quelles sont les informations personnelles qui vont tre
demander et sujet : promettre lanonymat
Quil peut sarrter lorsquil le souhaite au cours de la session
Quels sont les enjeux financiers de lvaluation (que le sujet soit
rmunr ou non) sil y en a
Sassurer enfin (et seulement ce moment) de son accord en lui
faisant signer un formulaire de consentement.
Problme: valuation sur le WWW
BIBLIOGRAPHIE
Travaux cits
Chin J., Diehl V., Norman K. (1988) Development of an instrument measuring user
satisfaction of the human-computer interface. Actes ACM CHI88 Human Factors in
Computing Systems. 213-218.
Dumas J., Redish J. (1999) A practical guide to usability testing. Intellect, Exeter, UK.
Lewis J. (1995) IBM computer usability satisfaction questionnaires : psychometric
evaluation and instructions for use. International Journal of Human-Computer
Interaction, 7 (1), 57-78.
Kirakowski J., Corbett M. (1993) SUMI : the Software Usability Measurement Inventory.
British Journal of Educational Technology, 24(3), 210-212.
Nielsen J., Mack R., Bergendorf K., Grischkomswy N. (1986) Integrated software usage in
the professional work environment : evidence from questionnaires and interviews. Actes
CHI86, New-York, NJ., ACM Press. 162-167.
Nielsen J. and Mach R. (Eds.) (1994) Usability inspection methods. John Wiley & Sons.,
New-York, NJ.
Whiteside J., Bennet J., Holtzblatt K. (1988) Usability engineering: our experience and
evolution. In Helander M. (Ed.) Handbook of Human-Computer Interaction. North-
Holland, Amsterdam.
Ouvrages de rfrence
Nielsen J. (1993) Usability enginerring. Academic Press.