『ユーザテストは5人で十分』の真偽
ヤコブ・ニールセン博士は1993年に『5人のユーザでテストすれば、ユーザビリティ問題の85%が発見できる』という公式を発表しました。それまでの大規模な実験を前提としたアカデミックなユーザビリティに対して、費用対効果に優れた実践的なユーザビリティが普及するきっかけとなりました。(※参考1)
私が被験者10名のユーザテストのデータを使ってこの公式を検証したところ、理論値と実績値はほぼ一致しました。また、ユーザテストでは1人目から3人目くらいまでは新たな問題点の発見が続きますが、4人目以降では新たな発見は少なくなってくるという経験は、ユーザビリティエンジニアならば日常的にしていることでしょう。
ニールセン博士の説に対する反論(※参考2)もありますが、現実的には5人か6人のユーザでテストすることは業界標準になっています。
ニールセンの公式の盲点
では、5人のユーザでテストして、発見された問題点を全て解決すれば、そのインターフェイスは「85点」であると言えるのでしょうか?
ニールセン博士の公式は以下のとおりです。
n人のユーザをテストしてわかるユーザビリティ問題の数=N(1-(1-L)^n)
- N:デザイン上のユーザビリティ問題の数(潜在的なものも含むので架空の値)
- L:一人のユーザをテストして発見できるユーザビリティ問題が全体に占める割合(ニールセン博士は経験値として0.31を提示)
- n:テストするユーザ数
この公式にL=0.31、n=5を代入すると右辺は「0.8436N」となります。仮に100個のユーザビリティ問題が潜在的に含まれているデザインならば、5人でテストして「84.36個=約85個」の問題点が発見できると期待されます。
既にお気付きと思いますが、この公式は「問題点の数」を算出しています。85個の問題点の中には、ユーザのタスク達成を困難にしてしまうような“深刻な問題”もあれば、ユーザに多少の不満を感じさせるだけの“軽微な問題”もあるはずですが、この公式は「問題点の質」については何ら言及していないのです。
ところで、20問で100点満点のテストがあったとして、「85点」を取るためには何問正解すればよいでしょうか? 20問の配点がすべて同じ(5点ずつ)ならば、17問正解すれば85点になります。しかし各問の配点が異なれば、何問正解すれば85点になるとは一概に言えなくなります。最後の1問に50点配点するという極端な例もありえるのです。
さらに、公式の「1-(1-L)^n」の部分は絶対に1(=100%)にはなりません。どんなにテストを繰り返しても、全てのユーザビリティ問題を発見することはできないのです。そして、発見できなかった問題点が「ショーストッパー(深刻な問題)」である可能性は否定できません。
つまり、5人のユーザでテストして、発見した問題点を全て解決したとしても、そのインターフェイスは残念ながら「0点」かもしれないのです。
ユーザテストは無意味なのか?
ソフトウェアの開発において、バグは決して無くならないことが知られています。そこで開発者はテスト工程におけるバグ摘出数のグラフ(バグ曲線)を作成して、累積数が収束してくれば、そのソフトウェアの品質が安定してきたと判断します。
現代のインタラクティブなシステムのユーザインターフェイス設計は、ソフトウェア開発に負けないくらい複雑です。ユーザビリティ問題(バグ)を完全に無くすことが不可能であっても、テストは必要であり、十分に価値があるのです。テストの結果、ユーザビリティ問題の“数”が収束した段階で出荷するというのが現実的な対応策です。
それから、ニールセン博士の真意は「5人のテストを“1回”行えば十分」ということではありません。ニールセン博士が主張しているのは、小規模なテストでも十分に成果(そういう意味で“5人で十分”)が得られるのだから、予算や時間を言い訳にしないで、もっと積極的にテストを実施すべきだということです。さらに、大規模なテストを1回行うよりも、小規模なテストを繰り返すことを推奨しています。
設計チームが1回もテストを行ったことがないのであれば、5人で構わないからテストを行えば、大規模なテストに匹敵する結果(大規模テストの85%の問題点が発見可能)が得られるのです。もし、20人のテストを行う予算が確保できるのならば、その予算を使って設計プロセスの途中に3回から4回のテストを実施すべきなのです。
ユーザビリティエンジニアはニールセン博士の公式を誤用・乱用していはいけません。ユーザテストには限界があるのです。「5ユーザテストを実施すれば、インターフェイスが合格点に達する」という説明は全くの間違いです。
そして、どんなにテストを繰り返してもリスクは“ゼロ”にはならないのですから、設計チームはテスト結果に慢心しないで、出荷後もユーザからのフィードバックに謙虚に耳を傾け続けるべきなのです。
【参考情報】
(1)U-site:5ユーザでテストすれば十分な理由
http://www.usability.gr.jp/alertbox/20000319.html
論文そのものではありませんが、ニールセン博士自身が論文に基づいて書いたコラムです。
(2) Testing Web Sites: Five Users Is Nowhere Near Enough(※PDFファイル/英文)
http://www.winwriters.com/download/chi01_spool.pdf
5ユーザテストに反論したジャレッド・スプール氏の論文です。5人では少なすぎることを実証していますが、残念ながら適切な被験者数は明らかにしていません。
(3)What’s in a Number?(英文)
http://www.stcsig.org/usability/newsletter/0301-number.html
ユーザテストの被験者数に関する議論を総括しています。ウェブサイト全体を評価する場合や、ターゲットユーザが多様な場合は、当然ながら多くの被験者が必要です。また、5ユーザテストの本来の目的は設計途中にユーザフィードバックを得ることであり、完成品の評価ではありません。
| 固定リンク