TOEICとユーザビリティ評価
皆さんはTOEIC(トーイック)を受験したことはあるでしょうか。TOEICは英語によるコミュニケーション能力を評価する世界共通のテストで、特にビジネス英語能力の測定では定評があります。多くの企業が入社試験や海外派遣要員の選抜に用いており、管理職への昇進条件にしているところもあります。
TOEICテストの結果は10点から990点までのスコアで返されます。英語が苦手で、TOEICを受験するのが初めての人だと400点くらいしか取れないかもしれません。国際化が進んだ現代のビジネス環境では、多くの企業で600点くらいは求められますし、海外で仕事をしたければ750点以上は必要でしょう。
仕事で英語が必要だけれど、TOEICのスコアが悪かった場合はどうすればよいでしょうか? 当然ですが、テストを繰り返し受験するだけでは、スコアはほとんど上がりません。TOEICのスコアを上げるには、英語力をつけないといけません。そのためには、例えば英会話スクールに通って英語を勉強することになります。
英会話スクールでは、先生から様々な課題が与えられます。教室内で、先生は発音の間違いをその場で修正してくれます。ホームワークで作成した英文メールを提出すれば、文法やスペルの間違いを細かく添削してくれます。そうやって、具体的にどこが間違っているのか、なぜ間違っているのかを指摘してもらいながら、徐々に英語力を身につけていきます。半年、1年と英語の勉強を続けて、その後TOEICを再度受験すれば、TOEICスコアは(かなり)アップするはずです。
2種類の評価手法
学習成果の評価は「総括的評価(summative evaluation)」と「形成的評価(formative evaluation)」に大別できます。
総括的評価とは、学習成果の総合的な達成度合いを測定することを目的とした評価です。総括的評価は、学校の期末試験のように一定の学習が終了した後に実施して、通常、得点化を行います。得点化したデータはさらに分析して、得点の分布や平均点を算出します。TOEICは典型的な総括的評価です。
形成的評価とは、小さい学習単位ごとに、どれくらい理解できているか、理解するためには何をしなければならないかをフィードバックするための評価です。英会話スクールの先生が生徒の発音の間違いを正したり、英文メールを添削するのは形成的評価です。形成的評価は得点を付けることが目的ではなく、改善することが目的です。
総括的評価の結果が悪いということは、もう1度教育をやり直さないといけない(例えば“落第”)ということです。総括的評価は序列を付けたり、選別するためには効率的ですが、“能力を伸ばす”という教育の本来の目的にはあまり役に立ちません。そのため、現代の優れた教育者は、総括的評価よりも形成的評価をより重視しています。
インターフェイスの“お受験”
総括的なユーザビリティ評価手法の代表は「パフォーマンス測定」です。数十名のユーザにインターフェイスを使ってもらって、タスク達成率やタスク達成時間、主観的満足度を測定します。結果は、「平均タスク達成率:55%」「平均タスク達成時間:5分30秒」「主観的満足度(平均):2.8(5段階評価)」などといった“得点”で表されます。
形成的なユーザビリティ評価手法の代表は「思考発話法によるユーザテスト」です。5~6名のユーザに“考えていることを話しながら”インターフェイスを使ってもらいます。人数が少ないので達成率や満足度の平均値を算出することは無意味ですし、ユーザは話しながら操作しているので、タスク達成時間は測定自体が無意味です。テスト結果は「送信ボタンがページ下部に配置されているので見つけづらい」といった定性的で具体的なものになります。
教育における評価と同じように、総括的な手法は設計プロセスの“前後”で用い、形成的な手法は設計プロセスの“途中で繰り返し”行います。残念なことに、この区別がついていないデザイナやマネージャは少なくありません。
何らかの数値が得られないとテストを行った気分になれない“教育ママ”のようなマネージャは、プロトタイプを使ってパフォーマンス測定を行おうとします。一方、「テストをやってみたかった」デザイナは、来月公開するウェブサイトについて、思考発話法のユーザテストを実施したいと問い合わせてきます。
インターフェイスを評価しようと思い立ったら、まず自問してください。自分たちはプロジェクトを“これから”始めるのか?、“途中”なのか?、事実上“終了”したのか? この質問に答えれば、評価手法は自ずと決まります。
もう1つ、忘れてはいけない重大な原則があります。それは、総括的評価しか行わないのならば、それは全く無駄な投資だと言うことです。パフォーマンス測定でタスク達成率が50%だとしても、なぜ半数のユーザが失敗したのか原因は分かりません。主観的評価が悪くても、ユーザがどこに不満を持ったのか判断できません。
形成的評価を行わずに、総括的評価だけを行うのは、英語を勉強しないでTOEICを受験するようなものです。結果は悪くて当たり前ですし、評価結果から具体的な改善策は何も得られません。結局、調査会社が作ってくれた報告書以外には、何も成果はなかったことになります。
インターフェイス設計に近道はありません。「プロトタイプ→評価→改善」を繰り返す「反復デザイン」抜きにプロジェクトの成功はあり得ません。総括的評価は、そういった正規の活動を十分に行った後に“卒業試験”として実施するものなのです。
【参考資料】
(1)TOEIC Q&A
http://www.toeic.or.jp/toeic/qa/index.html
「ListeningとReadingのテストだけで英語能力が正しく評価できるのか?」「個々の問題やパートごとの正答数を出さない理由は?」などの疑問に、理路整然と回答しています。
(2)中京大学 三宅研究室:使いやすさの評価
http://yoshio.sccs.chukyo-u.ac.jp/yoSemi/usability/usability-evaluation.html
道具全体としての使いやすさを評価するのが「総括的評価」、設計の過程で、どのようなデザインにすればよいかという情報を得るための評価が「形成的評価」だとしています。
| 固定リンク
« 缶ビール工学 | トップページ | 自動翻訳の使い途 »
