系统可用性量表 SUS

25 sec read

最近收到了对两个平台进行对比调研的需求,原以为做下简单的问卷设计就可以了,找了一些资料发现中间的门道还是非常的深,想要很好的掌握实属不易。

可用性测试的问卷有很多中,如下图:

今天主要学习的是SUS,从上面的表中可以看到它总共有10个问题,置信度为85%。

SUS(System Usability Scale)于20世纪80年代中期编制而成,尽管编制者将其描述为“快速而粗糙”的可用性问卷,但是丝毫不影响它的受欢迎程度。SUS量表被认为是80年代经典的可用性问卷标准,用于评估对整体系统的可用性,全球大约43%的专业机构进行整体评估时,将SUS量表作为测试后问卷题目。

SUS调研内容

SUS总共包含10题,5分制。奇数项是正面描述题,偶数项是反面描述题。

将上面的问题转化成中文就是:

注意:在使用SUS的过程中,可以对题目的词语进行替换,这些替换对最后的测量结果都没有影响。比如“system”可替换成网站、产品或者自己产品的名称等。

SUS的优点

SUS量表是通过大量实验为基础的量表设计,也是现在全球使用最多的整体性可行性评价量表。

  • 正反语气间隔,使答案客观。SUS问卷中大家可以发现奇数问题是正面语气,偶数问题是负面语气,这样减少了被测试者的依从性,从而使结果更加客观。
  • 问题可量化为百分数。正面问题转化分值为x-1,负面问题为5-x,所有题目得分后乘以5即得到分值。
  • 步距为奇数。从非常不同意到非常同意,我们一般使用奇数,有很多量表也是这样规定的。因为用户可以选择一个中间状态而不像偶数那样,不具有这个中间状态。
  • 快速收敛到正确结论。在对几种量表研究的同时,SUS是最快达到想要结论的量表。通常来讲,一个量表所测量出的结果与用户真实的意向具有一定的偏差,经研究SUS量表能够在不超过15个样本得到该系统的真实评价,所以该量表具有相当的灵敏性。
  • SUS量表包含易学性与可用性。其中4和9是易学性,其余的表示可用性。这个两个方面代表了整体评价的2个主体方面。具体的题设数量设计,是通过大量的样本研究发现后得出的。

SUS的使用场景

  • 同一个界面,完成不同的任务之间进行比较(因为有的任务可能会更难或不常使用,例如安装软件这个操作可能只需执行一次,而不像其他操作那样频繁使用;用户在完成不同类型和难度的任务之后,分别评多次SUS的分数,然后再进行对比,因为如果所有任务只评一个SUS分数的话,可能会因为某些任务较难而降低了评分);
  • 同一个界面,先后不同版本之间进行比较(不过需要注意的是增加新功能或改版后,用户在初期可能会不适应,而导致SUS在短期内会下降,但长期会回升)
  • 备用方案之间、竞品之间进行比较。
  • 不同种类的界面之间进行比较(例如同一个产品有PC版、WAP版、Android版、iOS版、微信小程序)

SUS分值解读

SUS分数反映的是总体的可用性,单独抽取某个题目的得分在产品之间作横向比较意义不大

针对SUS心理测试特征进行的最大研究中,Bangor等(2008)对收集到的2324份SUS问卷进行了因子分析,进而得出结论:SUS量表只有一个显著因子。Lewis和Sauro(2009)重新分析了Bangor等人的数据以及另一个来自于Lewis和Sauro(2009)的独立的SUS个案后发现,两个研究中数据的因子都聚合到两个因子中。Borsci等(2009)在同一年晚些时候使用了不同的测量模型和一批独立的数据,也得到同样的结论:SUS量表由2额因子构成:题项1、2、3、5、6、7、8、9构成因子一,题项4、10构成因子二。

Lewis和Sauro(2009)根据题目的内容将题项1、2、3、5、6、7、8、9构成的分量表命名为“可用性”,由题项4、10构成的分量表命名为“易学性”。Lewis和Sauro(2009)对数据进行分析,“可用性”子量表的可信度为0.91,“易学性”分量表的可行度为0.7。为使可用性和易学性分数能够与整体SUS量表分数兼容,范围也是0~100,需要对原始数据进行分化转化:可用性量表总分数乘以3.125,易学性量表总分数乘以12.5。

Borsci等(2015)发现SUS针对那些没有什么在线学习工具使用经验的人的分析结果呈线性结构,但对那些经验丰富的用户分析结果呈现二维性结构(可用性及易学性维度)。由于2009年以来发现了相互矛盾的实验情况,因此我们建议从业者在考虑使用可用性及可学性这两个维度的时候要格外小心,特别是当被测用户在使用产品过程中没有特别强烈的体验的时候。

如果某个界面的SUS分数为76,这表示什么?

AT&T Labs的Bangor,Kortum 和Miller在2009年发了一篇文章来解决这个问题。他们在SUS的结尾增加了1个问题(见下图),让用户使用Poor、Ok、Good等形容词来总体评价这个用户界面,其用意是想将SUS与这些形容词关连起来。

以下是每个形容词对应的SUS分数:按照这次的数据,被用户评为Good的那些界面,SUS的平均分为71.4。

不过Bangor等人并没有明确说,是否有足够的证据来证明可以使用71.4或某个分数来判断一个产品是否合格。

除此之外,也可以将SUS分数换算成百分等级来解释,百分等级的意思是指测量的产品或系统相对于总数据库里其他产品或系统的可用性程度。比如SUS得分是73分,其百分等级大约为67,意味着比大约66%的产品可用性更好。

注意,这里的总数据库是Jeff Sauro(2011)通过446个研究,超过5000个用户的SUS反馈的数据库。如果从企业研究团队的角度来看,可以沉淀以往的研究,建立企业自己产品或系统的SUS数据库,从而获得自身的基准数据,当然,这个基准数据也有可能是内部团队制定。在这个分数库中,如果SUS得分为74,那么它比500多个界面中的70%都要高(见下图):

本质上,百分等级用于说明你的应用程序相对于总数据库里其他产品的可用性程度。在表格中找到最接近你SUS值的分数,然后查看对应评级和百分等级。

参考链接:

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

优秀的产品经理/糟糕的产品经理

每个产品经理都希望自己时优秀的,而不是糟糕的。但如何定义是否优秀却没有一个统一的标准。最近看到了一片文章,中间
1 sec read

Paul Graham 的创业建议

描述创业的13句话 选择好合伙人 快速发布 让你的创意进化 (大多数创意来自实现过程) 理解你的用户 (许多成
19 sec read

享受性质量 HQ

为了支持非任务相关方面的用户体验研究,Hassenzahl等(2002)开发了一份评估享受性质量(Hedoni
3 sec read

发表评论

电子邮件地址不会被公开。 必填项已用*标注