文章

名詞解釋:難度、鑑別度與誘答力

2022/01/24 _時事雜談

按:原文寫於2015年,為某次馬來西亞華文考試的難易度爭議而寫。因屢次有關於這類問題的討論,故將舊文重貼。


因為看了太多「反正選擇題就是爛題目」以及「反正這樣的題目就是太難」的神奇言論,導致我在這個深夜自暴自棄,決定來算個簡單的數學給大家看。

說真的,如果一個族群進步的動力來自教育的話,華人的社會(們)都還有得等。好奇怪,華人都喜歡說自己重視教育,但對教育學的專業知識一點認識都沒有,卻也覺得自己可以講得很爽。然後有專業知識的人都覺得這一切討論都與他無關,不必出來澄清觀念,所以只好輪到我這種半吊子來算數學。

我們要來講三個每次談到考試時,每個人都琅琅上口但其實都不知道那是什麼鬼的名詞:「難度」、「鑑別度」、「誘答力」。但我要特別澄清,我的統計其實不是很好,我底下講的這些是台灣的師培學程最常用的幾個基本概念,不是測驗編制理論的全貌。這些東西也一定都有統計推論上的限制。

先說個傷感情的:這三個名詞都是有數學定義的客觀概念,不是隨便一個路人說「我覺得這太簡單」或「我覺得這沒有鑑別度」就可以了結的。你哪位?但可悲的是,它們的數學定義其實又非常簡單,簡單到你會覺得「幹我以前竟然不知道,好可恥」。

1.難度

一個個來。首先是「難度」。

難度」有兩種最簡單的算法。我們先來約定一下名詞,我們假設難度叫做P,是一個0.0到1.0之間的數字;然後我們假設全體參加考試的人數叫做N,答對某一題的人數叫做R。

第一種「難度」公式簡單到近乎愚蠢,但又非常好用:
 
  • P = R / N
是的,難度就是「有多少比例的人答對這題」。0.5就代表有一半的人答對,這時候我們稱之為「難度適中」。0.9就代表這題有九成的人答對,這題超簡單。

答對某題的人數越多越簡單,越少越難啊,啊不然勒XD

所以其實根本不用爭論馬來西亞那幾題到底難不難,請跟教育主管機關把答對人數調出來就知道了。

第二種公式稍微複雜一點點,因為第一種公式純粹除下去有點讓人不安(這裡的統計弱點暫時不解釋),所以第二條公式決定抓取「高分群的答對率」(我們約定為Ph)、「低分群的答對率」(Pl)來做計算。簡單說,就是從該科總分最高分的人開始往下取,取到25%-33%之間的人數,用公式一算出他們的答對率,稱之為高分群;從最低分往上取一樣的人數,用一樣的方法算出答對率,稱之為低分群。然後,
 
  • P = (Ph + Pl) / 2
是的,這一題高分群有多少比例答對,低分群又有多少比例答對,平均下去就是了。(然後通常高低分群都會選取27%這個經典數字,這也有實務上的理由,在這裡就不說了。)

這兩種工具都有它們統計上的侷限,解釋起來也有不同的功能,但是目前最常用的兩種方便工具。所以說真的,我們在場外各種判斷「這題對12歲小孩會不會太難」真的沒什麼意義,直接套公式跑一下還比較快。

2.鑑別度

第二個名詞,叫做「#鑑別度」。它的定義就是:如果一個題目能讓會的人都答對,不會的人都答錯,那就是鑑別度高。但通常在實務上,我們不可能在考試前就知道學生會不會(這是要等考完才會知道的東西),所以會操作成:如果能讓高分群答對率比較高,低分群答對率比較低,那我們就說這個題目鑑別度很高。我們假設這個「鑑別度」指數為D。在一份試題內,最常用的公式,就是:
 
  • D = Ph - Pl
就這樣,感覺有沒有很北七。就是高分群的答對率減掉低分群的答對率。

如果你減出來的D很大,就代表鑑別度很高——你看,高分群答對一堆,低分群答對很少耶。通常在0.4以上就算是不錯的數字。

如果你減出來趨近於0,代表高低分群面對你的題目時,答對率都一樣高(代表你題目太簡單)、或者一樣低(代表你題目太難),這題目毫無鑑別度可言。特別是後面這個,前幾年有人在討論要不要重回聯考的時候,一堆人一直說「聯考的題目比較難,所以鑑別度比較高」,這完全是錯誤的,因為比較難的題目很可能D值會很慘。反而通常是難度適中的題目比較容易有高鑑別度。

然後還有一種慘劇,就是你的D值是負的,也就是高分群答對較少、低分群答對較多.......這時候你就要檢討一下你題目是不是出了什麼問題了。

3.誘答力

第三個名詞叫做「#誘答力」,這特別要拿出來講,是因為我看到很多看不起選擇題這種題型的發言。我也不是那麼喜歡選擇題,但選擇題和簡答、申論這些題型一樣,都是題目的一種,在測驗上各有其功能。事實上,從測驗編製的角度來說,選擇題是「比較難出題、比較好批改」的題目,一個先苦後甘的概念;相對來說,申論題「比較好出題、比較難批改」,完全相反。

所以我大學時寫測驗編制這堂課的作業時,超討厭出選擇題的。

而為什麼選擇題很難出呢?除了題幹的文字敘述要很講究以外(這個對我來說倒還好)、選項之間要平行並列不能有從屬關係之外(馬來西亞那幾題華文考題,有一題我說出錯了就是這個),重點還在每個選項都要有「誘答力」。

各別選項的「誘答力」要怎麼評估呢?很簡單,就是除了正確答案以外,其他所有選項都要有人選,而且選擇的比例不會落差太大,基本上就代表每個選項的誘答力是平均的。通常有兩個指標來判斷誘答力:
 

1.所有選項都要有人選。所以如果某個選項從頭到尾都沒人選,它的誘答力就是0,這個選項要刪掉重寫一個。

2.每一個被選擇的錯誤選項當中,「低分群」的人數應該要多於「高分群」的人數,因為這是錯誤選項嘛,低分群的人本來就應該選比較多。如果反過來,你這選項也一定有什麼問題,大概也是要刪掉重寫。


有興趣你可以自己隨便出一題看看,你就會發現出一題四選一的單選真的很靠北。另外三個「看起來很正確」的選項超難找的好嗎。所以如果你對一個認真的出題者說「反正選擇題就是爛」,他絕對會翻臉的。

終於算完了,下次有人再來勾勾纏,我就要直接塞這篇了.......