“建議專家不要建議”為什么是對的?( 二 )


這個研究并不是孤例 。早在2000年,有人曾綜合調查過136項研究,包括了各式各樣的預測主題,比如黃疸病的診斷、服兵役的適應性、婚姻的滿意度等等比較復雜的判斷,結果是:
其中63項機械判斷更準確 , 65項是機械判斷和臨床判斷同樣好,而只有8項是臨床判斷更好 。
這里我們還沒有計算決策的成本問題,機械判斷顯然比臨床判斷快得多,而且根本不需要請專家,可謂省時省力省錢 。
可這是為什么呢?奧秘其實很簡單:只要是人做判斷,就必定會伴隨各種不可預知的干擾 , 我們之前有介紹過,這個東西叫做“噪聲” 。(點擊回顧關于“噪聲”的解讀)
還是開頭的例子,為什么專家不會同意簡單的取平均分方法呢?因為專家認為這太一刀切了 。
比如我們都聽過,有的數學天才,從小就是迷戀數學,但是英語非常差 , 如果取平均分,那這種數學天才肯定上不了大學了,我們不應該僅僅因為英語不好就抹殺一個天才,對嗎?
專家的邏輯是:我們應該具體問題具體分析 。這聽起來好像非常合情合理 。
但是請注意,毛病恰恰出在這里——
我們往往高估了“具體問題具體分析”的有效性和可實操性 。
開頭例子里的候選B,表達得分是滿分10分,這真的說明他是一個表達天才嗎?在只有兩個候選人的情況下,其中一個人表達得到了10分,這個10分只能被看做是一個“比較級”,而很可能不是“最高級” , 這種情況下押寶在一項指標上,很冒險,并不靠譜 。
更有可能的情況是:你以為的特殊情況,只不過是一般情況,你給自以為的特殊情況打了滿分,這個分數虛高的可能性 , 要大于他真的值一個滿分 。
所以“英語差的數學天才”,這個故事模型也是經不起實操的,極少數真正的天才,的確可以通過自主招生之類的方式被錄取 , 但99.99%的學生不可能走這條路——

“建議專家不要建議”為什么是對的?

文章插圖
到韋神這個級別,也許可以聊聊保送北大的事你以為自己是個數學天才,其實放到最頂級的那群人中間,可能又相形見絀了,所以想考好大學,請盡量把各科分數都提上去 。這本身就是最公平的選拔方式 。
我們來總結一下 , 機械判斷和臨床判斷的區別到底是什么:
機械判斷的不足是,好像抹殺了一些“特殊情況”,缺少“微妙考慮” , 但研究結果告訴我們,這些所謂微妙考慮帶來的收益,不如那些噪聲的破壞力大 。
機械模型,沒有喜怒哀樂,哪怕用非常簡單的甚至不合理的模型(比如在開頭例子中 , 隨機選一個打分項作為高權重) , 最后也有77%的概率比專家們強 。
丹尼爾·卡尼曼對此有一句經典評價:“你幾乎不可能制造一個比專家表現更差的模型 。”
“建議專家不要建議”為什么是對的?

文章插圖
實際上 , 用“機械判斷”,而不是遇事就請教專家,上世紀50年代就有例子 。
1953年 , 麻醉學家阿普加就設計了一個判斷新生兒是否健康的模型,也叫阿普加評分(Apgar Scale),一共五個指標:
膚色、心率、刺激反應、肌肉張力、呼吸
然后,醫生對每一項進行打分,可以打0分、1分或2分,比如膚色 , 全身是粉紅色給2分,四肢有青紫色給1分,全身青紫色給0分 。
“建議專家不要建議”為什么是對的?

文章插圖
最后只需要把5項得分簡單相加就行,不需要加權平均 。這個模型滿分是10分 , 只要嬰兒總分達到7分,就是健康,4-6分 , 不太健康,0-3分,需要立刻采取急救措施 。

相關經驗推薦