本帖最后由 yangzhaosheng 于 2018-4-17 16:03 編輯
目前,有部分朋友認為,做偏倚和線性的分析,其方法應該按照手冊第三章第B節的指導進行,為了方便讀者,我把關鍵的判據內容摘錄如下(原版原文):
MSA手冊偏倚和線性判據.png (28.27 KB, 下載次數: 215)
下載附件
2018-4-17 15:53 上傳
準確地意譯成中文就是:
“9) 在顯著性水平α下,如果滿足以下兩條中的一條就認為偏倚在統計上為零:
? 關于統計量t bias的檢驗P值<α;
或者
? 按下式,零落在1-α的置信區間內(公式略,參見上面圖片)。”
請注意這里的關鍵字眼“or(或者)”,本文后面還會重點提到這個詞。
基于此,有朋友認為應采用如下報告形式:
MSA線性偏倚分析報告.jpg (1.21 MB, 下載次數: 195)
下載附件
2018-4-17 15:53 上傳
相信這樣一份線性偏倚報告伴隨了一些小伙伴很久了吧?而且很多小伙伴也很認真地執行手冊的判據要求,認為統計上,偏倚Bias=0成立,才能接受;否則,當Bias≠0時,這套測量系統就不能被接受。具體的方法就是看Bias=0的線是否落在95%的置信區間內。
當然,還有用回歸分析法的線性報告:
線性回歸分析報告--MSA.jpg (840.09 KB, 下載次數: 199)
下載附件
2018-4-17 15:53 上傳
那么,類似于上述這兩種報告本身的邏輯是什么?
理論上,上述線性、偏倚分析報告的邏輯本身并沒有問題。我們先看第一份偏倚和線性的報告。這份報告的邏輯是基于假設t檢驗法而進行的判斷(當然了,這是在總體方差σ2未知的情況下,如果總體方差σ2是已知的,我們就要用Z檢驗法。區別是,t檢驗法用到了樣本方差S2對總體方差σ2進行無偏估計而得到的近似于Z檢驗統計量的一種檢驗統計量),判斷的結果是測量系統“是否存在顯著的偏倚和線性誤差”。請注意,僅止于此哦,它沒有進一步的判斷!具體進一步判斷后面會講,而且一定要講到,這很重要。
我們再看第二份報告,第二份報告的邏輯是基于一元線性回歸做的一份線性分析報告,當然報告中是根據偏倚進行計算的,但報告的目的僅僅是用于線性擬合優度的判定。
在統計學上,我們通常把統計方法歸類如下:
統計方法分類.png (67 KB, 下載次數: 197)
下載附件
2018-4-17 15:53 上傳
那么,回到MSA手冊第三章第B節的判據上來:
“9) 在顯著性水平α下,如果滿足以下兩條中的一條就認為偏倚在統計上為零:
? 關于統計量t bias的檢驗P值<α;——這個就是P值法
或者
? 按下式,零落在1-α的置信區間內。——這個就是臨界值法”
前文讓小伙伴們注意“or(或者)”,這里要重點提一下這個“or(或者)”。無論是英文的“or”還是中文的“或者”,相信意思不用我解釋了吧。我想說的,手冊的給的兩個判據,其作用是一樣的,只是方法不同,一個是“P值法”,一個“臨界值法”,我們用其中任何一種方法都是可以的。那么,為什么偏偏就有很多朋友會選擇第二條呢?
經過個人反復對現存資料的對照研究發現,其原因很是匪夷所思——翻譯工作的失誤。
經過對照各種第四版MSA手冊的中文翻譯版本,總結了兩點翻譯上的失誤:
(A)把第一條給漏了
(B)在沒漏的情況下,把“or(或者)”翻譯成“如果符合以下兩種情況”。
這樣一來,很多朋友尤其是讀了“漏掉第一條”翻譯版本的朋友就會發生盲目堅持“(A)”判據而無視“(B)”的情況。
而不去讀英文原版手冊的朋友一定也看不到這個“or(或者)”字,而這恰恰是偏倚方法優選的根本理論依據,這種優選是放棄“臨界值法”從而選擇更加便捷而且優于“臨界值法”的“P值法”。
為什么P值法是優選的呢?
我們知道,假設檢驗包括臨界值法和P值法兩種,用臨界值法確定原假設H0的拒絕域時,例如當α=0.05時我們知道要拒絕H0,再取α=0.01時我們一樣也能知道要拒絕H0,但我們不能知道將α再降低一些(注意,是一些,具體多少不清楚)是否還要拒絕H0,而P值法給出的是拒絕H0的最小顯著性水平α,因此,P值法比臨界值法給出了更多有關拒絕域的信息,更能涵蓋“拒絕”與“接受”的范圍,所以P值法在某種程度上是優于臨界值法的,尤其是在只做判斷的而不是尋找拒絕域的情況下。
然而,偏倚分析工作做到這里只完成了一半,另一半工作還需要進一步完成。
另一半工作是什么工作呢?
想要知道答案,我們必須先明白一個道理:那就是手冊給出的假設t檢驗僅僅止于“是否存在顯著偏倚”(線性同理)的判斷,而存在的程度是多少呢?手冊并沒有明確說明。
那我們要不要知道這個“程度”呢,我們舉個計量學方面的例子來說明吧。
舉卡尺比較淺顯易懂,我們就說卡尺吧。
我們使用者當然希望卡尺的誤差是沒有的吧?根據這樣的使用目的,我們要對某卡尺的誤差進行探討,當然應進行如下假設:
原假設H0:卡尺誤差Δ=0
備擇項H1:卡尺誤差Δ≠0
假如通過取樣進行t檢驗我們得出結論:拒絕原假設H0
搞過計量的小伙伴們應該都清楚卡尺在絕大多數情況下都是這種情況吧,換句話說,這把卡尺在統計上存在顯著的誤差。
問題來了,這把卡尺的誤差能被接受嗎?
答案當然是:我們需要進一步看看卡尺誤差的程度再做決定!
而誤差的程度在計量學上不就是“準確度”嗎?和誰比?參考誰?有人說參考量塊,其實那只是確認卡尺誤差的一個必要條件而已,卡尺誤差真正參考的是一個誤差限!和誤差限比,卡尺的誤差程度是多少,這才是我們關心的,至于你用量塊還是用別的什么標準件確定的誤差我不管,只要你符合量傳規則就行。
比如,我給出某測量點的誤差限是±0.03mm,經過校準發現,卡尺的誤差Δ=+0.02mm,那么,這把卡尺的誤差是可以被接受的。
再強調一遍,t檢驗確認的是“是否存在顯著的誤差”的問題,而給出參考比值確認的是“誤差的程度有多大”,這是一個遞進的邏輯關系。
測量儀器的誤差可以這樣理解,測量系統的偏倚為什么就理解不了呢?
只不過要把測量儀器的“誤差限”換成“過程變差”或“公差范圍”,然后乘上100%,不就可以得到測量系統的偏倚程度了嗎?
而這種“程度”思想在Minitab公司的統計軟件中早就被廣泛地應用,應用的歷史要追溯到上個世紀70年代,只是測量系統的應用在2000之后,但思想是一樣的。
而且,Minitab軟件得出的偏倚和線性分析結果包含了上述所提到的各個重點,包括P值法、臨界值法、偏倚的程度(百分率)、線性的程度(百分率),甚至還包括一元線性回歸分析的擬合優度R-sq等等。為了方便讀者朋友,我在下圖中一一標注了出來(當然,具體如何去解讀這個結果,由于篇幅和主題問題,我就不在這里展開了,具體可關注我們五度咨詢中心的微信公眾號:MSA-wdzx,后續有機會我會逐步推出結果解讀的微文):
Minitab偏倚和線性.png (201.4 KB, 下載次數: 209)
下載附件
2018-4-17 15:54 上傳
備注:
①臨界值法
②P值法
③偏倚和線性程度
④回歸分析的擬合優度
試問,這么先進的分析手段不用,我們還要用十幾年前的那張Excel表嗎?而且那張Excel表有多少小伙伴能從統計學上去解釋它的結果呢?它是使用效率有考慮過嗎?我們解釋不清楚,客戶一旦問起來怎么辦?忽悠嗎?
本文的編寫目的就是普及先進的偏倚和線性分析方法和手段,不足的方法我們要——斷——舍——離——,好的方法要果斷引進到實際工作中去,起到真正服務于質量管理的作用。
線性是一個道理,我就不贅述了。
補充內容 (2018-4-17 18:13):
盲目堅持“(A)”判據而無視“(B)”的情況,這句話筆誤,正確的是:盲目堅持“第二條”判據而無視“第一條”判據的情況,在此表示抱歉。 |