本帖最后由 solarup 于 2017-5-2 13:24 編輯
雜志社退稿,正好拿來給大家看,因為得不到需要的反饋,放這里也許有人有更好的辦法,所以歡迎批評指正。這文的主要目的是如何“看到”狄克遜公式中那幾個統計量是什么,因為要背的話,狄克遜公式一堆下標太麻煩了。
其實退稿正常,這東西不值一提,我也是野人獻曝,只不過對死活記不住公式的人有點用。
格式化文本見附件。
從狄克遜準則中統計量公式幾何表示分析其構成元素下標的意義
在計量工作中,狄克遜(Dixon)準則(以下簡稱準則)是用于統計判別離群值的常用方法之一,被《GB/T 4883-2008 數據的統計處理和解釋正態樣本離群值的判斷和處理》所采用的。根據重復觀測的次數不同,其統計量有四種不同的公式計算得出。四個公式的大體形式相似,只有式中每個元素的下標不同。如果不明白狄克遜準則的基本思想,只是靠死記硬背,極容易會混淆。本文將對狄克遜準則統計量公式其構成的基本思想進行闡述,以此為依據用一維坐標的方式以幾何化的直觀表示,分析準則的統計公式的構成和每個元素所代表意義,以便使其更容易理解和記憶。
離群值(outlier),即所謂的異常值(abnormal value),又稱作“粗大誤差”,是指對一個被測量重復觀測所獲得的若干測量結果中,與其他值偏離較遠且不符合統計規律的個別值。其存在會歪曲測量結果,必須進行剔除。如果引發異常值的情況不屬于已知原因,僅僅是對某個偏離其他值較大的值進行懷疑,則要按照一定的統計準則進行。否則一旦靠主觀誤判剔除了僅僅反應較大波動的測量結果,會得到虛假的分散性。常見的統計準則有拉依達準則、狄克遜準則和格拉布斯準則。而狄克遜準則適用于觀測次數在3到50次以內的多個異常值的情況[1]。
狄克遜準則的使用方法是:將重復觀測所得的值按照從小到大的順序排列為:x1,x2,...,xn,其中n為重復觀測的次數,而xn為最大值,x1為最小值。按照以下幾種情況計算統計量γij或γ’ij:
① 在n=3~7的情況下: ,
② 在n=8~10的情況下: ,
③ 在n=10~13的情況下: ,
④ 在n≥14的情況下: ,
將以上的γ10,γ’10;…;…;γ22,γ’22分別化簡為γij,γ’ij。設D(α,n)為狄克遜檢驗的臨界值,當γij>γ’ij,γij >D(α,n)時,xn為異常值;當γij<γ’ij,γij >D(α,n)時,則x1為異常值,否則沒有異常值。這里可以看到,四種情況的四個公式非常類似,區別只是構成公式的每一元素的下標不同,單純依靠機械記憶的話,非常容易混淆,所以只有理解了統計量計算公式構成的基本思想,才能夠有效的記憶這四個公式。
狄克遜準則在本質上來說是一種用極差比雙側檢驗來判別離群值的方法[2]。所以要搞清楚準則中統計量計算公式中每個元素的下標意義是什么,可以通過分析下標反映的是極差在一維坐標上長的大小度,以及其所代表哪一側的比值來獲得。
為了抽象和簡化,我們假設每兩個相鄰值之間的差值是等值的。且為了直觀顯示,我們假設n=10。因為x1到x10(xn)是從小到大的順序排列,所以視其為依次落在一個一維橫向坐標上的點。如下圖1中所示:
圖 1 觀測值的一維坐標表示
所謂的極差,是指一系列數值中最大值與最小值之差,當這一系列數值按照順序排列時,極差在一維坐標上反映出來的是一段長度。例如選取x4、x5、x6三個數值作其極差,則極差值為x6-x4,反映在坐標軸上是x4到x6之間線段的長度,如圖2所示。
圖 2 極差在一維坐標上的表示
按照這個思想,我們把γ10所表示的長度用一維坐標表示后如圖3所示:
圖 3 γ10的一維坐標表示
γ10就是如圖所示右側的極值與整個極值的比值。同理,我們把所有的γij和γ’ij的也用一維坐標表示,則如下圖4所示:
圖 4 準則公式中所有γij或γ’ij值的一維坐標表示
從圖4中可以看出,準則中每種情況的公式不過是反映兩側不同側的極值比,只不過γij是右側較大值一端的比值,而γ’ij是左側較小值一端極值的比值。
有了公式整體的直觀表示以后,我們再觀察其下標的意義。其中γ10的分子部分為xn-xn-1,下標的第一個數字1表示xn和xn-1之間的長度;而下標的第二個數字0表示整個長度(xn-x1)與分母所代表的長度(xn-x1)差值為0。其他的統計量同理可得。
假設我們把γ的下標的第一個數字稱之為所含長度,代表要比較的那側的部分極差,而把γ下標的第二個數字稱之為整體余下長度,代表所要比較的那側整體減去下標第二位值后的極差,那么所有的公式的格式就可以統一抽象為:部分所含長度/剩余總體長度。
所以,如果要記憶準則的公式,可以概括為:先看右側(γij)再看左側(γ’ij),部分所含除以總體剩余。
舉例:γ’22的公式是對左側端(或者說小值端)的計算,其包含長度為2,所以分子為x3-x1;總體長度為減去2個項后的剩余,故分母為xn-2-x1。
樣本的觀測值是離散的,但是幾何表示的話,這些離散值不過是落在一維坐標上的一些點。本文為了直觀表示準則的統計公式中每個元素的下標的意義,只是理想的假設這些值是等差的。其實現實情況下,這些值一般為非等差的,但是并不影響下標所反映的一維坐標中次序的關系。通過對幾何表示的直觀觀察,更易理解“克遜準則在本質上來說是一種用極差比雙側檢驗來判別離群值的方法”這句話所體現的基本思想,也更易記憶狄克遜準則統計量的計算公式。
參考文獻:
[1] 葉德培.一級注冊計量師基礎知識及專業實務[M]第三版.北京:中國質檢出版社,2013.
[2] 熊艷艷,吳先球.粗大誤差四種判別準則的比較和應用[J].大學物理實驗,2010,第23(1):66-68
|
-
-
從狄克遜準則中統計量公式改.docx
2017-5-2 13:18 上傳
點擊文件名下載附件
下載積分: 金幣 -1
241.01 KB, 下載次數: 80, 下載積分: 金幣 -1
狄克遜準則統計量
|