本帖最后由 solarup 于 2017-5-2 13:24 編輯
雜志社退稿,正好拿來給大家看,因?yàn)榈貌坏叫枰姆答仯胚@里也許有人有更好的辦法,所以歡迎批評(píng)指正。這文的主要目的是如何“看到”狄克遜公式中那幾個(gè)統(tǒng)計(jì)量是什么,因?yàn)橐车脑挘铱诉d公式一堆下標(biāo)太麻煩了。
其實(shí)退稿正常,這東西不值一提,我也是野人獻(xiàn)曝,只不過對(duì)死活記不住公式的人有點(diǎn)用。
格式化文本見附件。
從狄克遜準(zhǔn)則中統(tǒng)計(jì)量公式幾何表示分析其構(gòu)成元素下標(biāo)的意義
在計(jì)量工作中,狄克遜(Dixon)準(zhǔn)則(以下簡(jiǎn)稱準(zhǔn)則)是用于統(tǒng)計(jì)判別離群值的常用方法之一,被《GB/T 4883-2008 數(shù)據(jù)的統(tǒng)計(jì)處理和解釋正態(tài)樣本離群值的判斷和處理》所采用的。根據(jù)重復(fù)觀測(cè)的次數(shù)不同,其統(tǒng)計(jì)量有四種不同的公式計(jì)算得出。四個(gè)公式的大體形式相似,只有式中每個(gè)元素的下標(biāo)不同。如果不明白狄克遜準(zhǔn)則的基本思想,只是靠死記硬背,極容易會(huì)混淆。本文將對(duì)狄克遜準(zhǔn)則統(tǒng)計(jì)量公式其構(gòu)成的基本思想進(jìn)行闡述,以此為依據(jù)用一維坐標(biāo)的方式以幾何化的直觀表示,分析準(zhǔn)則的統(tǒng)計(jì)公式的構(gòu)成和每個(gè)元素所代表意義,以便使其更容易理解和記憶。
離群值(outlier),即所謂的異常值(abnormal value),又稱作“粗大誤差”,是指對(duì)一個(gè)被測(cè)量重復(fù)觀測(cè)所獲得的若干測(cè)量結(jié)果中,與其他值偏離較遠(yuǎn)且不符合統(tǒng)計(jì)規(guī)律的個(gè)別值。其存在會(huì)歪曲測(cè)量結(jié)果,必須進(jìn)行剔除。如果引發(fā)異常值的情況不屬于已知原因,僅僅是對(duì)某個(gè)偏離其他值較大的值進(jìn)行懷疑,則要按照一定的統(tǒng)計(jì)準(zhǔn)則進(jìn)行。否則一旦靠主觀誤判剔除了僅僅反應(yīng)較大波動(dòng)的測(cè)量結(jié)果,會(huì)得到虛假的分散性。常見的統(tǒng)計(jì)準(zhǔn)則有拉依達(dá)準(zhǔn)則、狄克遜準(zhǔn)則和格拉布斯準(zhǔn)則。而狄克遜準(zhǔn)則適用于觀測(cè)次數(shù)在3到50次以內(nèi)的多個(gè)異常值的情況[1]。
狄克遜準(zhǔn)則的使用方法是:將重復(fù)觀測(cè)所得的值按照從小到大的順序排列為:x1,x2,...,xn,其中n為重復(fù)觀測(cè)的次數(shù),而xn為最大值,x1為最小值。按照以下幾種情況計(jì)算統(tǒng)計(jì)量γij或γ’ij:
① 在n=3~7的情況下: ,
② 在n=8~10的情況下: ,
③ 在n=10~13的情況下: ,
④ 在n≥14的情況下: ,
將以上的γ10,γ’10;…;…;γ22,γ’22分別化簡(jiǎn)為γij,γ’ij。設(shè)D(α,n)為狄克遜檢驗(yàn)的臨界值,當(dāng)γij>γ’ij,γij >D(α,n)時(shí),xn為異常值;當(dāng)γij<γ’ij,γij >D(α,n)時(shí),則x1為異常值,否則沒有異常值。這里可以看到,四種情況的四個(gè)公式非常類似,區(qū)別只是構(gòu)成公式的每一元素的下標(biāo)不同,單純依靠機(jī)械記憶的話,非常容易混淆,所以只有理解了統(tǒng)計(jì)量計(jì)算公式構(gòu)成的基本思想,才能夠有效的記憶這四個(gè)公式。
狄克遜準(zhǔn)則在本質(zhì)上來說是一種用極差比雙側(cè)檢驗(yàn)來判別離群值的方法[2]。所以要搞清楚準(zhǔn)則中統(tǒng)計(jì)量計(jì)算公式中每個(gè)元素的下標(biāo)意義是什么,可以通過分析下標(biāo)反映的是極差在一維坐標(biāo)上長(zhǎng)的大小度,以及其所代表哪一側(cè)的比值來獲得。
為了抽象和簡(jiǎn)化,我們假設(shè)每?jī)蓚€(gè)相鄰值之間的差值是等值的。且為了直觀顯示,我們假設(shè)n=10。因?yàn)閤1到x10(xn)是從小到大的順序排列,所以視其為依次落在一個(gè)一維橫向坐標(biāo)上的點(diǎn)。如下圖1中所示:
圖 1 觀測(cè)值的一維坐標(biāo)表示
所謂的極差,是指一系列數(shù)值中最大值與最小值之差,當(dāng)這一系列數(shù)值按照順序排列時(shí),極差在一維坐標(biāo)上反映出來的是一段長(zhǎng)度。例如選取x4、x5、x6三個(gè)數(shù)值作其極差,則極差值為x6-x4,反映在坐標(biāo)軸上是x4到x6之間線段的長(zhǎng)度,如圖2所示。
圖 2 極差在一維坐標(biāo)上的表示
按照這個(gè)思想,我們把γ10所表示的長(zhǎng)度用一維坐標(biāo)表示后如圖3所示:
圖 3 γ10的一維坐標(biāo)表示
γ10就是如圖所示右側(cè)的極值與整個(gè)極值的比值。同理,我們把所有的γij和γ’ij的也用一維坐標(biāo)表示,則如下圖4所示:
圖 4 準(zhǔn)則公式中所有γij或γ’ij值的一維坐標(biāo)表示
從圖4中可以看出,準(zhǔn)則中每種情況的公式不過是反映兩側(cè)不同側(cè)的極值比,只不過γij是右側(cè)較大值一端的比值,而γ’ij是左側(cè)較小值一端極值的比值。
有了公式整體的直觀表示以后,我們?cè)儆^察其下標(biāo)的意義。其中γ10的分子部分為xn-xn-1,下標(biāo)的第一個(gè)數(shù)字1表示xn和xn-1之間的長(zhǎng)度;而下標(biāo)的第二個(gè)數(shù)字0表示整個(gè)長(zhǎng)度(xn-x1)與分母所代表的長(zhǎng)度(xn-x1)差值為0。其他的統(tǒng)計(jì)量同理可得。
假設(shè)我們把γ的下標(biāo)的第一個(gè)數(shù)字稱之為所含長(zhǎng)度,代表要比較的那側(cè)的部分極差,而把γ下標(biāo)的第二個(gè)數(shù)字稱之為整體余下長(zhǎng)度,代表所要比較的那側(cè)整體減去下標(biāo)第二位值后的極差,那么所有的公式的格式就可以統(tǒng)一抽象為:部分所含長(zhǎng)度/剩余總體長(zhǎng)度。
所以,如果要記憶準(zhǔn)則的公式,可以概括為:先看右側(cè)(γij)再看左側(cè)(γ’ij),部分所含除以總體剩余。
舉例:γ’22的公式是對(duì)左側(cè)端(或者說小值端)的計(jì)算,其包含長(zhǎng)度為2,所以分子為x3-x1;總體長(zhǎng)度為減去2個(gè)項(xiàng)后的剩余,故分母為xn-2-x1。
樣本的觀測(cè)值是離散的,但是幾何表示的話,這些離散值不過是落在一維坐標(biāo)上的一些點(diǎn)。本文為了直觀表示準(zhǔn)則的統(tǒng)計(jì)公式中每個(gè)元素的下標(biāo)的意義,只是理想的假設(shè)這些值是等差的。其實(shí)現(xiàn)實(shí)情況下,這些值一般為非等差的,但是并不影響下標(biāo)所反映的一維坐標(biāo)中次序的關(guān)系。通過對(duì)幾何表示的直觀觀察,更易理解“克遜準(zhǔn)則在本質(zhì)上來說是一種用極差比雙側(cè)檢驗(yàn)來判別離群值的方法”這句話所體現(xiàn)的基本思想,也更易記憶狄克遜準(zhǔn)則統(tǒng)計(jì)量的計(jì)算公式。
參考文獻(xiàn):
[1] 葉德培.一級(jí)注冊(cè)計(jì)量師基礎(chǔ)知識(shí)及專業(yè)實(shí)務(wù)[M]第三版.北京:中國(guó)質(zhì)檢出版社,2013.
[2] 熊艷艷,吳先球.粗大誤差四種判別準(zhǔn)則的比較和應(yīng)用[J].大學(xué)物理實(shí)驗(yàn),2010,第23(1):66-68
|
|