計量論壇

 找回密碼
 立即注冊

QQ登錄

只需一步,快速開始

搜索
打印 上一主題 下一主題

[概念] 從狄克遜準則中統計量公式幾何表示分析其構成元素下標...

[復制鏈接]
跳轉到指定樓層
1#
solarup 發表于 2017-5-2 13:18:41 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
本帖最后由 solarup 于 2017-5-2 13:24 編輯

雜志社退稿,正好拿來給大家看,因為得不到需要的反饋,放這里也許有人有更好的辦法,所以歡迎批評指正。這文的主要目的是如何“看到”狄克遜公式中那幾個統計量是什么,因為要背的話,狄克遜公式一堆下標太麻煩了。
其實退稿正常,這東西不值一提,我也是野人獻曝,只不過對死活記不住公式的人有點用。
格式化文本見附件。

從狄克遜準則中統計量公式幾何表示分析其構成元素下標的意義
在計量工作中,狄克遜(Dixon)準則(以下簡稱準則)是用于統計判別離群值的常用方法之一,被《GB/T 4883-2008 數據的統計處理和解釋正態樣本離群值的判斷和處理》所采用的。根據重復觀測的次數不同,其統計量有四種不同的公式計算得出。四個公式的大體形式相似,只有式中每個元素的下標不同。如果不明白狄克遜準則的基本思想,只是靠死記硬背,極容易會混淆。本文將對狄克遜準則統計量公式其構成的基本思想進行闡述,以此為依據用一維坐標的方式以幾何化的直觀表示,分析準則的統計公式的構成和每個元素所代表意義,以便使其更容易理解和記憶。
離群值(outlier),即所謂的異常值(abnormal value),又稱作“粗大誤差”,是指對一個被測量重復觀測所獲得的若干測量結果中,與其他值偏離較遠且不符合統計規律的個別值。其存在會歪曲測量結果,必須進行剔除。如果引發異常值的情況不屬于已知原因,僅僅是對某個偏離其他值較大的值進行懷疑,則要按照一定的統計準則進行。否則一旦靠主觀誤判剔除了僅僅反應較大波動的測量結果,會得到虛假的分散性。常見的統計準則有拉依達準則、狄克遜準則和格拉布斯準則。而狄克遜準則適用于觀測次數在3到50次以內的多個異常值的情況[1]。
狄克遜準則的使用方法是:將重復觀測所得的值按照從小到大的順序排列為:x1,x2,...,xn,其中n為重復觀測的次數,而xn為最大值,x1為最小值。按照以下幾種情況計算統計量γij或γ’ij:
①        在n=3~7的情況下: ,
②        在n=8~10的情況下: ,
③        在n=10~13的情況下: ,
④        在n≥14的情況下: ,
將以上的γ10,γ’10;…;…;γ22,γ’22分別化簡為γij,γ’ij。設D(α,n)為狄克遜檢驗的臨界值,當γij>γ’ij,γij >D(α,n)時,xn為異常值;當γij<γ’ij,γij >D(α,n)時,則x1為異常值,否則沒有異常值。這里可以看到,四種情況的四個公式非常類似,區別只是構成公式的每一元素的下標不同,單純依靠機械記憶的話,非常容易混淆,所以只有理解了統計量計算公式構成的基本思想,才能夠有效的記憶這四個公式。
狄克遜準則在本質上來說是一種用極差比雙側檢驗來判別離群值的方法[2]。所以要搞清楚準則中統計量計算公式中每個元素的下標意義是什么,可以通過分析下標反映的是極差在一維坐標上長的大小度,以及其所代表哪一側的比值來獲得。
為了抽象和簡化,我們假設每兩個相鄰值之間的差值是等值的。且為了直觀顯示,我們假設n=10。因為x1到x10(xn)是從小到大的順序排列,所以視其為依次落在一個一維橫向坐標上的點。如下圖1中所示:

圖 1 觀測值的一維坐標表示
所謂的極差,是指一系列數值中最大值與最小值之差,當這一系列數值按照順序排列時,極差在一維坐標上反映出來的是一段長度。例如選取x4、x5、x6三個數值作其極差,則極差值為x6-x4,反映在坐標軸上是x4到x6之間線段的長度,如圖2所示。

圖 2 極差在一維坐標上的表示
按照這個思想,我們把γ10所表示的長度用一維坐標表示后如圖3所示:

圖 3 γ10的一維坐標表示
γ10就是如圖所示右側的極值與整個極值的比值。同理,我們把所有的γij和γ’ij的也用一維坐標表示,則如下圖4所示:

圖 4 準則公式中所有γij或γ’ij值的一維坐標表示
從圖4中可以看出,準則中每種情況的公式不過是反映兩側不同側的極值比,只不過γij是右側較大值一端的比值,而γ’ij是左側較小值一端極值的比值。
有了公式整體的直觀表示以后,我們再觀察其下標的意義。其中γ10的分子部分為xn-xn-1,下標的第一個數字1表示xn和xn-1之間的長度;而下標的第二個數字0表示整個長度(xn-x1)與分母所代表的長度(xn-x1)差值為0。其他的統計量同理可得。
假設我們把γ的下標的第一個數字稱之為所含長度,代表要比較的那側的部分極差,而把γ下標的第二個數字稱之為整體余下長度,代表所要比較的那側整體減去下標第二位值后的極差,那么所有的公式的格式就可以統一抽象為:部分所含長度/剩余總體長度。
所以,如果要記憶準則的公式,可以概括為:先看右側(γij)再看左側(γ’ij),部分所含除以總體剩余。
舉例:γ’22的公式是對左側端(或者說小值端)的計算,其包含長度為2,所以分子為x3-x1;總體長度為減去2個項后的剩余,故分母為xn-2-x1。
樣本的觀測值是離散的,但是幾何表示的話,這些離散值不過是落在一維坐標上的一些點。本文為了直觀表示準則的統計公式中每個元素的下標的意義,只是理想的假設這些值是等差的。其實現實情況下,這些值一般為非等差的,但是并不影響下標所反映的一維坐標中次序的關系。通過對幾何表示的直觀觀察,更易理解“克遜準則在本質上來說是一種用極差比雙側檢驗來判別離群值的方法”這句話所體現的基本思想,也更易記憶狄克遜準則統計量的計算公式。

參考文獻:
[1] 葉德培.一級注冊計量師基礎知識及專業實務[M]第三版.北京:中國質檢出版社,2013.
[2] 熊艷艷,吳先球.粗大誤差四種判別準則的比較和應用[J].大學物理實驗,2010,第23(1):66-68



從狄克遜準則中統計量公式改.docx

241.01 KB, 下載次數: 80, 下載積分: 金幣 -1

狄克遜準則統計量

2#
吳下阿蒙 發表于 2017-5-2 17:26:14 | 只看該作者
謝謝分享,不過還是很難記=。=請問,不同的次數為什么選取的公式不同呢?比如從n=7變成n=8,分母的選取減少了1個長度的原因的什么呢?臨界值中的a是什么意思?臨界值表是根據什么得出的?謝謝!
3#
尖嘴猴腮 發表于 2017-5-3 21:51:18 | 只看該作者
吳下阿蒙 發表于 2017-5-2 17:26
謝謝分享,不過還是很難記=。=請問,不同的次數為什么選取的公式不同呢?比如從n=7變成n=8,分母的選取減少 ...

根據計量師書上說的,a是概率吧。計算的時候,按要求a=0.05或者a=0.01
4#
尖嘴猴腮 發表于 2017-5-3 21:53:19 | 只看該作者
有時間寫一寫合成標準不確定度的傳播率那部分的知識,書上的學不太懂,都卡住好幾天了,一直算不明白,還請賜教
5#
吳下阿蒙 發表于 2017-5-4 12:00:43 | 只看該作者
尖嘴猴腮 發表于 2017-5-3 21:51
根據計量師書上說的,a是概率吧。計算的時候,按要求a=0.05或者a=0.01

請問這個a=0.05的概率是啥意思呢?5%?正態分布的?
6#
 樓主| solarup 發表于 2017-5-4 17:43:38 | 只看該作者
吳下阿蒙 發表于 2017-5-4 12:00
請問這個a=0.05的概率是啥意思呢?5%?正態分布的?

卡啊卡啊卡,網頁耍不粗來,我這幾天單位電腦有病毒了,周六日了我回家專門寫寫你說的問題。
7#
 樓主| solarup 發表于 2017-5-4 17:44:47 | 只看該作者
尖嘴猴腮 發表于 2017-5-3 21:53
有時間寫一寫合成標準不確定度的傳播率那部分的知識,書上的學不太懂,都卡住好幾天了,一直算不明白,還請 ...

可是這個我也不怎么懂啊,我也只是在記住公式的基礎上而已
8#
尖嘴猴腮 發表于 2017-5-4 20:37:44 | 只看該作者
solarup 發表于 2017-5-4 17:43
卡啊卡啊卡,網頁耍不粗來,我這幾天單位電腦有病毒了,周六日了我回家專門寫寫你說的問題。 ...

好,周六等著看你的帖子
9#
尖嘴猴腮 發表于 2017-5-4 20:38:37 | 只看該作者
吳下阿蒙 發表于 2017-5-4 12:00
請問這個a=0.05的概率是啥意思呢?5%?正態分布的?

a=0.05,概率P=1-a=0.95
好像是這個意思
10#
羅曼 發表于 2017-5-4 22:54:09 | 只看該作者
咨詢一個問題,比如說對一個被測對象在重復條件下測量了8次,得到8個觀測值,這10個觀測值中有兩個值是相同的,那么在運用狄克遜準則的時候,n=8還是n=7?謝謝!
11#
長度室 發表于 2017-5-5 15:19:42 | 只看該作者
吳下阿蒙 發表于 2017-5-4 12:00
請問這個a=0.05的概率是啥意思呢?5%?正態分布的?

α是顯著性水平,p是置信水平,α+p=1。因此α=0.05,就是置信水平取95% 。
12#
 樓主| solarup 發表于 2017-5-6 06:40:23 | 只看該作者
本帖最后由 solarup 于 2017-5-6 07:18 編輯
吳下阿蒙 發表于 2017-5-2 17:26
謝謝分享,不過還是很難記=。=請問,不同的次數為什么選取的公式不同呢?比如從n=7變成n=8,分母的選取減少 ...


丑話說前頭,我以下的話,可能作用不大。只不過把我的思考過程寫下來而已。至于迪克遜準則怎么來的,我不知道,我只是知道我怎么理解的。
用軟件畫圖不易,這里手畫吧。畫的丑,將就啊。
α(希臘字母alpha,不是英文a),是置信度,意思是“置(于何種)信(任)(程)度”的意思。當然還有置信水平,顯著性水平的,以及相關的包含區間,置信區間啥的,都是名字不同,其實意思上可能相近(甚至相反),反正教材不同你看到的不同,但是都是指那么一回事。(不信你看看大工上課的教材,α和別人的1-α是一回事)。總之這幾個概念和是1罷了。
α=0.01,那么可信任程度(包含概率)就是1-0.01=0.99(可信任程度為99%,值落入的可能是99%,諸如此類想法)。
個別書把那個0.99叫α
我們的幾個公式,都是針對正態分布而言,正態分布,單峰,對稱,μ決定位置,δ決定形狀。
如果要用迪克遜,那么α值可能為0.05或者0.01。問題是,如果α=0.99或0.95,那么k是幾?我們常說3δ準則,其實就是k=3,有3格δ事,就差不多是99%了。其實k=3我們大約是99.73%。k=2大約是95.45%。約等一下,99%和95%差不多了。
意思如下圖:

如果我們看δ這個字母,嘿,就是誤差啊,誤差誤差就是差啊,差還是長度啊,k就是有幾個這樣的長度啊。
迪克遜準則是從小到大排列的。
我們記得,平均值是μ的估計值,但是還有一個值,雖然不是無偏(差)估計值,但是也經常作為一個估計值,那就是中值,只不過有偏差罷了。
所以,下面的話不過是為了容易理解,并非嚴格推導,而是抱著“雖不中,亦不遠的”心態來閱讀吧。
所以當n=3時,就可以產生一個對稱的類似正態分布的曲線了。

這個時候把x2-x1當作一個δ沒任何問題,因為是100%落入啊。問題是隨著n增加,δ會“變短”,這個時候要確定還是99%以上,就要用到那個3δ了。當μ為幾的時候可能需要呢?當然是4,因為此時左右各有三個δ。因為4是μ的估計是,作為中值時,n就為7

注意,這里的中值作為估計值不是無偏的,正態分布的觀測值也不會正好形成這么個曲線,不過是“類似”而已。
好了,如果n=8呢?中值是幾?嗯,我們可以把4~5中間的長度看作中值,反正長度也是一個值,然后把插空長看作值,那么還是類似正態的曲線。

問題,這里的δ不是x2-x1么?其實,還是那句話,約等。
同理:當中值為5,n=9
當中值為5~6,n=10
這個時候選取長度為δ,都可以保證比值≤1/3
那么,如果δ為2呢?類似于γ01的情景,不過當時推導上限值為7,這次推導出上限值為13,為啥,看下面中值為7的情況
中值為6,n=11
中值為6~7,n=12
中值為7,n=13
畫圖也是這個意思:


有沒有看出來這幾個值啥意思...
不過說實話,這樣看,只是大概了解為什么這么干,但是對記n的值沒多大幫助,而且計算不精確(99%和99.73%還是差別蠻大的,同理95也是),所以我覺得沒有什么太深入的必要,不然你會對分段很難理解,特別是γ01的上限n值,要知道人家是精確的推導實驗來的,我這種可不是。
不過,按照這個思想,n的值為何為3、7、13還是蠻好記的,至于γ22的值就是大于13上的一個數嘛(14),γ01下限就是>7上的一個數嘛(8),當初我記這個就是γ01的沒管,γ11就是4~5到5~6為中值,γ21就是6、7為中值這么記的。
13#
 樓主| solarup 發表于 2017-5-6 06:47:18 | 只看該作者
羅曼 發表于 2017-5-4 22:54
咨詢一個問題,比如說對一個被測對象在重復條件下測量了8次,得到8個觀測值,這10個觀測值中有兩個值是相同 ...

我知道的都是寫n為重復觀測次數
也就是n=8.不知道您是從何處得來的?還望指教。
14#
 樓主| solarup 發表于 2017-5-6 07:03:31 | 只看該作者
尖嘴猴腮 發表于 2017-5-3 21:53
有時間寫一寫合成標準不確定度的傳播率那部分的知識,書上的學不太懂,都卡住好幾天了,一直算不明白,還請 ...

我不知道你說哪里有問題?
我覺得不確定度傳播率公式很好懂啊
就是各項靈敏度系數與不確定度的方和根
至于后面還有一個,我覺得協方差不就是相關聯帶來的方差嘛,你是兩個量的協方差,就要加兩次嘛,所以就是2倍的說。因為協方差也是兩個量的不確定度估計值乘積,所以就不要寫成方的形式了。
只是一點低劣的看法,不知可有探討之處?
15#
羅曼 發表于 2017-5-6 11:32:38 | 只看該作者
solarup 發表于 2017-5-6 06:47
我知道的都是寫n為重復觀測次數
也就是n=8.不知道您是從何處得來的?還望指教。 ...

一級注冊計量師的大綱里面的案例分析題,我是按n=8次計算的,結果答案卻是按7次,所以我也不確定了。
16#
 樓主| solarup 發表于 2017-5-6 14:50:52 | 只看該作者
本帖最后由 solarup 于 2017-5-6 14:53 編輯
羅曼 發表于 2017-5-6 11:32
一級注冊計量師的大綱里面的案例分析題,我是按n=8次計算的,結果答案卻是按7次,所以我也不確定了。 ...


能告知是哪個案列么?我也看書了,抱歉沒看到這個
我看的是案例3-6和3-7,沒有出現這種問題呢。
17#
羅曼 發表于 2017-5-6 23:06:47 | 只看該作者
solarup 發表于 2017-5-6 14:50
能告知是哪個案列么?我也看書了,抱歉沒看到這個
我看的是案例3-6和3-7,沒有出現這種問題呢。 ...

周一發給你,書我沒帶回來。
18#
羅曼 發表于 2017-5-8 09:34:29 | 只看該作者
《一級注冊計師資格考試大綱習題及案例詳解》這本書,第296頁,第三題的第3小問。你看看
19#
maple1314168 發表于 2017-5-8 09:40:15 | 只看該作者
本帖最后由 maple1314168 于 2017-5-8 09:45 編輯
吳下阿蒙 發表于 2017-5-2 17:26
謝謝分享,不過還是很難記=。=請問,不同的次數為什么選取的公式不同呢?比如從n=7變成n=8,分母的選取減少 ...


狄克遜準則  當然是從 狄克遜的論文 推出來的。
狄克遜準則的論文一般認為是1950、1951的兩篇。
1、1950推出的論文《Analysis of Extreme Values》是講解準則的應用,這解釋為什么出現分段的原因(r10、r11、r12、r20、r21、r22)。因為各區間里的性能(performance)高。
2、1951推出的論文《Ratios Involving Extreme Values 》是講解臨界值是如何來的。這涉及高階積分!能在1950年計算出來實屬不易。
后來在樓主提及的標準GBT 4883-2008 將n提高到100,而且精確到四位小數,使用的蒙特卡洛計算積分。當然這也是2006年,老外的事情了
。不知道狄克遜當年是不是也用這種方法。當時蒙特卡洛方法剛剛從軍事(Atom Bomb)走下來,不過看狄克遜的論文也是與海軍研究院有聯系的
(這在4883-2008的參考文獻上)。

無標題.png (54.44 KB, 下載次數: 694)

無標題.png
20#
吳下阿蒙 發表于 2017-5-8 11:12:25 | 只看該作者
maple1314168 發表于 2017-5-8 09:40
狄克遜準則  當然是從 狄克遜的論文 推出來的。
狄克遜準則的論文一般認為是1950、1951的兩篇。
1、1950 ...

呵呵,非常感謝!問這個問題時候就感覺這可能是經過嚴密復雜的推導計算來的,只是好奇,果然超綱了=。=
21#
尖嘴猴腮 發表于 2017-5-8 22:15:00 | 只看該作者
solarup 發表于 2017-5-6 07:03
我不知道你說哪里有問題?
我覺得不確定度傳播率公式很好懂啊
就是各項靈敏度系數與不確定度的方和根

就是一遇到題就算不明白了,可能數學不好,對傳播率的公式理解的不到位吧
22#
尖嘴猴腮 發表于 2017-5-8 22:15:50 | 只看該作者
羅曼 發表于 2017-5-8 09:34
《一級注冊計師資格考試大綱習題及案例詳解》這本書,第296頁,第三題的第3小問。你看看 ...

我的書怎么才246頁,我是不是買到假書了
23#
oldfish 發表于 2017-5-8 23:09:08 來自手機 | 只看該作者
尖嘴猴腮 發表于 2017-5-8 22:15
就是一遇到題就算不明白了,可能數學不好,對傳播率的公式理解的不到位吧 ...

建議你找個典型的例題看看,結合題目記憶并理解傳播率公式,這樣可能效率高一些。咱們平時接觸的不確定度評定,我覺得還是挺“八股”的,基本是一個思路套公式。寫模型,算標準不確定度和靈敏系數,判斷相關性,合成,根據模型或測量方法判斷是否需要計算有效自由度或者直接取k=2。先多找點例題看看吧
24#
羅曼 發表于 2017-5-9 15:14:20 | 只看該作者
尖嘴猴腮 發表于 2017-5-8 22:15
我的書怎么才246頁,我是不是買到假書了

你是不是看錯書了,是有一本課后題的答案,但我說的那本書,主編是黃耀文,副 主編是林景星,鄭黨兒,主審趙天川。你再看看。
25#
 樓主| solarup 發表于 2017-5-9 20:44:18 | 只看該作者
羅曼 發表于 2017-5-8 09:34
《一級注冊計師資格考試大綱習題及案例詳解》這本書,第296頁,第三題的第3小問。你看看 ...

非常抱歉,第一次是我看錯書了,我以為是教材,誰知道是大綱。因為我的這本書放在家里了,前兩天沒回家,所以沒有及時回復。現在我找到了這道題,現在給你答復。
大綱中確實存在你說的問題。
但是對有相同值的情景,再教材和國標中,均給出的是n還是觀測次數,也就是大綱中的按照國標和教材應該是8,即使有兩個數相同。
這只是照本念經,其實我傾向于同值的按照一個去計算,原因嘛,和我上面寫的對n值選擇有關。不過我覺得那應該再查找資料核實,我去找資料去。
您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規則

小黑屋|Archiver|計量論壇 ( 閩ICP備06005787號-1—304所 )
電話:0592-5613810 QQ:473647 微信:gfjlbbs閩公網安備 35020602000072號

GMT+8, 2025-7-15 19:05

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回復 返回頂部 返回列表
主站蜘蛛池模板: 波多野结衣456| 性一交一乱一伧老太| 无翼乌全彩我被闺蜜男口工全彩| 日本乱偷互换人妻中文字幕| 大地资源视频在线观看| 国产精品无码专区| 亚洲第一福利网| 久激情内射婷内射蜜桃| 亚洲aⅴ在线无码播放毛片一线天 亚洲aⅴ无码专区在线观看q | 人人妻人人澡人人爽人人精品 | 美女黄网站人色视频免费国产| 日韩人妻一区二区三区免费 | 九九热视频精品在线| 三级理论在线播放大全| 久久久久波多野结衣高潮| H无码精品3D动漫在线观看| 阿娇囗交全套高清视频| 欧美视屏在线观看| 日韩系列第一页| 国产精品9999久久久久仙踪林| 亚洲视频一区在线| maomiav923| 日本网址在线观看| 欧美XXXXXBBBB| 国产高清视频在线播放www色| 亚洲欧美乱日韩乱国产| 久久青草免费91线频观看站街| 两个人日本WWW免费版| 亚洲sss综合天堂久久久| 激情捆绑国语对白| 无码人妻精品一区二区三区久久久| 国产美女视频网站| 亚洲精品亚洲人成在线观看| 2019国产精品青青草原| 最新高清无码专区| 国产色综合天天综合网| 亚洲国产成人精品无码区花野真一| 亚洲国产欧美日韩一区二区| 亚洲av无码一区二区三区鸳鸯影院| 久久国产精品偷| 38部杂交小说大黄|