本帖最后由 史錦順 于 2017-12-17 14:14 編輯
-
統計測量的標準偏差不能除以根號N
——回復吳下阿蒙(1)
-
史錦順
-
【吳下阿蒙】
史老提到的問題,實際中是存在的,但我認為這不是不確定度體系本身的問題,而是使用者缺乏足夠的知識造成的(比如我之前那樣)。不確定度的評定真的不是找幾本規程看一看,拿一本書套一套就能評定的正確的,只能似是而非。
-
【史評】
你的這種認識,是長期學校教育的負作用,就是習慣于保守不變的模式:已有的理論是“從正確到正確”。如果出問題,是沒用好。通常,這可能是對的,但有時卻恰恰相反。要具體分析。我研究誤差理論30年,又分析不確定度體系20年,結論是:誤差理論有不足,但基本正確;而不確定度體系錯了。
對不確定度體系,我的評價是:立基于不可知論,哲學觀錯;定義跳槽、分類穿幫、對象與手段混淆,邏輯錯;估計代替計算、假設代替分析,方法錯;混淆兩類測量、混淆兩種誤差,測量模式錯;混淆兩種統計,統計方式錯。由此導致計量、測量的各種處理方法全錯。不確定度體系的一切,沒有任何可取之處。不確定度體系是擾亂正常計量秩序、害人誤事的偽科學。
-
原蘇聯的教育理論說,只能向學生講正確的觀點。但這不符合歷史發展、理論發展的客觀事實。事物發展的一條重要規律是“否定之否定”。
你進入測量計量界不久,還不了解關于“不確定度體系”的學術爭論情況。不確定度體系在實際應用中的混亂與錯誤,原因是不確定度體系本身。我建議你抽空瀏覽一下我在本欄目貼出的抨擊不確定度體系的雜文。為閱讀方便,你把郵箱告訴我,我寄給你已編好的八本文集。
-
(一)統計測量的標準偏差不能除以根號N
【吳下阿蒙論述】
1. 除不除以根號n,取決于我們需要的測量結果是單值還是均值。
【史評】
你的這個觀點,有普遍性。許多人都有這種觀點或類似的觀點。
我這里明確指出:在統計測量中,必須取平均值來表征統計變量的量值大小;而在取平均值的情況下又必須取單值的σ來表征統計變量的分散性。
這個分散性,又稱重復性(同一測量條件),復現性(不同測量條件),波動性或穩定度(電源之電壓、溫度源之溫度),頻率穩定度(特指頻率的短期隨機變化,有采樣時間、采樣次數、計算方法的嚴格定義,本質是單值的σ)。
-
當前,包括一些書籍,有一個普遍的說法:量值取單值,則用單值的σ;量值取平均值,則用平均值的σ平。這個說法是錯誤的。說明如下。
1 高斯正態分布的理論
1.1 有偏正態分布
高斯有偏正態分布的幾率密度函數為
p(Y) = {1/ [σ√(2π)]} exp [– (Y-μ)2 / (2σ2)] (1)
Y是變量,μ是變量Y的期望值。示意圖如圖1.圖中以Y平代替μ。B是隨機變量的標稱值。β表示系統偏差。R表示總偏差范圍。
-
圖1 隨機變量有偏正態分布圖.jpg (153.98 KB, 下載次數: 629)
下載附件
2017-12-17 13:10 上傳
1.2 無偏正態分布
令ξ = Y-μ,則
Eξ =E(Y-μ)=EY – μ=0
ξ是期望值為0的純隨機變量。
高斯無偏正態分布的幾率密度函數為
p(ξ) = {1/ [σ√(2π)]} exp [– ξ2 / (2σ2)] (2)
隨機變量ξ的分布是無偏正態分布。如圖2。
-
圖2 隨機變量無偏正態分布圖.jpg (139.91 KB, 下載次數: 666)
下載附件
2017-12-17 13:14 上傳
1.3 標準正態分布圖
再令σ=1,并令x=ξ,則稱標準正態分布。標準正態分布的概率密度函數為
p(x) = [1/√(2π)] exp [– x2 / 2] (3)
正態分布的“概率函數”為
φ(x)= [1/√(2π)] ∫ (-∞→x) exp [– t2 / 2] (4)
標準正態分布的分布圖與圖2相同,只是把σ記為1即可。
-
2 取平均值時,偏差區間的包含概率的計算
《數學手冊》(1980版)給出的是公式(3)與公式(4)的數值表。包含概率的計算方法如下。
求-kσ到+kσ的包含概率
從-∞到k的概率是φ(k),從k到+∞的包含概率是1-φ(k)。由于分布密度函數的對稱性,從-∞到-k的包含概率與k到+∞的概率相等,為1-φ(k)。因此有:
p(-k→+k)=φ(k)-[1-φ(k)] =2φ(k)-1 (5)
-
2.1 區間[-σ,σ]
查表φ(1)=0.841345
包含概率為
pσ = 2φ(1)-1=0.841345×2-1=1.68269-1
= 0.683
-
2.2 區間[-2σ,2σ]
查表φ(2)=0.977250
包含概率為
p2σ= 2φ(2)-1=0.977250×2-1=1.9545-1
= 0.9545
-
2.3 區間[-3σ,3σ]
查表φ(3)=0.998650
包含概率為
p3σ= 2φ(3)-1=0.998650×2-1=1.9973-1
= 0.9973
-
3 不取平均值而取其他單值時,區間包含概率的計算
公式推導 設單值為Y平+ nσ , 區間半寬為kσ, 則區間為[(n-k) σ,(n+k)σ],有
K1=n-k
K2=n+k
當K為負值時,由于概率密度函數的對稱性,從-∞到K(負值)的包含概率與-K到+∞的概率相等,都為1-φ(-K)。當K為正值時,從-∞到K(正值)的包含概率就是φ(K)。
從-∞到K2的包含概率減去從-∞到K1的包含概率,就是所求的區間[(n-k) σ,(n+k)σ]的包含概率。
-
3.1 計算公式
3.1.1 (n-k)<0,(n+k)>0
P =φ(n+k) – [1-φ(k-n)] (6)
3.1.2 (n-k) ≥0
P=φ(n+k) -φ(n-k) (7)
-
3.2 計算舉例
例1 取Y=Y平+2σ,求半寬為3σ的區間的包含概率
k=3,n=2 按公式(6)計算
P =φ(n+k) – [1-φ(k-n)]
=φ(5)-[1-φ(1)]
≈φ(1)=0.841345
≈0.84
例2 取Y=Y平+2σ,求半寬為2σ的區間的包含概率
k=2,n=2 按公式(7)計算
P=φ(n+k) -φ(n-k)
=φ(4)- φ(0)
≈1-0.50
≈0.5
-
例3 取Y=Y平+3σ,求半寬為3σ的區間的包含概率
k=3,n=3 按公式(6)或(7)計算
P=φ(n+k) – [1-φ(k-n)]
=φ(6) – [1-φ(0)]
=φ(0)
= 0.5
例4 取Y=Y平+3σ,求半寬為2σ的區間的包含概率
k=2,n=3 按公式(7)計算
P=φ(n+k) -φ(n-k)
=φ(5) –φ(1)
=1-0.841345
= 0.16
說明:以上φ(6)、φ(5) 、φ(4)都近似為1.
-
請注意你,如果不取平均值,而是取其他單值,那么區間的包含概率就可能很小。上例中,有50%,甚至有16%,多么嚴重!
-
總結
統計變量的分散性,是統計變量本身的特性,必須如實地描述、表達,不能人為地縮小。單值的標準偏差σ,隨著測量次數增大而趨于一個常數,它是隨機變量分散性的表征量。平均值的標準偏差σ平,隨著測量次數增大而縮小,并趨于零。σ平不是隨機變量的表征量。因此,表征隨機變量的分散性,必須用σ。
以上觀點,我多次表達過。這次進一步證明:用σ表達分散性,而取值必須取變量的平均值,才有通常人們熟知的“以2σ為半寬的區間的包含概率是95%”、“以3σ為半寬的區間的包含概率是99%”。如果不取平均值而取其他單值,則包含區間的概率就會大大降低,如例1到例4。
結論:
1 統計測量,σ不能除以根號N。不論測量多少次。
2 量值必須取平均值。
-
補充內容 (2017-12-17 16:13):
公式(4)的積分號內最后加dt |