- 医学统计学与软件实现
- 赛晓勇 童新元主编
- 5308字
- 2022-04-24 11:00:00
第二节 均数的参数估计
通常,我们知道某个随机变量服从某种特定的概率分布或者假定某个随机变量服从某种特定的概率分布,但是却不知道分布的参数。如,知道某个随机变量服从正态分布,但不知道参数μ和σ2。这时常常需要根据样本对总体的某种特征作出推断。这就是参数估计问题。
参数估计是统计推断的重要内容之一。所谓参数估计就是用样本统计量来估计总体参数,有点估计和区间估计之分,本节主要介绍总体均数μ的参数估计。
一、点估计
将样本统计量直接作为总体相应参数的估计值叫点估计(point estimation)。如常用样本均数估计总体均数μ这个参数。
例5-2
今随机抽取某厂生产的10个产品,测得其重量得数据如下(单位:g):
1 050,1 100,1 080,1 120,1 200,1 250,1 040,1 130,1 300,1 200
问该产品的平均重量是多少?
解:计算出,以此作为总体均数μ的估计值。
1.CHISS软件的正态分布资料描述性统计量
(1)进入数据模块:
点击“数据”→“文件”→打开“数据库表”,找到文件名为“b5-2.dbf”的数据库→“确认”。
(2)进入统计模块进行统计计算:
点击“统计”→“统计描述”→“正态定量描述”,反应变量:重量→“确认”。
(3)进入结果模块查看结果:
点击“结果”,见表5-3。
表5-3 正态分布资料描述性统计量

注:数据来自文件:b5-2.DBF。
上面方法也叫矩法,常用的点估计还有最大似然估计法等,这里不作介绍。点估计比较直观,但不够理想,它只给出了未知参数估计值的大小,没有考虑实验误差的影响,也没有指出估计的可靠程度,而这些在实验研究中是不可忽视的。
2.SAS软件的正态分布资料描述性统计量

结果如图5-9:

图5-9 SAS软件中正态资料描述性统计量
3.Stata软件的正态资料描述性统计量
*example 5-2
*导入样例b5-2的csv文件
import delimited E:\example\b5-2.csv,encoding(GBK)clear
*计算寿命单位小时的算术平均数,结果如图5-10
su 寿命单位小时

图5-10 SAS软件中正态资料描述性统计量
4.SPSS软件的正态分布资料描述性统计量
此数据库已建立在文件夹中,文件名为:b5-2.sav。
首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b5-2.sav”,点击“打开”。
第二,点击“分析”→“比较平均值”→“平均值”,弹出“平均值”对话框,在因变量列表中填入“寿命”,点击“选项”,弹出“平均值:选项”对话框,在单元格统计对话框中填入“个案数”“平均值”“标准差”“平均值标准误差”,点击“继续”,点击“确定”。
结果显示如图5-11所示。
SPSS不能直接用菜单的方式求变异系数,用描述性统计标准差除以均值算出。

图5-11 SPSS软件中正态资料描述性统计量
二、区间估计
(一)基本概念
点估计的特点是给出了一个具体估计值,实践中还希望给出一个范围,使这个范围能够按足够大的给定的概率(1 − α)包含被估计参数,这个范围通常用区间形式给出,称作参数的可信区间或置信区间(confidence interval,CI)。这种用区间去估计总体参数的方法称为区间估计法。
被预先给定的概率(1 − α)被称为可信度或置信度(confidence level),通常可信度(置信度)取95%或99%,总体均数95%或99%可信区间的涵义为由样本均数确定的总体均数所在范围包含总体均数的可能性为95%或99%。若无特殊说明,一般取双侧95%。
可信区间的确切含义是有(1 − α)的可能性认为计算出的可信区间包含总体参数。
(二)总体均数μ的可信区间计算
由于样本随机性,使从样本中求出的估计量,不等于被估计的总体参数。退一步讲,即便偶然样本统计量值正好等于我们所估计的总体参数,因为我们并不知道总体参数的真值为多少,所以很难验证这种相等。
人们在得到点估计值的同时,自然希望知道样本统计量值与所估计的总体参数值到底相差多少?这就引出了区间估计问题,即希望对所估计的总体参数的取值估计出一个范围,并希望知道所估计的总体参数落入这个范围的可靠程度。即

其中[μ1,μ2]是可信区间;μ2、μ1是可信区间的上下限;1 − α 是可信度(或称置信度);α是估计不准的概率,即区间估计不准的概率,通常取α = 0.05或0.01。
由式(5-6)可知,要想求出被估计量的可信区间,①必须找到一个含有被估计参数的合适统计量;②知道其概率分布。由于本节主要介绍正态分布总体均数可信区间的计算,即只要考虑总体标准差σ是否已知、样本量大小和统计量是否符合正态分布或者t分布就可以。下面具体说明对于给定可信度,求均数可信区间的方法。
1.条件
大样本(n > 50),总体分布不限。
(1) 若σ2已知,根据中心极限定理,有。把
标准化,得到统计量
,U~N(0,1)。当给定 α,有

所以μ的可信区间是

(2) 若σ2未知,可用S2代替σ2。大样本条件下,仍近似有,所以选用统计量
。计算公式与σ2已知情形相仿,可信区间是

例5-3
从4 000名大学生身高值中随机抽取110个身高值,得,S2 = 22.48cm2。试估计400名大学生平均身高的可信区间(1 − α = 0.95)。
解:因n = 110是大样本,近似服从正态分布。根据式(5-8),

可知,400名大学生平均身高的95%可信区间是(168.83cm,170.62cm)。
(1)CHISS软件计算可信区间
1) 进入数据模块:点击“数据”→“文件”→打开“数据库表”,找到文件名为“b5-3.dbf”的数据库→“确认”。
2) 进入统计模块进行统计计算:点击“统计”→“统计描述”→“正态定量描述”,反应变量:大学生身高→“95CL”→“确认”。
3) 进入结果模块查看结果:点击“结果”,见表5-4。
表5-4 正态分布资料描述性统计量

注:数据来自文件:b5-3.DBF。
(2)SAS软件计算可信区间

结果如图5-12:

图5-12 SAS软件中可信区间估计结果
(3)Stata软件计算可信区间
*导入样例b5-3的csv文件
import delimited E:\example\b5-3.csv,encoding(GBK)clear
*计算大学生平均身高的可信区间,结果如图5-13
ci means 大学生身高厘米,level(95)

图5-13 Stata软件中可信区间估计结果
(4)SPSS软件计算可信区间:
此数据库已建立在文件夹中,文件名为:b5-3.sav。
首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b5-3.sav”,点击“打开”。
第二,点击“分析”→“描述统计”→“探索”,如图5-14所示,弹出“探索”对话框,如图5-15所示,在因变量列表中填入“大学生身高”,点击“统计”,弹出“探索:统计”对话框,如图5-16所示,选择“描述”,平均值的置信区间为“95%”,点击“继续”,点击“确定”。

图5-14 数据编辑器窗口

图5-15 探索对话框

图5-16 探索:统计对话框
结果显示如图5-17所示。
2.条件
正态分布、小样本,若σ已知,可采用公式(5-7)计算,若σ未知,选用统计量。给定α后,有

可信区间为:

注意:t分布的自由度是(n − 1),因公式中用到,从而损失一个自由度。
例5-4
(方差已知类型)今随机抽取某厂生产的10个产品,测得其重量得数据如下:1 050,1 100,1 080,1 120,1 200,1 250,1 040,1 130,1 300,1 200(单位:g)。
已知产品重量从正态分布,方差为8,假定α = 0.05,试估计平均重量的可信区间(1 − α = 0.95)。

图5-17 SPSS软件中可信区间估计结果
解:计算得,已知σ = 8,应用σ已知条件下的公式(5-7)求可信区间。当α = 0.05时,uα/2 = u0.975 = 1.96,n = 10,代入公式:

可知,该产品平均重量的95%可信区间是(1 084.72g,1 209.28g)。
(1)CHISS软件计算可信区间
1) 进入数据模块:点击“数据”→“文件”→打开“数据库表”,找到文件名为“b5-4.dbf”的数据库→“确认”。
2) 进入统计模块进行统计计算:点击“统计”→“统计描述”→“正态定量描述”,反应变量:重量→“95%CI”→“确认”。
3) 进入结果模块查看结果:点击“结果”,见表5-5。
表5-5 正态分布资料描述性统计量

注:数据来自文件:b5-4.DBF。
(2)SAS软件计算可信区间
libname data "F:\SAS\data";
options validvarname = any;
proc means data = data.b5_4 N MEAN STD CLM; /* 计算的统计量 */
var 寿命(单位:小时); /* 需要分析的变量 */run;
结果如图5-18

图5-18 SAS软件中可信区间估计结果
(3)Stata计算可信区间
*导入样例b5-4的csv文件
import delimited E:\example\b5-4.csv,encoding(GBK)clear
*计算寿命单位小时的可信区间,结果如图5-19
ci means 寿命单位小时,level(95)

图5-19 Stata软件中可信区间估计结果
(4)SPSS计算可信区间:
首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b5-4.sav”,点击“打开”。
第二,点击“分析”→“描述统计”→“探索”,如图5-15所示,弹出“探索”对话框,在因变量列表中填入“寿命”,点击“统计”,弹出“探索:统计”对话框,如图5-16所示,选择“描述”,平均值的置信区间为“95%”,点击“继续”,点击“确定”。
结果显示如图5-20所示。

图5-20 SPSS软件中可信区间估计结果
例5-5
(方差未知类型)从某药厂某药的药片生产线上,随机抽取5片作为样本,测得每片重量(g)为23.0,23.5,23.5,25.0,24.5。过去资料表明,每片药重量呈正态分布,当可信度为0.95时,求生产线上每片药平均重量的可信区间。
解:因n = 5小样本,净重 X~N(μ,σ2),σ2 未知。故应用小样本公式(5-9),

S2 = 0.8222
tα,n−1 = t0.05/2,4 = 2.776

可知,平均重量的置信区间是(22.88g,24.92g)。
(1)CHISS软件计算可信区间
1) 进入数据模块:点击“数据”→“文件”→打开“数据库表”,找到文件名为“b5-5.dbf”的数据库→“确认”。
2) 进入统计模块进行统计计算:点击“统计”→“统计描述”→“正态定量描述”,反应变量:药片重量→“95CL”→“确认”。
3) 进入结果模块查看结果:点击“结果”,见表5-6。
表5-6 正态分布资料描述性统计量

注:数据来自文件:b5-5.DBF。
(2)SAS软件计算可信区间:
结果如图5-21所示。


图5-21 SAS软件中可信区间估计结果
(3)Stata软件计算可信区间
*导入样例b5-5的csv文件
import delimited E:\example\b5-5.csv,encoding(GBK)clear
*计算药片重量的可信区间,结果如图5-22所示
ci means 药片重量,level(95)

图5-22 Stata软件中可信区间估计结果
(4)SPSS软件计算可信区间:
此数据库已建立在文件夹中,文件名为:b5-5sav。
首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b5-5sav”,点击“打开”。
第二,点击“分析”→“描述统计”→“探索”,如图5-15所示,弹出“探索”对话框,在因变量列表中填入“药片重量”,点击“统计”,弹出“探索:统计”对话框,如图5-16所示,选择“描述”,平均值的置信区间为“95%”,点击“继续”,点击“确定”。
结果显示如图5-23所示。

图5-23 SPSS软件中可信区间估计结果
(三)衡量区间估计优劣的两要素
衡量区间估计优劣的两要素是可信度和精度。正态总体均数μ的可信区间,当σ已知时,公式,
是一个以
为中心、以
为半径的区间。
通过可知,当可信度(1 − α)增大,uα/2增大,区间长度增大(精度降低)。当样本容量 n 增大,
缩小,区间长度缩小(精度提高),可见追求可信度和精度是矛盾的。可信度增大(减小),精度降低(提高)。通常做法是,在控制一定的可信度条件下,用加大样本量n的办法提高精度。由于n的加大会直接导致人力、物力、财力的支出加大,所以实际工作中只取满足精度的那个尽可能小的样本容量即可。称可信区间半径
为允许误差限,在精度h已知条件下,样本容量的最低允许值为

当σ未知时,常用以往资料中的标准差代替σ,若没有以往资料则抽样求S2去代替σ2值。
(四)置信区间意义
以总体均数的95%可信区间为例,说明可信区间的意义。总体均数95%可信区间的意义是,用这样的范围估计总体均数,平均说来每100次有95次是正确的。5%是小概率,因此,在实际应用中就认为总体均数在算得的区间内,这种估计方法会冒5%犯错误的风险。
括号“()”为开区间的符号,严格说,计量资料的可信区间不包括区间的两个端点值,分类资料的可信区间包括区间的两个端点值。
例5-6
某医学实验室准备用某种新出生幼鼠做动物实验,测得10只新生幼鼠的初生体重分别为 1.5、1.2、1.3、1.4、1.8、0.9、1.0、1.1、1.6、1.2(g),求该品种鼠幼鼠初生体重总体平均数μ的置信区间(置信度0.95)。
经计算得,
,由 df = n − 1 = 10 − 1 = 9,查 t值表得 t0.05(9) = 2.262,t0.01(9) =3.250,因此,

所以该品种鼠的幼鼠初生体重总体平均数μ的95%可信区间为(1.12,1.48)。
(1)CHISS软件计算可信区间
1) 进入数据模块:点击“数据”→“文件”→打开“数据库表”,找到文件名为“b5-6.dbf”的数据库→“确认”。
2) 进入统计模块进行统计计算:点击“统计”→“统计描述”→“正态定量描述”,反应变量:初生体重→“95CL”“99CL”→“确认”。
3) 进入结果模块查看结果:点击“结果”,结果见表5-7。
表5-7 正态分布资料描述性统计量

注:数据来自文件:b5-6.DBF。
(2)SAS软件计算可信区间

结果如图5-24。

图5-24 SAS软件中可信区间估计结果
(3)Stata计算可信区间
*example 5-6
*导入样例b5-6的csv文件
import delimited E:\example\b5-6.csv,encoding(GBK)clear
*计算幼鼠初生体重的可信区间,结果如图5-25
ci means 初生体重,level(95)
ci means 初生体重,level(99)

图5-25 Stata软件中可信区间估计结果
(4)SPSS计算可信区间:
此数据库已建立在文件夹中,文件名为:b5-6sav。
首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名b5-6sav,点击“打开”。
第二,点击“分析”→“描述统计”→“探索”,如图5-15所示,弹出“探索”对话框,在因变量列表中填入“出生体重”,点击“统计”,弹出“探索:统计”对话框,如图5-16所示,选择“描述”,平均值的置信区间为“95%”,点击“继续”,点击“确定”。
结果显示如图5-26所示。

图5-26 SPSS软件中95%可信区间估计结果
第三,点击“分析”→“描述统计”→“探索”,如图5-15所示,弹出“探索”对话框,在因变量列表中填入“出生体重”,点击“统计”,弹出“探索:统计”对话框,如图5-16所示,选择“描述”,平均值的置信区间为“99%”,点击“继续”,点击“确定”。
结果显示如图5-27所示。

图5-27 SPSS软件中99%可信区间估计结果
(五)可信区间与容许区间的比较
总体均数的置信区间与容许区间(参考值范围)在概念及计算上极易混淆,特作如下比较,如表5-8所示。
表5-8 容许区间与可信区间比较
