补充实验1 随机误差的正态分布

单摆实验仪、电子或机械秒表、尺、正态概率纸

利用正态概率纸(Histogram with Probabilities)作图法来了解单摆振动周期的多次测量数据的变化是否符合正态分布的统计规律;通过学习制作频数分布表、绘制频数分布的直方统计图(Histogram Chart),加深对测量列的平均值和标准偏差的统计规律理解。

统计规律的分析是以大量的实验数据为基础的。大量的实验表明,对某物理量进行多次重复等精度的测量,其结果大多服从正态分布。但是,正态分布并不能够适用于实验中的一切情况,要确定某一等精度测量中随机误差是否服从正态分布的统计规律,应该对其进行统计检验。

频数分布表、频数分布的直方统计图及其概率直方统计图(可用正态概率纸来描述)是用实验方法研究统计规律的三种简单而又有效的方法,因此在许多情况,尤其是在被研究对象的统计规律不了解的情况下,不失为一种初步的统计分析手段。

  • 必做部分:振动周期的测量和统计规律的研究
  1. 用电子或机械秒表测量单摆振动周期的时间,在数据记录本上每一行记录十个数据,共记录12行,共120个数据,然后进行数据处理。
  2. 先对100个数据进行数值计算,求出测量结果的平均值X和测量数据列中单次测量的标准偏差σ。如果发现有其数值在X±3σ范围以外的测量数据,则应将它作为粗大误差(异常值)而予以剔除,并用备用数据补缺,以凑足100个数据,重新计算X和σ,直到100个数据全部落在X±3σ区间内为止。值得注意的是:目前有多种异常值的判断方法,具体请参见附录中的相关内容。
  3. 以所取定的100个数据中的最大值和最小值为界,将所有的数据分成10组,作频数分布表,然后画出频数分布的直方统计图。
  4. 在频数分布表中,对实验数据进行整理和处理,给出相应的累计频率(以%表示)数值。以各分组的右端值为横坐标,以累计频率为纵坐标,在正态概率纸上作图。如果测量的数据点近似在一直线上,则测量数据遵从正态分布。一般说来,中间的数据点不应偏离直线太远,而在两端的数据点,由于该处的坐标分度比较精细,允许有较大的偏离。
  5. 由上述拟合直线与纵坐标为50.0的水平线交点找出平均值X的估计值;由该拟合直线与15.9的水平线交点找出标准偏差σ的估计值(为什么?)。
  6. 对测量数据进行数值计算,求出其平均值、标准偏差以及合成不确定度,再将所得结果与以正态概率纸所求得的估计值进行比较。
  • 实验室有打印好的正态概率纸,做完实验勿忘记取一张回去作图!
  1. 为什么由正态概率纸上的亨利直线可以得到测量列的平均值及单次测量的标准偏差的 估计值?
  2. 若你所测得的一组实验数据,其离散程度比上述例子中的数据大得多(即s比较大),则所得到的平均值与例中的平均值之间的差异也很大吗?
  3. 测单摆周期时,为何要注意小振幅,且使单摆只作平面摆动?应选择哪个位置作为计时的起点和终点。为什么?
  4. 若测量结果偏离正态分布,请分析其产生的主要原因。
  • 实验前:认真预习,写出预习报告。应包括以下内容:实验目的、原理、简要说明实验内容和步骤,并画出数据记录表格;
  • 实验中:记录必要的实验条件,简要描述观察到的主要实验现象,认真记录实验数据;及时记录实验中出现的问题和自己的想法等;完成测量后记录实验仪器的规格和型号。
  • 实验后:解释实验现象、分析实验数据、得出实验结论,针对实验中出现的问题和想法给予分析讨论;欢迎针对实验教材、实验内容本身或教师的带教方式提出各种意见或建议等。
  • 在规定时间内将报告交至指定信箱。
  1. 中国科学院数学研究所统计组 编,常用数理统计方法,北京:科学出版社. 1973,1~14
  2. 贾玉润,王公治,凌佩玲 主编, 大学物理实验, 上海:复旦大学出版社. 1987,16~17;83~88
  3. 叶卫平,方安平,于本方 编著,Origin 7.0科技绘图及数据分析,北京:机械工业出版社. 2004
  4. 沈元华,陆申龙 主编,基础物理实验,北京:高等教育出版社. 2003
  5. 肖明耀 编著,误差理论与应用,北京:计量出版社. 1985
  6. 朱鹤年 编著,新概念物理实验测量引论——数据分析与不确定度评定基础,北京:高等教育出版社. 2007
我觉得人在有些时候是可以记忆时间间隔的。因为掐表的时候是数012345的,每个数都是一样的间隔,掌握了这个节拍之后就很容易记住它,然后无意识的照着这个节拍掐表,这就会造成实验数据中有一段连续的数据都是同一个值,然后在数据处理的时候出现误差。另外实验中发现秒表老是不出现258这三个数字,于是今天下午又去实验室测了一下,我用的方法和下面的同学一样,遮住后两位看它跳然后掐表看数字,我请了另一个同学一起做这个实验,但为了防止出现刚刚说的记住时间间隔这种情况,做了一些改进,我们看到1的时候掐一下记数字,让秒表继续变2的时候再掐再记,依次到10,然后再重复了一次。两个人四个表共做了160组数据,其中2只有1个,5有3个,8一个都没有,这说明秒表它就是掐不出某几个数字啊!这对实验造成了很大的误差,建议换成机械表,机械表估读的时候还有个随机误差,这个应该能使实验更加理想吧?——俞铭蓉
我抽查了十几份同学的数据,确实有3份中没有出现一个末尾8的数据,不过其他报告中没有这个问题,只是末尾8的数据较为少,那么说明有几个秒表确实存在着问题,质量问题啊!考虑去消费者协会或技术质量监督局投诉…但这不能说是引起了很大的误差,只能说影响了数据正态规律的出现,综合来说就是8的出现是个小概率事件,但不影响我们做这个实验和合理的分析,随机误差嘛,当然也得允许一定的随机性,而且正态规律不是说到达200组数据就能保证一定会完美出现的,况且本实验还只要求了120组数据,只是个粗略的统计,没有明显的正态规律怎么办啊?去实验室重新做吗?可以去做做看,但是重新做或者换个新的秒表就一定能保证出现正态规律吗?未必…所以本实验着重掌握正态规律这个概念以及数据处理方法,保证操作处理过程正确分析合理到位.对于换用指针式机械秒表的建议,倒也值得考虑,不过本学期是不换啦,抱歉. — 高渊 2011/11/23 12:40
补充讲义第16页的频数分布表分组方法值得商榷。在“表2-脉冲周期的频数分布表”中,最小值3.937计入第1分组3.937~3.9485,说明分组区间是左闭的;但是,最大值4.049被计入了第10分组4.0385~4.049,又说明分组区间是右闭的。显然,全闭区间是不允许的!尽管讲义通过提高分组精度避开了“骑墙”的麻烦,但问题始终存在:要么左闭右开,要么左开右闭——第1或第10分组中必有1组多计了1个频数。再观察讲义第17页由Origin制作的“频数分布的直方统计图”,可知总的频数为99,而非100,即Origin没有将4.049计入第10分组,可知Origin的分组区间是左闭右开的。(需要说明的是,第16页的频数分布表8,9,10组频数统计疑有误,如第10组即便算入4.049也只有3个频数而非4个)
无论如何,“提高分组精度”的分组方法看似解决了问题,实则引入了更大的问题:第一组或最后一组一定会多计一个频数,且每组的组距不一(如第6页表2中第1组组距deltaX1=0.0115,第10组deltaX10=0.0105,而deltaX6=deltaX8=0.012,其余组deltaX=0.011)。由于分组直接关系到直方统计图的形状,这种方法似乎太过随意了。
这里尝试提出另一种分组方法:仍由最大值和最小值之差得级差R=Xmax-Xmin,分为(K+1)组,组距设为deltaX=R/K=(Xmax-Xmin)/K,设初值(Xmin-0.5*deltaX),终值(Xmax+0.5deltaX),每分组区间左闭右开。这样,尽管增加了一个分组,但不会出现频数误计的问题,每组组距相等,且不用担心“骑墙”。——王磊
谢谢王磊提出上述问题,已经在补充讲义中进行了修改,关于Origin分组区间左闭右开的问题,经过商讨,现在讲义中将最后一个数据手工分入最后一组;讲义中原数据每组组距不一的问题也已修正;教材中方便起见把100组数据分为10组,实际上在符合分组规则下完全可以分为不同组数。再次感谢王磊,若还有不妥之处希望广大同学提出建议,我们的实验内容和教材很需要大家一起来完善,谢谢! — 高渊 2009/03/26 13:16
老师,我计算出的标准偏差为0.01,平均值为10.03,也就是说小于10.00大于10.06的数据都要被剔除,但是我的数据中不满足这个范围的有很多,剩下的20个数据根本不够补充,怎么办?——张晗
估计是你测量过程中按秒表和单摆摆动状况没有保持好,使得数据起伏过大。两个办法:1:对这个情况进行分析讨论,剔除20个偏差最大的数据,用剩下的100个数据进行处理,掌握本实验中的数据处理方法,也算达到了本实验的目的,以后做实验要倍加细心和耐心;2:周二下午1点半来重新测量120个数据,要是因此造成报告晚交,要跟当时任课老师说明一下 。— 高渊 2009/04/18 21:11
老师,我数据得出的最大值为10.31,最小值为9.91,级差0.40,组距0.040,分组的时候9.95,9.99等一系列边界值都骑墙了,对于这些值应该归在哪边呢?是全部左开右闭然后最后一组加上10.31,还是分成11组?但那样组距又需要近似,不十分准确了。遇到这种情况应该怎么处理呢?——黄思言
可以采用你所说的第一种方法,教材上例子也是这样处理的,当然如果组距不需要近似的话,也可以分成非10组的,可以参考书上组数的计算公式。 — 高渊2009/04/18 21:23
老师,本次实验中频数分布表分组方法直接影响到直方统计图,对于“骑墙”的数据,若按教材上所说的一种方法进行重新分组势必将使原有的表格浪费,而将骑墙数据全部划归后一组问题更严重,当某一组最小值不骑墙而最大值骑墙,会使这一组的频数偏低,反之将使这一组的频数偏高,从而使直方图偏离正态分布甚至出现“双峰”的现象,建议把骑墙的数据均匀分配到左右两组,并允许某些组的频数不为整数,只要频数是0.5的整数倍即可,这样可以消除“双峰”等由于分组方式而产生的异常现象。——周瀛
由于测量的数据量不够多以及其他操作上仪器上带来的影响,所以出现不够理想的情况也属正常,左右均匀分配等办法在很多情况下并不适用,出现双峰不能绝对归于分组的缘故,怎么不考虑操作或者其他原因呢?频数不同会带来很多问题,频数不为整数或者改变组数倒是可以考虑;应该采用合理的方式处理数据,为了使数据达到某种要求而进行特殊处理很多情况下不是很好,所以建议还是按照教材通用原则进行分组,我们要求学生掌握的是数据处理方法,操作过程正确处理方式正确,数据不够合理并不会多扣分数。 — 高渊 2009/10/16 10:54
老师,我最后在正态概率纸上描出的点基本都在一条直线上,但是最后一个点偏了很多,这是为什么呢?我拟合直线的时候要不要把最后一个点也描进去呢?还是只按前面的点描一条直线,让最后那个点偏离直线?
最后一个点偏离说明那个数据异常,一般可以舍掉。 — 高渊 2009/10/16 11:06
谢谢老师
老师,我做的数据出现了较严重的偏离正态分布的现象。我在测量时,5周期值有许多次测出8.47和8.50的情况,但8.48和8.49几乎没有,导致如分组在6组以上时,会出现两个极大值,且两个极大值之间数据急剧减少的情况。我是否可以将组距减少,减少分组个数,使图像尽量靠近正态?—沈逸元
可以。 — 高渊 2009/12/25 13:30
老师,我在预习的时候发现个问题;在计算标准偏差的时候,如果异常值偏离比较大,必然会影响标准差和平均值,这时会不会导致本来准确的数据被判定为异常值而被剔除?—–李赟
一般不会,偏离比较大的属于高度显著的异常值,这种数值在测量的时候就应该注意到了,一开始即可剔除,用备用的数据补上。 — 高渊 2009/12/25 13:30
老师,补充教材第16页正文第一行末尾“最大值和最小值”和后面跟的xmax和xmin是不是位置放反了?(很无趣的问题,偶尔发现,冒个泡~~)–陈亦丁
陈亦丁同学,非常感谢你指出讲义中的错误。 — 乐永康 2010/03/14 20:51
老师,亨利直线中的标准差为什么要取15.9处呢?我查了一些资料有的说用0.84,有的说用13.5处值与平均值之差的1/3,这是怎么回事呢?—侯东妮
老师,亨利直线中的标准差为什么要取15.9处呢?15.9是怎么算出来的?——樊静丹
详见补充教材20、21页附录中内容。 — 高渊 2010/04/19 10:52
老师,我的数据严重的偏离了正态分布规律。具体十组频数分别为:3,3,5,26,3,28,25,0,6,1,所以在作频数直方图以及正态分布规律时偏差很大,请问这是应怎样处理?可以将第五组数据忽略吗?–宋阳丽
不能随意忽略数据,你可以照书上例子处理并分析结果,实验并不要求非要得出很理想的正态分布数据,但要求掌握概念及数据处理方法;或者你再研究一下讲义,改变数据处理方式,看看能不能得出更合理的结果。之后如果你力求完美,则可以来实验室重新尝试。 — 高渊 2010/05/24 13:41
老师,讲义上说以各组的右端值为横坐标,以累计概率为纵坐标画正态分布图,那么最后一组概率即为100%,画在99.99%的位置是否会有些不妥?在这样就规定了最后一组的纵坐标,图像若符合正态分只能是较陡的 一直线,我看讲义上的图最后一组并未画到99.9-9%的位置,图线就很合理。为什么不以每组的中间值为横坐标作图呢?这样不是更合理一些吗?(我也不知道是不是我哪里少根筋想错了,前辈们都是这样做的,就我觉得有些怪)–王丽
老师,我错了,只要是以累计概率为纵坐标,无论最后取哪一个横坐标值都是取99.99%的纵坐标,您就当我啥也没说好了。
老师,我想最后一组的概率是不是应该把最大值忽略掉,累计频率就直接以1减去最大值的频率当成最后一个点的纵坐标,这样就合理了。看来我琢磨这麽久才想到这样,还是预习没做好啊:-(
以每组的中间值为横坐标作图完全可以,用Origin软件作图就是以每组中间值为横坐标的,而且软件确实是以99%为最后一点的纵坐标的,横坐标取的也是最后一组的中间值,书上的例图就是用Origin软件画的,注意到正态概率纸上纵坐标是没有0和100%的,我们看到的是0.01到99.99%,或许这就是原因?此处还有待验证。手工画图不必完全根据书上例子,两端偏离较大的点可以舍去,也可以作出合理的图。 — 高渊 2010/10/18 17:47
老师,我认为以各组的右端值为横坐标、累计频率为纵坐标绘制图像才正确,否则若用中间值为横坐标,利用图像求出的平均值将偏小半组距。不过如果只是定性分析是否服从正态分布、或求标准偏差(此时两个横坐标相减恰好将半组距的偏差抵消),用中间值为横坐标倒也无妨。但以右端值为横坐标做出的图像的统计意义才正确,表示测量值小于右端值x0的频率,当数据数量足够多时,就是测量值小于右端值的概率,即为补充教材附录中的累计分布函数φ(x)在x0处的数值。而亨利直线就是由φ(x)经过不等分度的伸缩变换得到的。补充教材中的例子的平均值若加上半组距0.0056s,实际上与利用数据直接求得的平均值偏差仅为0.0008s,而不像讲义中高达0.0048s。——陈绿洲
陈绿洲说的没错,所以手工作图应以书上步骤中要求取坐标,Origin软件作正态概率纸上的统计图坐标变换时会以中间值为横坐标,暂时没研究过怎么进行设置更改,大家有兴趣可以去尝试一下,或者先分组取右端值后再以Origin拟合出直线. — 高渊 2010/12/29 12:12
老师,我觉得那个秒表是有问题的.当真实时间落在一个2到3毫秒的小区间的时候,显示的时间有很大的概率是其中的某一点或几点.比如说所有在7.80到7.83秒之间,基本上都是7.82和7.81,而很少出现7.80和7.83(事实上在我的实验数据中就没出现这两点,而且似乎是每隔3毫秒就有一个数显示的概率很小).这样的话如果分组不当有可能会严重影响实验结果和正态分布的符合程度.(其实我早就发现现在市售的电子表的秒表都有这个缺陷,不知是什么原理…) — 盛祥海
非常认真细致的观察和分析。非常好的问题,实验中心老师也可能都不清楚具体的原因。很巧,我们最近在开发有关时间测量的系列教学/演示实验,其中就有电子表的内容。高老师也参与此项目,负责其中一部分的内容,欢迎你来参与这个项目。 — 乐永康 2010/12/08 22:43
有些时间点确实很难被秒表掐出来,对秒表内部计时装置不了解,无法解答。对于实验数据的处理,终点要求掌握方法,由于各种不确定因素,不要求非得测出很完美的正态曲线. — 高渊 2010/12/09 18:04
我觉得这需要实验验证,就像我们做这个单摆实验的目的一样:验证测量单摆周期的误差是否符合正态分布.(我先猜一下,如果秒表没问题的话,结果也符合正态分布)而且这两种测量方式都是人看到一种现象然后手做出掐表的反应,所以是不是可以这么想,这个实验本质是验证人的反应时间是否符合正态分布?不过就算人都是在同一时间掐表,表的示数有可能还不一样…(难道,这就是传说中的测不准原理?)所以引起实验误差的因素不止人的反应时间. 或者再进一步,符合正态分布的条件是什么? “根据概率论的中心极限定理,只要总的测量误差是由一系列相互独立的个别因素引起的基本误差之和,且每一因素对总的测量误差的贡献是均匀和细小的,那么不管这些因素服从什么分布,总的测量误差都服从正态分布.”—摘自补充教材. 但我们很难对这个条件做出判断,所以还是要实验验证.. —–盛祥海
今天中午去拿实验报告,去早了,我就在实验室验证了这个实验。秒表从0:00开始计时,用手盖住后两位,当第一位的1刚出现的时候,停止计时,读出后两位,测出110个数据,做出的折线图基本满足正态分布。可能由于注意力的原因,部分数据有偏差。这个实验也可以验证盛祥海同学关于秒表的问题。实验共用时20分钟。附数据:原始数据 处理后的数据 ——王烁 10300290020
奇怪了,这个数据很正常啊…完全没有我说的那个现象发生..
我分别用实验室秒表和手机上的秒表软件做了一次上面的实验,数据如下对比试验结果.xls,可以看出实验室秒表的问题依旧,手机上的软件基本上是没问题的.改天去拜会一下王烁同学用的秒表.. — sxh 2011/01/06 18:39
我用找了4个人在电脑上做了5组数据,http://www.rubik.com.cn/stopwatch.htm,这个网址上有个计时器,(其实自己也可以编一个计时器,但是目前我无能为力:-()。我们依旧是盖住后两位,当出现1的时候按下空格。数据表1数据表2数据表3数据表4这次的实验结果表明确实有若干个值是很少很少出现的,几乎是不出现的。其中前三组数据时在一台电脑上进行的,最后一个数据是在另一台电脑上进行的,而且实验者也不一样,但是每个人除了时间不一样外,一些值总是不出现,这说明不是由于个人和电脑键盘的因素,而是由于程序的问题,而程序的问题归根到底是电脑内部计时器的问题。而秒表内部也应该有计时器的问题。但为什么我上次用秒表做出的结果很好的符合正态分布,而盛祥海同学用的秒表确掐不出有些值,不懂:-/… — 王烁 10300290020 2011/01/06 21:39
以上各位同学的讨论和探索很有意思,观察分析很细致,对比测量设计得也很好,非常期望你们能进一步探索下去。
另外,实验室正在开发一组有关时间测量原理的演示实验仪,其中就有“电子表计时”的内容,如果你们有兴趣,欢迎你们来参与。可与高老师、苏老师或者我联系。 — 乐永康 2011/01/08 22:20
我以前也注意到过类似的问题。我认为可能是由于这些计时器的精确度就不是0.01秒,而是0.02秒之类的,所以导致类似0.03、0.05这样的数据不可能出现。 — 胡逸然 2011/03/24 18:49

老师,我想问一下,为什么讲义上计算A类不确定度的时候,分母上除以的是100,而不是100*99呢? 我翻看了前面A类不确定度的计算,分母应该是n(n-1),这样才对吧? 我不知道是什么原因,用这两种方法算出来的不确定度差别很大,我不清楚是我公式用的不对,还是书上写的有些问题。请老师指正,谢谢!–王博
A类不确定度公式中分子上是该测量列单次测量的标准偏差,基础物理实验教材上该标准偏差估计值的计算公式分母上是(n-1),所以代入到A类不确定度中应再除以n。 — 高渊 2011/01/10 10:06
楼上的同学,单摆的周期是不随振幅大小改变而变化的,只要摆角足够小,符合单摆要求即可。具体可以参照物理书关于简谐振动部分。——宋润喆 10300220029
王烁同学,我同意你的观点。一个随机过程多次测量结果的统计应该是趋近于正态分布的。你建议的这种测量,也是一个随机过程。当然,不同测量的分布宽度等会不一样。 — 乐永康 2011/01/11 17:50
前面的问答很有探讨价值啊。赞一个。这里我只想问一个平常且简洁却又核心的问题,就是:实验数据的正态分布(或者我们说t分布),到底是由于秒表误差造成的,还是由于人掐表的误差造成的?或者说谁的贡献更大?谢谢。我倾向于认为是后者。(另外这个提问版面有点小乱啊,最好指定一个提问发布顺序,比如按时间从上到下什么的) — 刘享洋 2011/05/06 12:58
我也倾向于后者,掐表的随机性太大了。秒表的误差属于系统误差,本身数值上较小,影响肯定也小。 — 高渊 2011/05/13 12:28
老师,我们上了实验数据处理课之后计算不确定度时,那些非常复杂的公式是不是要求记忆呢(比如计算最小二乘法的k,b的不确定度)?—危孟泱 11300720268
最小二乘法中的计算公式非常复杂,都不用背。但是A类B类合成和传递的不确定度计算公式一定掌握并且记住。 — 高渊 2011/10/08 11:07
这个实验最后拟合直线时是手工作图吗?不需要再建立坐标然后用最小二乘法?还有就是(一89)的应该把报告交到哪个信箱?谢了~
本实验提供正态概率纸,每人一张,手工作图,不需要用最小二乘法,周一89节804做的实验交到卢鹏老师信箱,上课的时候要问好。或者你自己去看信箱上面信息就应该知道交哪儿了。 — 高渊 2011/10/20 09:40
老师您好!我做的实验数据中出现了“双峰”,严重不符合正态分布。是分析一下失败原因还是重做试验?——杨佳柠 11307120230
建议重做!如在实验过程中,没有注意到“问题”并做原因分析及验证实验,仅在写报告时对结果做“失败原因”分析,往往只能停留在猜测层面,分析是否合理无从判断,那么分析的价值就大打折扣了。 — 乐永康 2011/11/19 22:17
谢谢老师!
老师您好,我做实验时忘了拿正态概率纸了,找同学的借去复印了一下,可以吗?——邵以琳
可以的! — 乐永康 2011/11/19 22:17
老师您好!在实验过程中,球的摆动因为空气阻力作用振幅减小,由于球质量比较大,角度也比较小,如果不考虑这对T的影响,那么,每次用手加大球的振幅,很难保证每个测量过程球完全在一个平面内运动,摆动角度也不一样了,这些误差是不是会累加,使得数据出现很大偏差呢? — 黄帅淇 2011/12/05 17:08
每次摆动保持小角度,手要稳,手指不要给球施加其他方向的力,或者用尺子将球推开一个角度是一个好方法,使球在平面内运动并不是很难的一件事,每摆一次采集数据不超过5个,这样角度也不会有明显的衰减,那误差也不会累加. — 高渊 2011/12/06 10:47
老师,由于振幅改变,单摆的周期在测量中是变的。我有一个想法,单摆是不需要的,只要有一个固定的量,比如秒表从0开始计时,到看到5的时候按下秒表,由于每次测量不一样,最后得到的结果也应该是正态分布吧? —王烁 10300290020
单摆角度控制合适,周期可以近似认为是不变的。你说的按秒表测量,也是一个可行的方法。另:提问不要放在中间,看了半天才发现你的问题。 — 高渊 2011/12/29 13:39
  • exp/platform/ztfb.txt
  • 最后更改: 2011/12/29 13:41
  • (外部编辑)