论文部分内容阅读
统计学中,样本(总体)的数字特征通常是指一组数据的众数、中位数、平均数以及方差和标准差等. 这里的平均数、方差、标准差与离散型随机变量的期望、方差和标准差在本质上是一致的. 为了从整体上更好地把握总体的规律,我们需要通过样本数据的众数、中位数、平均数、方差、标准差来估计总体的众数、中位数、平均数、方差、标准差. 本文通过具体例子剖析样本数字特征的概念、性质和用途,以期对同学们正确理解并应用数字特征去解决具体问题有所帮助.
用定义与公式求样本的数字特征
例1 已知某中学高三(1)班的甲、乙两名同学自高中以来12次数学考试成绩的茎叶图如图,则下列说法正确的个数为 .
A. 乙的成绩中有两个众数
B. 甲的成绩的中位数大于乙的成绩的中位数
C. 甲的成绩与乙的成绩的平均分相同
D. 乙同学的成绩比甲同学的成绩稳定
分析 茎叶图给出了甲、乙两同学的成绩,用定义与公式即可求出甲、乙同学的成绩的众数、中位数、平均数、方差.
解 乙同学的成绩中98,99各有两次,其余成绩均只出现一次,故乙同学的成绩有两个众数,A正确.
甲同学成绩的中位数为,乙同学成绩的中位数为,B项不正确.
计算知,甲同学的平均分为89分,乙同学的平均分为92.83分,C项不正确.
乙同学的分数较为集中,甲同学的分数较为分散,D项正确.

答案 2
点拨 虽然方差是用来刻画数据的离散程度的,但本题利用茎叶图的直观优势,可以直接得出乙同学成绩更为稳定这一结论,从而避免了繁琐的方差计算.
利用频率分布直方图估计总体的数字特征
例2 从某校1000名学生中抽200人统计数学会考成绩,得到样本频率分布直方图如图,试估计该校学生数学会考成绩的众数、中位数、平均数.
分析 利用样本的频率分布直方图来估计总体的数字特征,方法如下:众数的估计值是最高矩形的底边的中点. 中位数的估计值将直方图分成左右面积相等的两部分. 平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.

解 图中最高矩形底边区间为,其中点为75,故样本数据的众数为75,则总体众数的估计值为75.
图中所有小矩形面积之和为1,左边三个小矩形面积之和为,第四个小矩形面积为.第四个小矩形中面积为的部分所占比例为,即直线将直方图左右分成面积相等的两部分,故总体中位数的估计值约为.
总体平均数的估计值为.
点拨 确定中位数的估计值时,先要确定面积等分线位于哪一个小矩形中,再确定向左划出面积与该矩形面积的比值,根据此比例关系即可得到面积等分线的具体位置. 平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和,而每个小矩形的面积等于该组频率,若该组频率用表示,小矩形底边中点的横坐标用表示,则平均数的估计值为,这与离散型随机变量均值的公式一样,可见样本的平均数与离散型随机变量的均值在本质上是一致的.

利用数字特征反推原始数据
例3 为了考查某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据. 已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
分析 由题意知,5个样本数据为互不相同的整数,则可以将这5个数据按大小排序,再通过值的范围试探求解.
需要指出的是,对众数、中位数、平均数、标准差等数字特征要有一个正确的理解. 在频率分布直方图中,样本的众数是最高矩形的中点的横坐标,它比较容易计算,但它只能表示样本数据中的很少一部分信息. 样本中位数左边和右边的直方图的面积相等,它不受少数几个极端值的影响,但它仅仅利用了排在中间的数据的信息. 样本平均数等于每个小矩形的面积乘以矩形底边中点横坐标之和,它与每个样本数据有关,任何一个样本数据的改变都会引起平均数的改变. 这是中位数、众数都不具有的性质. 也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据的信息. 例如:样本平均数大于样本中位数时,说明数据中存在许多较大的极端值. 反之,说明数据中存在许多较小的极端值. 另外,在刻画数据的分散程度上,方差和标准差的效果是一样的,但在解决实际问题时,一般多采用标准差. 注意,如果根据某种利益去选择使用中位数或平均数来描述数据的基本情况,则可能会产生一些误导作用.
用定义与公式求样本的数字特征
例1 已知某中学高三(1)班的甲、乙两名同学自高中以来12次数学考试成绩的茎叶图如图,则下列说法正确的个数为 .
A. 乙的成绩中有两个众数
B. 甲的成绩的中位数大于乙的成绩的中位数
C. 甲的成绩与乙的成绩的平均分相同
D. 乙同学的成绩比甲同学的成绩稳定
分析 茎叶图给出了甲、乙两同学的成绩,用定义与公式即可求出甲、乙同学的成绩的众数、中位数、平均数、方差.
解 乙同学的成绩中98,99各有两次,其余成绩均只出现一次,故乙同学的成绩有两个众数,A正确.
甲同学成绩的中位数为,乙同学成绩的中位数为,B项不正确.
计算知,甲同学的平均分为89分,乙同学的平均分为92.83分,C项不正确.
乙同学的分数较为集中,甲同学的分数较为分散,D项正确.

答案 2
点拨 虽然方差是用来刻画数据的离散程度的,但本题利用茎叶图的直观优势,可以直接得出乙同学成绩更为稳定这一结论,从而避免了繁琐的方差计算.
利用频率分布直方图估计总体的数字特征
例2 从某校1000名学生中抽200人统计数学会考成绩,得到样本频率分布直方图如图,试估计该校学生数学会考成绩的众数、中位数、平均数.
分析 利用样本的频率分布直方图来估计总体的数字特征,方法如下:众数的估计值是最高矩形的底边的中点. 中位数的估计值将直方图分成左右面积相等的两部分. 平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.

解 图中最高矩形底边区间为,其中点为75,故样本数据的众数为75,则总体众数的估计值为75.
图中所有小矩形面积之和为1,左边三个小矩形面积之和为,第四个小矩形面积为.第四个小矩形中面积为的部分所占比例为,即直线将直方图左右分成面积相等的两部分,故总体中位数的估计值约为.
总体平均数的估计值为.
点拨 确定中位数的估计值时,先要确定面积等分线位于哪一个小矩形中,再确定向左划出面积与该矩形面积的比值,根据此比例关系即可得到面积等分线的具体位置. 平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和,而每个小矩形的面积等于该组频率,若该组频率用表示,小矩形底边中点的横坐标用表示,则平均数的估计值为,这与离散型随机变量均值的公式一样,可见样本的平均数与离散型随机变量的均值在本质上是一致的.

利用数字特征反推原始数据
例3 为了考查某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据. 已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
分析 由题意知,5个样本数据为互不相同的整数,则可以将这5个数据按大小排序,再通过值的范围试探求解.
需要指出的是,对众数、中位数、平均数、标准差等数字特征要有一个正确的理解. 在频率分布直方图中,样本的众数是最高矩形的中点的横坐标,它比较容易计算,但它只能表示样本数据中的很少一部分信息. 样本中位数左边和右边的直方图的面积相等,它不受少数几个极端值的影响,但它仅仅利用了排在中间的数据的信息. 样本平均数等于每个小矩形的面积乘以矩形底边中点横坐标之和,它与每个样本数据有关,任何一个样本数据的改变都会引起平均数的改变. 这是中位数、众数都不具有的性质. 也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据的信息. 例如:样本平均数大于样本中位数时,说明数据中存在许多较大的极端值. 反之,说明数据中存在许多较小的极端值. 另外,在刻画数据的分散程度上,方差和标准差的效果是一样的,但在解决实际问题时,一般多采用标准差. 注意,如果根据某种利益去选择使用中位数或平均数来描述数据的基本情况,则可能会产生一些误导作用.