论文部分内容阅读
摘要:在经济社会调查中,对空间的相关性应用较为广泛,传统的抽样设计已经跟不上时代的发展。随着时代衍生出来的空间平衡抽样设计方案,对总体单元的空间信息考虑相对全面。文章主要通过分析经济社会调查中的空间相关性和空间平衡抽样设计的概念,进而研究经济社会调查中的空间平衡抽样设计方法。
关键词:经济社会调查;空间平衡;抽样设计
一、经济社会调查中的空间相关性
经济社会调查中所需要研究的对象分布较为离散,虽然他们在一定空间内也会相似,产生相关性,但是这种空间相关性会对抽样设计产生一些影响:空间相关性的出现打破了传统抽样方法中总体的每个单元是相互独立的假设前提;如果空间中的许多相似单元进入样本中,效率样本空间,导致样本信息出现大面积的重复,从而降低样本的代表性,產生估计结果偏差。所以,在抽样调查中,应该在抽样设计过程中分析总体单元的空间信息,重视总体单元空间属性对抽样产生的影响。经济社会调查中的相关性所表现出来的是局部空间中的部分总体特征,说明了总体空间中各单元存在一定程度的联系。
二、空间平衡抽样设计
社会经济调查中,空间平衡抽样设计具有一定的优势,能够提前分析单元所在的空间位置,在抽取样本的时候,同一时间段内,尽量抽取到彼此相关性较弱所隔距离较远的单元,从而避免样本信息重复,达到样本均匀分布的目的。为实现这一设计,设计空间平衡的方法如下所述。
1. 构造抽样框。基本的抽样框应具备总体单元的经纬度坐标信息,作为设计空间平衡的辅助信息,单元的经纬度可以通过电脑端网络地图软件、网络在线预览地图软件和专门的手机地图APP来获取。
2. 设定初始包含概率。采用等概率方法或者不等概率方法设计总体单元的初始包含概率。
3. 采用空间平衡抽样算法选取样本。空间平衡抽样算法主要包括空间相关泊松抽样,局部枢轴法和空间双重平衡抽样三种。
空间平衡抽样算法把设定的包含概率进而发展成入样指示变量,根据总体单元的经纬度计算出各单元之间的空间距离,充分利用样本空间的辅助信息。空间相关泊松抽样算法N次逐一地访问总体单元,每一步的更新都取决于上一步包含概率更新的结果,如果一个单元成功入样了,将会推动空间上和它相邻单元的包含概率的更新,相邻单元的包含概率将会变得高度负相关,并且这种算法主要在计算权重的过程中应用空间辅助信息。
局部枢轴法简称LPM,主要分为LPM1和LPM2两种,LPM1首先进行随机抽样,选取样本,然后根据空间辅助信息计算出空间中单元之间的距离,选出离得最近的两个单元,然后对这两个单元的进行包含概率的更新,理论上的运算次数超不过幂的三次方。LPM2首先也是进行随机抽样,但是对于两个单元之间的距离不做过多要求,而是利用枢轴法直接进行两个单元的包含概率的更新,所以其运算的次数不超过幂的二次方,虽然LPM2的空间平衡性相对较差,但是所耗费的时间和做运算次数却低于LPM1;空间双重平衡抽样简称DBSS,又叫做局部立体算法,这个算法主要是重复抽取总体空间里的子集,在所抽取的子集中抽取空间平衡样本,对于算法中所涉及到的重复计算,首先需要在一个全新的集合中随机抽取一个单元,将所抽取的单元和它附近的单元组成一个子集,并算出子集的中心点和每个单元与中心点距离的平方和,选出距离平方和最小的单元组成一个新的子集,并重复以上的计算,直到找出整个空间中距离平方和最小的单元为止,并得到最终的空间子集,其次,在所确定的空间子集中,对于平衡方程的构造,需要把经纬度坐标当做一个平衡变量,并利用立方体法中的起飞步进行抽样,然后不断重复,直到所剩余的单元树不足以进行计算为止,然后采用立方体法中的着陆步抽样选取剩下的单元,空间双重平衡抽样算法利用了空间局部计算的方法所获取的样本具有空间平衡性。
4. 根据抽样的结果进行调查。分析调查的实际需求,汇总那些前往实地调研获取的样本单元的目标变量或根据查阅资料所获取的样本单元的目标变量。
5. 根据所得到的空间平衡样本,进行一系列的统计和推断。包含概率更新后变成入样指示向量,从一定程度上来讲,更新包含概率就是选取样本的过程。对于入样指示向量的更新,是在空间辅助信息下,随机的实现初始包含概率。所以,在估计的过程中,使用的是初始设计的包含概率,选取样本的过程中应用了空间辅助信息,而估计的过程中没有使用。
三、空间平衡抽样设计可以有效降低估计量的标准差
在多次重复抽样过程中,空间平衡抽样设计的方法可以获取在空间中均匀分布的样本,增强了稳定性,确保了所抽取的样本相对于空间总体具有一定的代表性,使得后续的统计推断变得更加真实可靠。空间平衡抽样设计可以利用所计算出来的空间中单元之间的距离,来进行总体单元包含概率的更新,减小那些距离较近的单元同时被抽取的可能,从而确保每次抽取的单元能够在总体空间中离散的分布,使样本更具代表性。在空间平衡抽样中,由于所抽取的样本在总体空间中都是均匀分布的,而且都是按照比例进行抽取的,所以空间差异较小,可以很大程度的提高样本的估计效率,减小估计量的相对误差。
四、对于经济社会调查中空间平衡抽样设计方法的探析
1.调查总体界定和总体特征
在经济社会调查中,需要获取所要调查对象的实际数据,得出目标变量和辅助变量。将所获得的辅助变量、空间信息和总体单元名录编入抽样框,选取合适的抽样方法,并将局部空间内的总体单元相似性表现出来,可以通过绘制图像或图表的方法更直观地分析总体单元。
2.设计抽样方法
对于抽样框的抽样可以采取以下三种方法:第一,分层随机抽样法。找出分层的标志,并按比例划分每一层的样本量,增强估计量的统计性,从而提高所抽取样本的代表性;第二,简单随机抽样法,虽然简单随机抽样比不上分层随机抽样,但是在实证分析中,不妨引入简单随机抽样,参照它进行估计效率的比较;第三,空间平衡抽样法,在经济社会调查中,由于空间性较强,可以计算出总体单元的经纬度坐标,将其当做空间的辅助信息,然后利用空间平衡的算法进行单元间距离的计算,进而抽取满足该调查的空间平衡样本,但是这类方法的计算量很大,需要借助软件工具,可以帮助减小计算量,利用软件优化计算过程,更容易获取空间平衡样本,然后对所获得的样本进行估计。 3.确定样本含量
对于不固定的样本量可以采取等概的抽样设计法,设定初始包含概率,获取在目标容量上下波动的样本。
4.评估方法
在经济社会调查中,所采用的是传统的HT估计量进行估计。尽管HT估计量具有无偏性,但是最应该注重的是进行反复多次的抽样后,所应用的抽样方法得到的估计结果表现出来的特征,然后对该抽样方法进行评估。对于经济社会调查来说,主要采用的评价估计效果的方法是相对均方根误差。
5.估计结果并讨论
(1)估计结果
在经济社会调查中,采用软件需要编写并运行程序,从而达到重复抽样的目标,估计目标变量和减少计算量。应当采取空间双重平衡抽样,因为相对于传统的抽样方法来说,这类方法能够获得更加精确的估计量,并且对于样本容量少的情况,空间双重平衡抽样具有绝对的优势。
(2)空间信息对抽样设计的改进
对于总体单元,当存在空间相关性时,可以通过合理利用空间信息的方式,来改善抽样设计。空间双重平衡抽样算法通过计算出总体中单元间的距离实现对空间信息的利用,并结合平衡变量这个辅助信息,充分发挥二者的作用,提高所抽取的样本对于总体单元的代表性。
在经济社会调查中,对于空间抽样的设计,通过专业地图软件获取总体中各单元的经纬度坐标信息,把它们当做平衡变量,用于局部立方体法中,把它们当做空间辅助信息,用于计算空间距离中。虽然这样做的估计效率较好,也充分考虑了平衡变量,但是却没有太大的改进抽样设计。所以,最好的方法还是需要把空间辅助信息当做平衡变量用于局部立方体的计算,从而来确保所抽取的样本能与总体保持一致,利用经纬度坐标完善空间辅助信息,可以确保所抽取的样本在空间上是均匀分布的,进而达到所抽取样本是相对平衡的目的。
五、结语
综上所述,空间平衡抽样设计结合了空間抽样设计把经纬度坐标信息当做空间辅助信息的优点和平衡抽样设计把经纬度坐标信息当做平衡变量的优点,结合空间多种类型的辅助信息,获取代表性强又相对平衡的样本,丰富了抽样调查的理论方法体系,完善了抽样调查的进展流程。虽然在空间平衡抽样算法中利用了空间信息,但是在估计的过程中却没有利用,多少有些可惜这些空间信息。对于样本中的总体空间信息,如果进行合理利用,不仅可以改善方差估计量的形式,还可以提高估计效率,获得更加准确的估计。但是如果样本单元在空间中的距离很远,无法集中的展开调查,将会极大地增加调查的人力、物力和财力,导致调查的成本急剧增加。因此,对于社会经济调查来说,在设计空间平衡抽样的过程中,应当同时考虑调查成本和样本代表性,尽量做到二者的统一与平衡,极大程度的减少成本投入。此外,对于空间辅助信息,还有很大的利用空间,可以在调查中加以利用,进一步改进对于估计量的使用。
参考文献:
[1]郝一炜,金勇进.经济社会调查中的空间平衡抽样设计[J].统计与信息论坛,2018,33(11):3-10.
[2]李明阳,张向阳,吴文浩,等.基于GIS的森林资源调查空间平衡抽样方法研究[J].林业资源管理,2008(04):137-142+150.
[3]李苑菱,陈宗铸,雷金睿,等.海口市森林资源调查空间平衡抽样研究[J].林业资源管理,2019(02):47-53.
[4]赵文飞.基于居住-就业视角的南京老城区职住空间研究——以南京市主城区(城中片区)控制性详细规划老城单元为例[D].江苏:东南大学,2018.
[5]李苑菱,陈宗铸,雷金睿,等.基于GIS海南森林资源调查抽样方法研究[J].热带林业,2019,47(01):38-42.
[6]朱龙腾.建筑中水系统中的水量平衡与能耗分析——以北京市饭店行业为例[D].北京:中国科学院大学,2013.
(作者单位:内蒙古民族大学)
关键词:经济社会调查;空间平衡;抽样设计
一、经济社会调查中的空间相关性
经济社会调查中所需要研究的对象分布较为离散,虽然他们在一定空间内也会相似,产生相关性,但是这种空间相关性会对抽样设计产生一些影响:空间相关性的出现打破了传统抽样方法中总体的每个单元是相互独立的假设前提;如果空间中的许多相似单元进入样本中,效率样本空间,导致样本信息出现大面积的重复,从而降低样本的代表性,產生估计结果偏差。所以,在抽样调查中,应该在抽样设计过程中分析总体单元的空间信息,重视总体单元空间属性对抽样产生的影响。经济社会调查中的相关性所表现出来的是局部空间中的部分总体特征,说明了总体空间中各单元存在一定程度的联系。
二、空间平衡抽样设计
社会经济调查中,空间平衡抽样设计具有一定的优势,能够提前分析单元所在的空间位置,在抽取样本的时候,同一时间段内,尽量抽取到彼此相关性较弱所隔距离较远的单元,从而避免样本信息重复,达到样本均匀分布的目的。为实现这一设计,设计空间平衡的方法如下所述。
1. 构造抽样框。基本的抽样框应具备总体单元的经纬度坐标信息,作为设计空间平衡的辅助信息,单元的经纬度可以通过电脑端网络地图软件、网络在线预览地图软件和专门的手机地图APP来获取。
2. 设定初始包含概率。采用等概率方法或者不等概率方法设计总体单元的初始包含概率。
3. 采用空间平衡抽样算法选取样本。空间平衡抽样算法主要包括空间相关泊松抽样,局部枢轴法和空间双重平衡抽样三种。
空间平衡抽样算法把设定的包含概率进而发展成入样指示变量,根据总体单元的经纬度计算出各单元之间的空间距离,充分利用样本空间的辅助信息。空间相关泊松抽样算法N次逐一地访问总体单元,每一步的更新都取决于上一步包含概率更新的结果,如果一个单元成功入样了,将会推动空间上和它相邻单元的包含概率的更新,相邻单元的包含概率将会变得高度负相关,并且这种算法主要在计算权重的过程中应用空间辅助信息。
局部枢轴法简称LPM,主要分为LPM1和LPM2两种,LPM1首先进行随机抽样,选取样本,然后根据空间辅助信息计算出空间中单元之间的距离,选出离得最近的两个单元,然后对这两个单元的进行包含概率的更新,理论上的运算次数超不过幂的三次方。LPM2首先也是进行随机抽样,但是对于两个单元之间的距离不做过多要求,而是利用枢轴法直接进行两个单元的包含概率的更新,所以其运算的次数不超过幂的二次方,虽然LPM2的空间平衡性相对较差,但是所耗费的时间和做运算次数却低于LPM1;空间双重平衡抽样简称DBSS,又叫做局部立体算法,这个算法主要是重复抽取总体空间里的子集,在所抽取的子集中抽取空间平衡样本,对于算法中所涉及到的重复计算,首先需要在一个全新的集合中随机抽取一个单元,将所抽取的单元和它附近的单元组成一个子集,并算出子集的中心点和每个单元与中心点距离的平方和,选出距离平方和最小的单元组成一个新的子集,并重复以上的计算,直到找出整个空间中距离平方和最小的单元为止,并得到最终的空间子集,其次,在所确定的空间子集中,对于平衡方程的构造,需要把经纬度坐标当做一个平衡变量,并利用立方体法中的起飞步进行抽样,然后不断重复,直到所剩余的单元树不足以进行计算为止,然后采用立方体法中的着陆步抽样选取剩下的单元,空间双重平衡抽样算法利用了空间局部计算的方法所获取的样本具有空间平衡性。
4. 根据抽样的结果进行调查。分析调查的实际需求,汇总那些前往实地调研获取的样本单元的目标变量或根据查阅资料所获取的样本单元的目标变量。
5. 根据所得到的空间平衡样本,进行一系列的统计和推断。包含概率更新后变成入样指示向量,从一定程度上来讲,更新包含概率就是选取样本的过程。对于入样指示向量的更新,是在空间辅助信息下,随机的实现初始包含概率。所以,在估计的过程中,使用的是初始设计的包含概率,选取样本的过程中应用了空间辅助信息,而估计的过程中没有使用。
三、空间平衡抽样设计可以有效降低估计量的标准差
在多次重复抽样过程中,空间平衡抽样设计的方法可以获取在空间中均匀分布的样本,增强了稳定性,确保了所抽取的样本相对于空间总体具有一定的代表性,使得后续的统计推断变得更加真实可靠。空间平衡抽样设计可以利用所计算出来的空间中单元之间的距离,来进行总体单元包含概率的更新,减小那些距离较近的单元同时被抽取的可能,从而确保每次抽取的单元能够在总体空间中离散的分布,使样本更具代表性。在空间平衡抽样中,由于所抽取的样本在总体空间中都是均匀分布的,而且都是按照比例进行抽取的,所以空间差异较小,可以很大程度的提高样本的估计效率,减小估计量的相对误差。
四、对于经济社会调查中空间平衡抽样设计方法的探析
1.调查总体界定和总体特征
在经济社会调查中,需要获取所要调查对象的实际数据,得出目标变量和辅助变量。将所获得的辅助变量、空间信息和总体单元名录编入抽样框,选取合适的抽样方法,并将局部空间内的总体单元相似性表现出来,可以通过绘制图像或图表的方法更直观地分析总体单元。
2.设计抽样方法
对于抽样框的抽样可以采取以下三种方法:第一,分层随机抽样法。找出分层的标志,并按比例划分每一层的样本量,增强估计量的统计性,从而提高所抽取样本的代表性;第二,简单随机抽样法,虽然简单随机抽样比不上分层随机抽样,但是在实证分析中,不妨引入简单随机抽样,参照它进行估计效率的比较;第三,空间平衡抽样法,在经济社会调查中,由于空间性较强,可以计算出总体单元的经纬度坐标,将其当做空间的辅助信息,然后利用空间平衡的算法进行单元间距离的计算,进而抽取满足该调查的空间平衡样本,但是这类方法的计算量很大,需要借助软件工具,可以帮助减小计算量,利用软件优化计算过程,更容易获取空间平衡样本,然后对所获得的样本进行估计。 3.确定样本含量
对于不固定的样本量可以采取等概的抽样设计法,设定初始包含概率,获取在目标容量上下波动的样本。
4.评估方法
在经济社会调查中,所采用的是传统的HT估计量进行估计。尽管HT估计量具有无偏性,但是最应该注重的是进行反复多次的抽样后,所应用的抽样方法得到的估计结果表现出来的特征,然后对该抽样方法进行评估。对于经济社会调查来说,主要采用的评价估计效果的方法是相对均方根误差。
5.估计结果并讨论
(1)估计结果
在经济社会调查中,采用软件需要编写并运行程序,从而达到重复抽样的目标,估计目标变量和减少计算量。应当采取空间双重平衡抽样,因为相对于传统的抽样方法来说,这类方法能够获得更加精确的估计量,并且对于样本容量少的情况,空间双重平衡抽样具有绝对的优势。
(2)空间信息对抽样设计的改进
对于总体单元,当存在空间相关性时,可以通过合理利用空间信息的方式,来改善抽样设计。空间双重平衡抽样算法通过计算出总体中单元间的距离实现对空间信息的利用,并结合平衡变量这个辅助信息,充分发挥二者的作用,提高所抽取的样本对于总体单元的代表性。
在经济社会调查中,对于空间抽样的设计,通过专业地图软件获取总体中各单元的经纬度坐标信息,把它们当做平衡变量,用于局部立方体法中,把它们当做空间辅助信息,用于计算空间距离中。虽然这样做的估计效率较好,也充分考虑了平衡变量,但是却没有太大的改进抽样设计。所以,最好的方法还是需要把空间辅助信息当做平衡变量用于局部立方体的计算,从而来确保所抽取的样本能与总体保持一致,利用经纬度坐标完善空间辅助信息,可以确保所抽取的样本在空间上是均匀分布的,进而达到所抽取样本是相对平衡的目的。
五、结语
综上所述,空间平衡抽样设计结合了空間抽样设计把经纬度坐标信息当做空间辅助信息的优点和平衡抽样设计把经纬度坐标信息当做平衡变量的优点,结合空间多种类型的辅助信息,获取代表性强又相对平衡的样本,丰富了抽样调查的理论方法体系,完善了抽样调查的进展流程。虽然在空间平衡抽样算法中利用了空间信息,但是在估计的过程中却没有利用,多少有些可惜这些空间信息。对于样本中的总体空间信息,如果进行合理利用,不仅可以改善方差估计量的形式,还可以提高估计效率,获得更加准确的估计。但是如果样本单元在空间中的距离很远,无法集中的展开调查,将会极大地增加调查的人力、物力和财力,导致调查的成本急剧增加。因此,对于社会经济调查来说,在设计空间平衡抽样的过程中,应当同时考虑调查成本和样本代表性,尽量做到二者的统一与平衡,极大程度的减少成本投入。此外,对于空间辅助信息,还有很大的利用空间,可以在调查中加以利用,进一步改进对于估计量的使用。
参考文献:
[1]郝一炜,金勇进.经济社会调查中的空间平衡抽样设计[J].统计与信息论坛,2018,33(11):3-10.
[2]李明阳,张向阳,吴文浩,等.基于GIS的森林资源调查空间平衡抽样方法研究[J].林业资源管理,2008(04):137-142+150.
[3]李苑菱,陈宗铸,雷金睿,等.海口市森林资源调查空间平衡抽样研究[J].林业资源管理,2019(02):47-53.
[4]赵文飞.基于居住-就业视角的南京老城区职住空间研究——以南京市主城区(城中片区)控制性详细规划老城单元为例[D].江苏:东南大学,2018.
[5]李苑菱,陈宗铸,雷金睿,等.基于GIS海南森林资源调查抽样方法研究[J].热带林业,2019,47(01):38-42.
[6]朱龙腾.建筑中水系统中的水量平衡与能耗分析——以北京市饭店行业为例[D].北京:中国科学院大学,2013.
(作者单位:内蒙古民族大学)