第一章 统计和数据
复习要点
一、基本含义
1.统计就是用来处理数据的,它是关于数据的一门学问。
2.统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据的方法大体上可分为描述统计和推断统计两大类。
描述统计星研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据。如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。
3.统计的应用。
几乎所有的领域都应用统计,但是在应用中应注意分辨被误用与滥用的现象。
二、数据类型
统计数据是对客观现象特征的反映,而由于客观现象的复杂性,在反映这些现象特征时可从不同的角度进行采集,从而得到不同类型的数据。
1.定性变量(数据)与定量变量(数据)
(1)定性变量的观察结果称为定性数据。这类数据的最大特点是它只能反映现象的属性特点,而不能说明具体量的大小和差异,只有分类特征,没有量的特征;这种只能反映现象分类特征的变量又称为分类变量,分类变量的观察结果就是分类数据。如果类别具有一定的顺序,这样的变量称为顺序变量,相应的观察结果就是顺序数据。
分类变量没有数值特征,所以不能对其数据进行数学运算。由此可见,定性数据只能用来区分事物,而不能用来表明事物之间的大小、优劣关系。
顺序变量比分类变量向前进了一步,它不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。显然,顺序数据的功能比分类数据要强一些,对事物的划分也更精细了一些。
(2)具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异的变量就是定量变量,也称为数值变量,定量变量的观察结果成为定量数据。
作为统计研究的主要资料,数值型数据的特征在于它们都是以数值的形式出现的,有些数值型数据只可以计算数据之间的绝对差(绝对距离),而有些数值型数据不仅可以计算数据之间的绝对差,还可以计算数据之间的相对差(相对距离)。显然,数值型数据的计量功能要远大于前面介绍的两种定性数据,其计量精度也远远高于定性数据。因此,在统计研究中,数值型数据有着最广泛的用途。
2.观测数据和实验数据
观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。在社会经济问题研究中,观测是取得数据最主要的方法。
实验数据一般是在科学实验环境下取得的数据。在实验中,实验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果。自然科学研究中所用的数据多为实验数据。
三、数据的来源
从使用者的角廑看。统计数据资料的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始或第一手统计数据;
另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为次级数据或第二手间接的统计数据.一切间接的统计数据都是从原始的、第一手数据过渡而来的。
1.原始数据。搜集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行实验就是统计数据的直接来源。
统计调查是指根据统计研究预定的目的、要求和任务,运用科学的方法,有计划、有组织地向容观实际搜集资料的过程。通过统计调查得到的数据,一般称为观测数据。
实验法是通过实验法得到的数据就是实验数据。运用实验法要注意的是,首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识的挑选的。其次,实验组和对照组还应当是匹配的,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。
不论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。2.次级数据。次级数据(第二手数据)是指由其他人搜集和整理得到的统计数据,这种自他人调查整理基础上的数据我们把它称为数据的间接来源。
数据的间接来源常用的有以下一些:①公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构。②尚未公开发表的统计数据,如各企业的经营报表数据、专业调查咨询机构未公开发布的调查结果数据。
需要注意的是,如果公开引用未公开发表的数据需要征得数据所有者的同意,同时要为自己发布的数据负责。
在应用时要注意:①是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据。②引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。
四、统计调查
统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地搜集统计数据资料的过程。
1.普查是专门组织的一次性的全面调查,用来调查属于一定时点上或一定时期内的社会现象总量。它适于搜集某些不能或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。普查的特点为:它是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一般不宜经常举行。
目前,我国通过普查进行的统计调查内容和时间周期已经规范化、制度化,具体包括:
(1)人口普查。每10年进行一次,逢“0”的年份进行;
(2)农业普查,每l0年进行一次,逢“7”的年份进行;
(3)经济普查,2004年进行了中国第一次经济普查。
2.抽样调查
抽样调查是一种非全面调查,它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究,以抽样样本的指标去推算总体指标的一种调查。随机原则要求所有调查单位都有一定的概率被抽取。
抽样调查具有的特点:第一,样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响。第二,能够根据部分调查的实际资料对调查对象的总体的数量特征进行推断,从而达到对调查总体的认识。第三,在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。
抽样调查既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较正确的全面统计资料,具有许多优点。抽样调查是一种非全面的、一次性的或经常性的专门调查,这种调查方法在市场经济条件下,使用非常广泛。
抽样两种主要方法:概率抽样和非概率抽样。
概率抽样是根据一个已知的概率随机选取被调查者。常用的概率抽样形式有:简单随机抽样、分层抽样、整群抽样和系统抽样。
非概率抽样是没有完全按照随机原则选取样本单位。
3.统计报表
统计报表是按照国家统一规定的调查要求与文件(指标、表格形式、计算方法等)自下而上地提供统计资料的一种调查方式。
按照报送范围,统计报表分为全面报表和非全面报表。全面报表要求调查对象种的每一个单位均要填报,非全面报表则只要求一部分调查单位填报;
按照报送周期,统计报表主要有月报、季报、年报组成,月报内容简单,时效性强,年报则内容比较全面。
统计报表的内容包括表式和填表说明。
4.重点调查:是在调查对象中选择一部分重点单位进行的一种非全面调查。这些重点单位虽然数目不多,但它们具有所研究现象的总量在总体总量中占据绝大部分的特点。
5.典型调查:是一种非全面的专门调查,它是根据调查的目的与要求,在对被调查对象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。