登陆注册
42842900000051

第51章 统计分析(2)

②数据转换

数据的格式与内容界定完成之后,这些数据虽然已经可以被计算机所辨识,但是尚未达到可以使用的状态,在进入数据的分析工作之前,仍有一些校正与转换的工作必须完成,例如反向题的反向计分、出生年月变量转变成年龄之新变量、总分的加总等,这都是第二阶段即数据转换(datatransformation)必须完成的工作。此外,废卷处理、数据备便、遗漏值的补漏检查等工作,也是在此一阶段进行。

③数据分析

SPSS数据处理的最后阶段,是依操作者的指令,进行各种统计分析或统计图表的制作,即数据分析(dataanalysis)。首先,操作者必须具备良好的统计基本知识,熟知研究的目的与研究数据的内容,才能在数十种统计指令当中选择适合的统计方法来分析数据。其次,操作者也必须能够阅读分析之后的报表数据,从不同的指数与指标当中,寻求关键且正确的数据来作为研究报告撰写的根据。

数据分析完成之际,通常需进行适当的文字处理作业,将输出报表进行编辑、打印,并撰写结果,数据分析的工作才算顺利完成。SPSS软件的视窗版自己附带了一个文本编辑器,专门用来编修统计图表,SPSS的使用者必须熟悉SPSS的文本编辑器,才可以在数据分析完成后,实时进行表格图表的编修,否则一旦图形、表格被转贴到其他软件之后(例如Word或PowerPoint),就无法加以调整,使用者必须多方尝试,累计经验来进行文本编辑工作。

SPSS软件自推出以来,由于语言编写方式较为简易,使用者较多,视窗版推出之后,更获得使用者与学习者的欢迎。SPSS软件英文版第18版已经于近年推出。越新版本的SPSS,功能越强大,同时与其他软件的兼容性也更高(例如EXCEL)。尤其是英文版的系统设定当中可以指定使用的语言形式,中文使用者可以直接选择繁体中文模式(TraditionalChinese)即可直接将结果报表以中文化方式输出。

第二节统计资料整理

一、资料的审核与编码

1.审核

资料审核的方法主要有两种,即逻辑审核与计算审核。

逻辑审核,即核查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等。

计算审核,是针对数字资料进行的审查。要检查计算有无错误,度量单位有没有用错,前后数字之间有无相互矛盾之处等等。

在资料的审核中,如发现问题,可以分别不同情况予以处理:(1)对于在调查中已发现并经过认真核实后确认的错误,可由调查者代为更正;(2)对于资料中的可疑之处或明确有错误与出入的地方,应设法进行补充调查;(3)在无法进行或无需进行补充调查的情况下,应坚决剔除那些有明显错误的或没有把握的资料,以保证资料的真实性和准确性。

这里应当强调的是,为了保证审核后的资料能得到及时的补充或纠正,一般不应在所有的调查工作都结束、调查队伍离开调查现场后,再去搞资料的整理工作,而是应当在搜集资料的过程中及时进行资料的审核工作。

2.编码

如果整理后的资料要用电子计算机进行数据处理,则还需对资料进行编码,即将问卷或调查表中的信息转化成计算机能识别的数字符号。也即给每一个问题的每种可能答案分配一个代号,通常是一个数字。调查者要根据它将调查资料变换成计算机能识别的数字符号,输入计算机进行处理,然后再根据它将计算机处理的结果转换成能阅读的资料。

编码可以在设计问卷时进行,也可以在数据搜集结束后进行。大多数正规的准备用计算机进行处理的问卷调查,在问卷设计时就已经事先确定了答案的称之为首编码或先编码(precoding)。对这种问卷的编码,只要将被调查者在问卷中所选择的项目的代号或所填的数字填入相应的编码表栏目内即可。

对于问卷表或调查表中的封闭式问答题中的“其他”项、开放式问题,则应在对所有回答进行分类的基础上,给每一类回答定一个代号,制成编码表,然后再将每一份问卷的开放式问题的回答所对应的代号填入编码表内,这叫后编码(Postcoding)。

前编码和后编码所用的编码本最后将合并为一个编码本。一般来说,编码本不但是编码人员的工作指南,也提供了数据集中变量的必要信息。编码本一般包含变量的以下几方面的信息:

(1)所有列的位置(列数);

(2)变量的顺序编号;

(3)变量名称及变量说明(变量及变量标志);

(4)问答题编号;

(5)编码说明(变量值及变量值标志)。

二、资料的录入与汇总

1.数据录入

经过前述的编码处理,调查所收回的问卷中的一个个具体答案都已成功地系统地转换成了由0-9这10个阿拉伯数字构成的数码,接下来的任务就是将这些数码输入计算机内,以便进行统计分析了。

数据录入的方式主要有两种:一种是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。登录表的横栏为问题及变量名,且都有给定的栏码,纵栏为不同的个案记录数据,表101就是登录表的一部分。

直接从问卷输入数据的长处是避免了再次转录中可能出现的差错;但它的不足是录入时要不断地翻动问卷(一页一页地录入),录入的速度相对要慢一些。

特别是当一份问卷问题较多、内容较长时,直接输入往往比较麻烦,效率较低。

将问卷上的数据先转录到登录表上,再输入计算机的做法,虽可以使得计算机录入人员比较方便,因而相对来说也比较快,但它却要冒增加差错的风险。因为将问卷上的数据抄录到登录表中,等于增加了二次转录过程。而每一次转录都存在出错的可能性,两次转录出错的机会往往大于一次转录。

有时候也可使用光学扫描仪(opticalscanner)输入资料。这种仪器可以判读记在特别的编码纸上的铅笔记号,并相应的把这些信号所表达的信息转换成资料文档。

2.资料的汇总

资料的汇总,是指根据调查研究的目的,将资料中的各种分散的数据汇聚起来,以集中的形式反映调查单位的总体状况以及调查总体的内部数量结构的一项工作。资料的汇总是资料整理工作中的必不可少的重要环节,也是分析资料前的一项基础性工作。

根据调查研究的目的不同资料汇总的方式与方法也有所区别,可以分为总体汇总和分组汇总两大类。总体汇总是为了了解总体情况和总体发展趋势的,分组汇总则是为了了解总体内部的结构和差异的。资料的总体汇总可以在对资料未进行分组的情况下进行,而资料的分组汇总则必须在对资料进行分类与分组后才能进行。

资料的汇总技术主要有两种:手工汇总及计算机汇总。这里主要介绍这两种技术的方法或步骤。

(1)手工汇总

手工汇总主要包括:点线法、过录法、折叠法和卡片法这四种方法。

①点线法。它也被称为划记法,它是以点或线等记号代表个案次数进行划记汇总的方法。常用的记号有“正”,类似于选举中常用的唱票方法。

②过录法。就是把原始调查资料过录到预先设计好的过录表或汇总表上,然后加总的一种方法。运用过录法汇总资料能看出总体各单位的情况,便于比较;能防止遗漏,不易出错;而且过录后的原始资料便于保存。但这种方法的工作量比较大。

③卡片法。就是将每个个案的资料分别登录到特制的资料卡片上,然后进行汇总的方法。用卡片法汇总的主要目的是将原始资料简化。

④折叠法。就是将若干调查表沿所要汇总的某一项目折叠起来直接进行汇总的方法。这种方法省去了过录资料的中间环节,但汇总资料的份数不能太多,而且一旦汇总中出现错误,就要从头返工。

(2)计算机汇总

计算机汇总大致分四个步骤:编码、登录、录入和程序编制。

编码是将问卷中的信息数字化,转换成统计软件和统计程序能够识别的数字,也即将资料的文字形式转换成数字(或符号)形式。这项工作是一种信息代换的过程。调查者要根据它将问卷调查资料转换成能够统计、计算的数字,输入计算机。登录是将编好码的问卷资料过录到资料卡片上去,以便于将它们输入到计算机的磁带、软盘或硬盘上去。录入是将登录在资料卡片上的数据录入到计算机的存储设备(磁带、软盘、硬盘)上,其工作性质同登录相同。所不同的是登录的操作是在资料卡片上进行,录入是在计算机的终端机上进行。然后就是汇总,要用计算机汇总资料就必须给计算机输入一种指令,指挥计算机进行工作,这种指令就是程序。现在这项工作已由软件工作者为我们做好,我们只需会使用软件包就行了。资料整理的程序比较简单,又是统计的基础,有很多软件包可以用,最常用的是SPSS软件包(社会科学统计软件包),它已解决了中文统计表格输出问题,用起来很方便。

操作者通过按键将登录卡上的数据敲入计算机,同时屏幕显示数据,这一阶段注意力一定要高度集中,严防跳行、漏读、按错数键所产生的错误。利用SPSS软件包,录入后可以查错、纠错。查错的程序有两种。第一种是检查输入信息的有效性,即对数码进行幅度检查。幅度检查的方法主要是检查资料的子项是否都在规定的幅度范围内。例如,关于性别的调查项目答案只有两个:男、女,如果男=1,女=2,那么这个项目的答案幅度是1-2,不可能有3、4等数码。幅度检查就是要把那些超越幅度的错误找出来。第二种是检索输入信息相互之间的一致性,即对数码进行逻辑检查。逻辑检查主要是检查同一份问卷中,不同问题的答案是否相互矛盾,例如问卷的第4题是询问年龄,年龄的编码是这样的:

1-13岁=1;14-25岁=2;26-40岁=3;……第6题是询问婚姻状况:已婚=1,未婚=2。假如第4题的答案是1,那么第6题的答案应是2;如果第6题的答案是1的话,那么,不是第4题就是第6题的答案错了,逻辑检查可以找出答案的逻辑矛盾。

第三节单变量统计分析

一、集中趋势测量

集中趋势就是一组数据的代表值,它能说明一组数据的一部分全貌,即它们的典型情况。它用一个典型值代表变量所拥有的所有数据。这样一个典型值就称为集中趋势统计量,按处理方法不同可分为几类,主要包括众值、中位值、均值等等。

1.众值(众数),用犕表示

其意义为,在众多数值中,出现次数最多的一个数值,也称定类层次。

例如:2,3,5,5,5,6,6,7,9。

出现次数最多的是5,其犕=5。

2.中位值(中位数),用犕犱表示

其意义为,按大小顺序排列,处在一群数据中央位置的数值,也称定序层次。

例如:有9个人,他们的月工资分别如下:

47,42,50,51,92,112,71,83,108。

这样一群数据,首先必须要:

(1)作排列处理,从小到大排列。

42,47,50,51,71,83,92,108,112。

(2)求中央位置。

(3)求中位值⊥犱=71。

所以,对于定序变量而言,用中位值来表示集中趋势的统计量。

3.均值(平均数)

其也称均数或定距层次,是在定距和定比变量的测量层次中运用。

算术均数:一群数值的总和除以个案数目所得的结果,称为算术均数。

例如:调查10个核心家庭,每个家庭的子女数为1,1,1,2,2,2,2,2,3,3。

可用众值表示犕=2,中位值表示犕犱=2,但不是最好的方法。

这表示在这10个家庭中,每个家庭拥有子女数是1.9人。

4.各值优劣之比较

众值、中位值、算术均值哪一个最具有代表性呢,我们要对这三种数值的优劣作比较。

众值应用范围在定类变量,要求大略平均,一般用众数。但是,损失资料太多,而且可能出现双峰图(也称双众数),即常常会遭到数据集合中有几个数据同时符合众数定义的情形,这时众值也就失去了作为代表值的意义,对各种统计产生麻烦,因而不太用。当然,有些特殊情况下,也能用众值。

中位值对定序变量而言,求时方便,宜理解(求中央位置)。但是,组中位值计算一定要排列次序,所以运用时就受限制。而且最大的缺陷是对一些极端数字不敏感。如-474,2,18,35,2000,那么-474,2000对中位值均无影响。

同时,在两端的数目不明确的开放端中,仍可以求中数,但不能求平均数。

算术均数,或均值,用于定距(定比),资料利用率比较高,常被认为是最佳集中趋势度量值。但是,由于每个数据都加入计算,平均数极易受极端数影响。

如,某个由5人组成的座谈会,其平均年龄为25岁。其中,4人是学生,1人是教授。学生全部是16岁,教授年龄为61岁,显然教授的年龄对整个平均年龄发生了显着的影响。只有取中位值或众值才具有代表性。

二、离散程度测量

集中趋势(众值、中位值、均值)表示着一组数据的典型情况,但在实际上,各个数据之间仍然存在着差异,它不足以说明和概括这组数据的全貌。

同类推荐
  • 智慧中国

    智慧中国

    十二五期间,随着物联网、云计算的发展,国家在智慧中国(智慧城市)建设方面将投入大量资金,各城市正在加紧研究智慧城市解决方案,部分城市已经开展了具体的实践。但目前国内尚缺少系统地介绍智慧中国(智慧城市)建设方面内容与实践的书藉,本书主要阐述了如下内容:智慧中国的定义、内涵、建设现状,智慧中国的总体架构;智慧中国基础网络建设;智慧中国基础设施建设;以及智慧中国各系统的建设(智慧政务协同平台建设、智能医疗建设工程建设、智慧中国智能电网工程建设),最后介绍了智慧中国建设发展展望。
  • “专转本”真题解析与考点汇编语文

    “专转本”真题解析与考点汇编语文

    本书结构分为四篇,各篇基本内容如下:第一篇[透析历史把握未来].对“专转本”大学语文考试进行综述,分析考试内容及其形式,熟悉考题类型。第二篇[历年真题自测自评].全篇收录了2001年至2010年的江苏省普通高校“专转本”统一考试大学语文试卷。第三篇正经典点评权威指导]。全面评析2005、2006、2007、2008、2009、2010六年的江苏省普通高校“专转本”统一考试大学语文试卷。第四篇[全面复习备考资料].包括文学常识、文化常识、现代文饲读、文言文阅读、应用文写作、材料作文写作、诗歌鉴赏解题指导七个部分。
  • 语文新课标课外读物——简爱

    语文新课标课外读物——简爱

    现代中、小学生不能只局限于校园和课本,应该广开视野,广长见识,广泛了解博大的世界和社会,不断增加丰富的现代社会知识和世界信息,才有所精神准备,才能迅速地长大,将来才能够自由地翱翔于世界蓝天。否则,我们将永远是妈妈怀抱中的乖宝宝,将永远是温室里面的豆芽菜,那么,我们将怎样走向社会、走向世界呢?
  • 呐喊

    呐喊

    《呐喊》是鲁迅负有盛名的小说集之一,是中国现代小说的开山之作。收录1918年至1922年所作小说十四篇。代表性篇章有《狂人日记》《孔乙己》《药》《阿Q正传》《故乡》《社戏》等。表现了辛亥革命前后的社会思想状况,对封建主义和老中国的国民性进行了批判。《呐喊》中的多篇小说收入中学及大中专院校语文教材。
  • 威廉豪夫童话下(校园读书活动推荐阅读精品)

    威廉豪夫童话下(校园读书活动推荐阅读精品)

    我们每个人都有值得回忆的美好童年,而童话寓言故事就是这些记忆中的一部分。它让我们拥有了一个充满幻想的天空,在我们幼小的心灵中种下了善恶是非观念的种子。童话寓言是世界文学宝库中一颗璀璨夺目的明珠,以其丰富的想象、美丽的憧憬、善良的心灵和高尚的情操启迪着每一个孩子的心扉。
热门推荐
  • 帝頌

    帝頌

    万族之战人族大败大帝陨落神朝倾覆帝子泣血誓言犹在耳畔且看稚嫩少年携帝子之魂,诛万族,平叛乱,行帝路。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 宇宙神

    宇宙神

    这是一个新的宇宙。旧有的世界随着太阳的熄灭变成了永远的过去,何去、何从?人类的命运将由谁主宰?光怪陆离的海底城市,诡异莫测的宇宙神人,千奇百怪的变异动物,这是一个危险的世界,且看宇田如何为走入绝境的人类用双手劈开一个新的世界。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 依然想见你

    依然想见你

    被这个世界辜负的时候,伤痕累累的时候,我也想过离开,但是因为有你的存在,作为这阴霾中的一丝净土,我又可以坚持到现在,熬过那些伤害,只为了能够跟你站在一起……言宁不是没想过两人重逢的场景,自以为她的心理防线已经建设的足够强大,可在真的见到他时,她为自己筑起的城墙,却一点点崩塌……“人生自是有情痴,此恨不关风与月”曾经中学时代的言宁还嗔笑过这句诗,“很多古人写完情诗不久就移情别恋了,活生生打脸,本来就是嘛,怎么可能有这么深情的人呢,一直对一个人念念不忘?更何况是现在这么现实和功利的世界,更加没有了。”十一年过去,原来世界上真的有痴情人,她的叶先生就是,只对她言宁一个人念念不忘。婚礼的前夜,言宁刚洗完澡便收到一条简讯:“叶太太,这一次,可不许你逃跑了。”,她微微笑着,回复一句:“明天见,我的叶先生。”
  • 缘分刚来

    缘分刚来

    董璇重生了,两世为人,她都爱上同一个人,眼看着他落入别的女人怀抱中,看着他把别的女人宠如娇玉,而自己却站在街边扫地,干着最底层活,领着最低的工资,这是她一生吗?她一路容忍退让却引来酗酒丈夫的拳打脚踢,看着家姐被那人抱着步入像天堂一样的生活之中。一切都不是她所愿意的,所以,她可以把那些不属于她的抢过来吗?
  • 小罗的驻村生活

    小罗的驻村生活

    两年多的扶贫驻村干部生活,让一个从农村出来的人,再一次深刻体验了农村生活百态,察看到了基层干部的丰富生活影像,生活其实不论错对,讲究的就是实在。
  • 醉迦楠

    醉迦楠

    有时选择坚强是获得成功的必要元素,有时选择坚持才能达成心愿……但越过一路荆棘一路坎坷后依然看不到终点,那时候该怎样选择呢……在血液流干的那一瞬,回眸而望,原来这一路的风景都是自己虚幻的杜撰,包裹那个所谓的成功也只是梦影残念选择放弃,也许是这一辈子最勇敢的决定
  • 美男你在哪里

    美男你在哪里

    刚下课的董小萱,碰到了她今生最难忘的事……为何我的那份还没来到?缘起缘灭,你终究不是那个天命之人。
  • 我的暗恋恰好是你

    我的暗恋恰好是你

    “俶尔,你知道你的名字是什么意思吗?”“我知道的,爸爸说过是‘美好’的意思。”“哦哦,那你知道我的名字是什么意思吗?”“我......”“我告诉你哦,‘斐然’就是有文采哦~”“哦~”“齐俶尔,老师刚刚讲了,‘俶尔’就是‘突然’,我以后就叫你齐突然了,哈哈哈!”“叶斐然你......哼~”长大的齐俶尔才知道,当初她的名字起得有多草率!就因为她出生的太突然了,没有一点预料,于是她那个“无良”的妈妈就真的准备给她起名叫“突然”。还好还好,她爸还是个理智的人!虽然不能力挽狂澜,但好歹讲了一下条件,起码不叫“突然”了,于是她就有了现在的名字——齐俶尔!虽然也是突然的意思吧,但好歹听起来不那么难听了,这件事也是她偶然一次她爸她妈说悄悄话时听到的。但是,现在她的名字竟然被叶斐然这个小子拿来嘲笑,真是——太过分了!这篇文主要讲了一对青梅竹马两小无猜的故事,有甜、有酸、有咸、有苦,当然,还有你!