登陆注册
42842900000027

第27章 抽样设计与样本(1)

第一节抽样调查的基本概念

抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。根据抽选样本的方法,抽样调查可以分为概率抽样和非概率抽样两类。概率抽样是按照概率论和数理统计的原理从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征作出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。

现代抽样方法的先驱——-盖洛普

“一种客观测量报刊读者阅读兴趣的新方法”是乔治·盖洛普(GeorgeGallup)在艾奥瓦大学写博士论文时用的题目。通过对“DesMoinesRegisterandTribune”和瑞士数学家雅克布·贝努里(JakobBernonlli)具有200年历史的概率统计理论的研究,盖洛普在抽样技术领域取得了进展。他指出,当抽样计划中的调查对象涵盖广泛,涉及不同地域、不同种族、不同经济层次的各种人时,你只需随机抽取而无需采访每个人。尽管当时他的方法不能为每个人理解和认同,但是现在,这已经被广泛使用。

盖洛普通常引出一些特例来解释他自己在说什么或做什么。假设有7000个白豆子和3000个黑豆子十分均匀地混在一起,装在一只桶里。当你舀出100个时,你大约可以拿到70个白的和30个黑的,而且你失误的几率可以用数学方法计算出来。

只要桶里的豆子多于一把,那么你出错的几率就少于3%。

20世纪30年代早期,盖洛普在美国很受欢迎。他成为Drake大学新闻系的系主任,然后转至西北大学。在此期间,他从事美国东北部报刊的读者调查。1932年的夏天,一家新的广告代理商电扬广告公司,邀请他去纽约创立一个旨在评估广告效果的调查部门,并制定一套调查方案。同年,他利用他的民意测验法帮助他的岳母竞选艾奥瓦州议员。这使他确信他的抽样调查方法不仅在数豆子和报刊读者调查方面有效,并有助于选举人。只要你了解到抽样范围具有广泛性:白人、黑人,男性、女性,富有、贫穷,城市、郊区,共和党、民主党。只要有一部分人代表他们所属的总体,你就可以通过采访相对少的一部分人,来预测选举结果或反映公众对其关心问题的态度。

盖洛普证实,通过科学抽样,可以准确地估测出总体的指标。同时,在抽样过程中,可节省大量资金①。

一、抽样调查的特点

1.随机原则。所谓随机原则,就是在我们所研究的总体中,每一个个案都有被选中、抽取的机会。也就是说,我们在总体中抽样时,哪一个个案能被抽取,哪一个个案不能被抽取,不是人为主观决定的,而完全是偶然碰机会的。

2.推断总体。抽样调查是抽取部分个案(单位)进行调查,但它的主要目的不是为了了解这部分单位本身。它的任务是从某一事物的总体中,抽取部分样本进行调查观察,取得所需要的指标,据以从数量上推断全体。

3.抽样调查使我们有可能用更少的人力、物力、时间、费用达到对总体的认识,而且可以起到对普查资料进行修正补充,提高大范围调查的准确程度的作用,因而在理论上和方法上都具有重要的意义。

4.可以用一定的概率来保证将误差控制在规定的范围之内。

二、抽样调查的几个概念

1总体

总体也称之为母体、一般总体等。具有某种统计特征的一类事物的全部个案,在统计学上称为总体。也就是说,研究对象的全体称为总体,如某批产品、某类病人、某个生产过程等。总体的单位数常用符号n表示。

2个体

个体也称为个案。组成总体的每个元素称为个体。有时也称具有某种统计特征的每一个对象为个案。构成一个总体的个案,可以是人或物,也可以指个性、心理反应等。

3样本

样本也称之为抽样总体、样本总体等。从总体中抽取一部分代表进行研究分析时,这一部分被抽取的个案称为总体中的一个样本。也就是说,从总体中抽取的若干个案所组成的群体,称之为样本。可见,总体是大群体,而样本是小群体。样本的单位数(即样本容量)常用符号n表示。

4抽样框

抽样框是指用以代表总体,并从中抽选样本的一个框架,其具体表现形式主要有包括总体全部单位的名册、地图等。抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,其对于推断总体具有相当大的影响。

5样本的统计值

在实际研究中直接从样本中计算得到的各种量数,称为统计值。

6抽样误差

在抽样调查中,通常以样本作出估计值对总体的某个特征进行估计,当两者不一致时,就会产生误差。因为由样本作出的估计值是随着抽选的样本不同而变化,即使观察完全正确,它和总体指标之间也往往存在差异,这种差异纯粹是抽样引起的,故称之为抽样误差。

7总体的参数值

那些从已知统计值进行推论得到的各种量数,称为总体参数值。所以,今后讲到统计值就是指样本的,而讲到参数值则是指总体的。

8统计推论

统计推论就是用样本的统计值推论总体的参数值的统计方法。

第二节抽样调查的一般步骤

在设计一个抽样调查时,我们通常需要做的工作是:界定总体及个案、确定抽样框、选择抽样方法、确定样本大小、制定实施细节、评估样本正误。

抽样步骤可简单图示如下:

一、界定调查总体

界定调查总体就是要清楚地说明研究对象的范围(时间、地点、人物),如2008年6月,A市B区C街道18-35岁青年对互联网发展的看法。然后,根据总体的规定搜集全部个案名单。

为了满足研究目的的需要,注意详细说明可提供信息或所需信息有关的个体或实体所具有的特性。调查总体可以从以下几方面进行描述:地域特征、人口统计学的特征、服务使用情况、认知程度等。在调查中,从问卷表开始部分的过滤性问题,可以看出某个体是否属于本次调查的总体范围。即使有总体和样本清单,仍有必要使用过滤性问题识别合格的应答者。

界定总体后,我们也可考虑资料搜集方式。资料搜集方式对抽样过程有重要影响,如采用入户面访、电话调查、街上拦截还是网上调查、邮寄调查对抽样结果都会有不同的影响。在进行抽样设计时,要反复比较不同的资料搜集之方式,争取做出最好的选择。

二、选择抽样框

抽样框又称抽样范畴,是抽取样本的所有单位的名单。例如,要调查某大学学生上网的情况,这时抽样框就是该校全体大学生的花名册。在一次抽样中,抽样框的数目是与抽样单位的层次相对应的。若有3个层次的抽样单位,如乡、村、家庭,则抽样框也应有3个,全乡的名单、乡样本中所有村的名单、村样本中所有家庭的名单。

准确的抽样框包括两个含义:完整性与不重复性。完整性,是指不遗漏总体中的任意一个个体;不重复性,是指任意一个个体不能重复列入抽样框。

在实际抽样操作中,满足这两项原则非常不容易。例如,在城市居民户的抽样中,会经常出现一户有多处住房的情况,这样很容易把这一户重复列入抽样框,使得他们在抽样中的中选概率高于其他居民,从而违背了随机抽样的等概率原则;同样,许多城市居民居住条件较差,很多居民同住在一个门牌号中,因此很容易遗漏。例如,在上海,会有10多个家庭居住在一个门牌号的情况,如果出现这种情况,被遗漏掉的户就没有可能被抽中,也就是说,他们的中选概率为零,当然也就违背了随机抽取的等概率原则。又如,电话号码本就可能是电话调查的框架。在问卷中,调查总体很有可能是城市中的所有居民。但是,电话号码本就不包括那些没有电话的居民和那些没有公布他们号码的居民。

一些潜在的因素证明,公布电话的居民和不公开电话号码的居民在一些重要的特征方面具有很大的区别。很明显地,那些不主动提供电话号码的居民很有可能是房客,居住在城市中心,最近刚搬家,或人口多、孩子小、收入低。在某些产品的购买、拥有、使用方面,两种类型的人具有很显着的差别。可见,在抽样领域,形成一个适当的抽样框经常是调查者面临的最有挑战性的问题之一。我们把抽样框定义为被调查总体的数据清单(数据库或者数据仓),从抽样框中可以抽出适合访问的样本单位。众所周知,一些抽样框原来根本是不存在的,因此,在调查的初期还要建立符合需要的抽样框。例如,在一项调查中,调查的总体是那些在近30天内打三轮或三轮以上十八洞高尔夫球的人。但是,根本就没有一种计算方法可以完全提供这份名单。在不存在传统意义上的抽样框的情况下,我们需要依据能够产生具有希望特征的样本个体的程序来建立新样本框。

抽样框误差的例子

菲什(Fish)、巴恩斯(Barnes)和巴纳汗(Banahan)提供了两个有趣的关于抽样框误差的例子。一个是1936年《文学摘要》(犔i狋犲aDi犵犲狊狋)作的民意测验。这个杂志社从电话簿和汽车主登记表中选出了一大批选民(超过200万人次)作抽样调查,基于这个调查的结果,它预言阿尔弗·伦敦(AlfLondon)会在竞选中击败富兰克林·罗斯福。不幸的是,这份抽样框选择的(电话簿和汽车主登记表中)选民并不能代表1936年整个美国的所有选民。因为,当时大多数人没有电话,没有汽车,并且这部分被忽略的选民收入很低。然而,抽样中作为重点的富裕阶层的选择,更倾向于投共和党的票。所以,在竞选后不久,《文学摘要》因其失误的预言使其可信度急剧下降,最终导致了破产的结局。

三、确定抽样方法

选择了抽样框后,我们就可以确定抽样方法,并决定样本大小。这两个步骤我们将在下一步作专题研究,至于抽取样本搜集资料,也会在资料搜集章节中专门介绍。

四、评估样本正误

我们把样本从总体中取出来后,不要急于作全面调查,要初步检查一下这个样本对总体的代表性如何,资料有无代表性,需要按确定的标准加以评估。

例如,《中国青年的生育意愿》一书中讲到,为了评估样本之正误,他们拟定评估标准两条。

其一,性别。根据我们的有效样本看,3921人当中男青年2081人,占总数的53%,女青年1340人,占总数的47%。根据我国1978年人口统计的资料看来,男青年占51.28%,女青年占48.72%。又根据我国1975年部分省市县的人口统计资料看,在15-24岁的青年中,男青年占总数的51%,女青年占总数的49%。

其二,年龄均值。在我们的有效样本中,15-24岁的青年2537人,其年龄均值为20.6岁。根据上述我国1975年部分地区人口年龄分组统计资料推算,15-24岁青年的均值为19.53岁。由此可见,所抽样本误差不大。

评估样本之正误,可同时使用两个或两个以上的标准。当然,无论是用哪些标准,都应该是在总体内容中易找到的,并且是当初抽样时所确定了的。当我们作调查报告时,应有抽样评估说明,以表示资料的正确性。

第三节非概率抽样

一、判断抽样

判断抽样又名立意抽样,是研究者根据自己的主观判断去选定符合自己研究目的的样本。它受主观影响比较大,研究人员若判断不准,则误差极大。

二、巧合抽样

巧合抽样又名方便抽样,是选取偶然遇见的个案或者利用自己身边和附近的人作为研究对象和样本。例如,“街头拦人法”就是一例。巧合抽样好像有随机的味道,其实不然,因为巧合有很大的局限性,缺乏代表性。

三、配额抽样

配额抽样又称定额抽样,是根据某些标准分组,然后用判断和巧合抽样法抽样。它与分层随机抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分成若干类或层。但不同的是,分层抽样中各层的子样本是随机抽取的,而配额抽样中各层的子样本是非随机抽取的。

四、推荐抽样

推荐抽样有时又叫“雪球抽样”,要求回答者提供附加回答者的名单。有时营销调研者为符合研究的要求,起初汇编一个比总体样本要小得多的样本名单。在采访了每个回答者之后,要求他或她提供其他可能的回答者名单。如此,先前的回答者就提供了额外的回答者。其他名单意味着样本如雪球滚下坡一样越滚越大。

当手头只有一份有限且少得可怜的样本构架时,而回答者又能提供对调查可能有用的别的回答者的名单时,推荐抽样是最合适的。最初的名单在某些方面也可能是特殊的,然而增加样本的主要方法是通过原始名单中那些人的回忆产生的①。

以上非随机抽样的优点是方便易行,多用于探索性研究及总体边界不清或由于客观制约无法实施概率抽样之时,在市场研究中也用。但是,其致命缺点是无法保证样本代表性,不能做推论总体之用。

第四节概率抽样

一、简单抽样

简单抽样又称纯随机抽样、简单任意抽样法等。它是从调查总体中完全按照随机的原则抽取调查单位,是抽样调查的基本形式。这种方法使每一单位都有同等机会被抽中,它的工作过程,一般是先把总体中每个分子都编上号码,然后抽出需要的样本。

同类推荐
  • 茶花女

    茶花女

    法国小仲马作于1848年,是根据他亲身经历所写的一部力作,小说讲述了青年阿尔芒·迪瓦尔和巴黎名妓玛格丽特之间的爱情悲剧。
  • 战争与和平(二)

    战争与和平(二)

    《战争与和平》是世界文学史上一部不朽名著。作者以高超的艺术技巧塑造了一系列鲜明的人物形象,写尽了各种人情世态。书中共有五百五十九个人物,上至皇帝、王公、外交官、将领、贵族;下至地主、商人、农民、士兵,如此众多的人物,在最善于表现人物心理与性格特征的艺术大师的笔下,被赋予了一种崭新的视觉和色彩,男女主人公们以自己精神生活的全部复杂性和独特性出现在读者面前。本书具有史诗的气魄,画面广阔,人物众多。书中既有俄国和西欧重大历史事件的记叙,又有故事情节的虚构;既写了金戈铁马、刀光血影的战斗,又写了安逸宁静的日常生活;既有慷慨激昂的议人论世,又有细腻婉约的抒情述怀。
  • 春暖花开时

    春暖花开时

    作家刘吾福的小小说集《春暖花开时》,集萃了小小说130篇。本书积累了作者的写作精华,汇集厂作者对社会生活的理解和诠释。本仁品语言犀利、尖刻、洒脱。构思巧妙、嬉笑怒骂、褒扬正义、鞭笞丑恶、歌颂美好、针砭吋弊,引人向上,可渎性强,尤其适合青少年阅读。
  • 头脑充电大本营

    头脑充电大本营

    这套作品每册内容包括故事、游戏、竞赛、解题、答案等內容,丰富多彩,趣味盎然,能够促使广大青少年互动参与式地进行动手动脑,具有极强的可读性、趣味性和知识性。并且每册内容归纳排列,篇幅短小、内容精炼、语言简洁、明白晓畅,能够达到青少年喜闻乐见和学好玩好之目的。同时这套作品每册根据内容需要适当配图,图文并茂,生动形象,智趣结合,有教有乐,非常适合广大青少年用以培养智力和学习素质,同时也非常适合广大父母和各级教育组织用以组织开展青少年智力游戏活动。
  • 学生非智力因素的培养(下)

    学生非智力因素的培养(下)

    生命教育是以生命为核心,以教育为手段,倡导认识生命、珍惜生命、尊重生命、爱护生命、享受生命、超越生命的一种提升生命质量、获得生命价值的教育活动。让青少年学生认识生命和珍惜生命成为这一活动的重中之重。心理素质则是生命整体素质的组成部分,是以自然素质为基础,在后天环境、教育、实践活动等因素的影响下逐步发生、发展起来的。
热门推荐
  • 青春漫谈

    青春漫谈

    文静的A,不知何原因,突然变得喜欢说话,而且完全没法自我控制,除了睡觉,她总是不停地讲着,大家越发厌烦,就连她自己也意识到这个变化带了了很多困扰,为了治好这奇怪的毛病,她开始想尽法子,A的人生开始上演了很多奇妙的事情。也许作品名字,简介会变,但是青春故事的主题不会变,希望大家在A身上找到各自青春时的影子,没有恋爱与打架的青春也可以精彩。
  • 魔剑重

    魔剑重

    九百年前,与六界为敌;九百年后,本性不改,任我逍遥。笑看天下风云混沌,唯我通晓乱世玄机。众人皆醉我独醒,举世皆浊我独清。看他如何掌握命运,手握魔剑,脚踏世巅。一花一乾坤,一剑一天崖!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 龙都枭雄

    龙都枭雄

    在战场上,他是佣兵之王,令敌人闻风丧胆,横行天下、重回都市之后,依然是至尊王者。不管在哪里,他都是无敌于天下的枭雄。
  • 当回主角

    当回主角

    作者穿越到自己笔下的故事中,成为了故事里了本该死去的炮灰。凭借自己的所知所晓体会异世界主人公的故事。
  • 希瑟雅的秘密

    希瑟雅的秘密

    特拉普大陆隐藏着12件至珍之物,当它们集聚在一起的时候,大陆的秘密将会被打开,群号940689800
  • 神秘老公,咱不约

    神秘老公,咱不约

    高中时,凶悍的小太妹,青涩的学霸,一场羞涩的早恋,他们成了人人羡慕的一对。但家长老师棒打鸳鸯,对此,她选择一笑而过,他却苦苦寻找。几年后,失去初夜,男友背叛,相亲成名。而他却是高高在上的总裁,她却在人生低谷。他一眼认出了她,而她早已忘记,被蒙在鼓里。痴心总裁开始腹黑追妻之路......(简介小白,坑品惊喜,欢迎入坑)
  • 长天至尊

    长天至尊

    这世界很大,世上人很多,是非对错,谁又分得清楚?这一天,楚然坐在湖边,他就静静呆着,看湖中游鱼逡巡。他想了很多,前世、今生,梦中、现实,最终化作一声叹息消散。目光愈发坚定,楚然握紧双拳。他望向远方,风雪依然。无论生死,无论对错,既然选择了前行,就只剩一往无前,大争世界,必出天骄。此一生,不愿长存亘古,但求一世至尊!
  • 逆天女主:玛丽苏即为正义

    逆天女主:玛丽苏即为正义

    ‖这系李没有体验过的船新玛丽苏!开局99级,土豪都要绕道走!‖“什么!我是…玛丽苏?!”苏琪儿看着自己七彩闪着光的长发,眨了眨彩虹色眼睛,一滴晶莹剔透的泪水顺着脸颊滑下。“…不可思议。我明明很讨厌玛丽苏!怎么让我变成了这样!”然后她身后那个帅气的男子向前一步搂着她,说:“乖。无论你什么样我都喜欢。”↑以上内容本文皆不会出现——看似现代言情纯爱类,实则玄幻开挂类>人<
  • 桃花艳史

    桃花艳史

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。