登陆注册
10122100000011

第11章 数据精练(2)

新身份证号码:××××××196011200024,第15~17位为顺序码,顺序码的奇数分配给男性,偶数分配给女性,从后面第二位构成的数字为偶数,判断该客户为“女性”。

·婚姻状态

婚姻状态的分析前面已经提到过,具体情况见前面相关章节。

最后,综合年龄、性别、婚姻状态三方面的信息,可以得到人生阶段的分类信息,如表5.6。

社会阶层分析

社会阶层分析需要的数据主要包括能够描述客户收入水平和财力情况的数据。例如,客户所在公司、行业、公司性质、职位、收入以及房产、存款情况等。

由于这些变量中很多为文字类数据,例如公司名称、行业、职位等;很多变量的取值范围极其广泛,例如公司名称、收入、存款等,所以该类变量经常会出现记录格式不标准,如公司名称;数据分类不明确,如行业分类、职位分类;信息填写不准确,如收入。另外,还有一些比较敏感的信息,客户不愿提供给银行而造成信息大量缺失,如收入、存款、房产等。由此可见,对这些数据进行精练是非常困难和极具挑战性的。

下面以几种比较典型的数据为例,具体介绍其中可能产生的数据质量问题及相应的数据精练方法。

·公司名称

问题 对于公司名称字段经常出现的数据质量问题,如表5.7所示。

方法 根据表5.7中列举出的可能发生在“公司名称”字段中的数据质量问题,可以采取以下几种相应的方法和步骤进行数据精练,最终实现“公司名称”的标准化。

大型公司名称统一:就职于大型公司的客户既是现有高贡献度客户的主体,也是最有价值的潜在客户群体,自然他们会成为银行关注的焦点和客户分析的重点。因此,如何准确辨识这部分客户就显得尤为重要。公司名称是辨别这些客户的最重要的途径,所以在进行公司名称整理过程中,有必要对大型公司进行特别处理。在进行大型公司名称整理之前,首先需要对“大型公司”定义,根据现有客户的来源,我们定义世界500强、沪深两市及香港上市的公司为大型公司。根据相应的外部数据源,建立其大型公司关键字库,其中包括公司全称、公司名称关键字、公司电话等信息,公司名称关键字可以是公司名称中具有高度分辨能力和排他性的关键字段,也可以是公司的简称等。利用建立起来的关键字库对公司名称进行模糊查找,从而确定大型公司,并生成新的公司名称字段。如果是大型公司,则用公司全称代替客户提供的公司名称,否则保持原有公司名称信息不变。大型公司名称统一的结果举例,如表5.8所示。

去除冗余信息:该步骤的实施目的主要是为了解决表5.7中所提到的“公司名称字段中出现冗余信息”问题。在进行冗余信息去除之前,需要首先确定能够区分主要信息和冗余信息的途径和标志,根据实际的数据状况,我们采用能够明确表征公司级别的关键字,例如公司、学校、大学、医院等,来进行两部分信息的区分。通过关键字库对客户提供的公司名称进行模糊查找,如发现公司名称中包含相应的关键字,则截取关键字【含】以前的内容作为新的公司名称,例如原始公司名称为“ABC公司财务部”,修正后的公司名称为“ABC公司”。

书写格式标准化:对于相同公司其名称写法不同这一问题,可以设定其中一种常用的、信息较为完整的书写形式为标准形式,将其他书写形式与其建立对应关系,并统一成该标准形式。例如,将公司全称与公司简称的对应,录入格式中半角与全角的对应,数字的中文与阿拉伯文的对应等。

公司名称与电话之间的循环查找:在通过上述几个步骤所整理出的公司名称结果以及公司电话标准化【后续章节将介绍】的基础上,将公司名称和公司电话进行比对,相同的公司名称赋予相同的公司编码,相同的公司电话也同样赋给同一公司编码,这样就可以保证通过公司名称和公司电话所查找到的相同公司的客户拥有同一个公司编码,如表5.9所示。

统一公司名称:对同一公司编号所对应的所有客户的公司名称进行统一,统一后的新的公司名称的选取原则,可以是同一公司编号所对应的长度最长的公司名称【因为前面已经对公司名称中的冗余信息进行了删除】,也可以是同一公司编号所对应的公司名称中出现频次最高的公司名称。

挑战 对于公司名称这样的文字型数据进行标准化是一个难度较大、费时较多的过程,主要遇到的挑战有:

各种关键字库的形成、更新和维护:关键字库的丰富程度是直接影响这一过程实施效果的关键因素。因此,不仅在一开始就需要尽量全面、细致地整理出所需的关键字,并且随着客户数量不断增加,涉及的公司数目不断增大,还应该对关键字库实施定期更新和维护。

循环查找的实现及准确度的提高:循环查找的实现是一个非常复杂的过程,它需要设计严密的查找逻辑,并通过复杂的语言程序来完成。由于本章节的主要目的在于介绍数据工程的思路和方法,所以对于细节的实施过程不作具体阐述,但在进行循环查找之前将公司名称和公司电话号码进行最大限度地标准化,无疑是提高循环查找准确度的关键。

·行业

问题 系统中关于客户行业的信息是以行业分类代码的形式记录下来的。在信用卡业务发展的初级阶段,这种代码的形成是基于客户所提供的公司名称、行业等信息,依据信贷风险部门制定的风险政策,由审批人员进行主观判断、划分客户行业类别,并记录在系统中。以这种方式所形成的行业分类,其划分标准往往具有一定的片面性【仅考虑风险一个维度】、主观判断或录入过程中会产生一定的人为错误等数据质量问题,因此会为未来的分析带来一定的障碍。

方法 针对上述问题,在对行业数据进行处理的过程中,我们主要通过如下几个步骤来形成更细致、更准确的行业分类:

建立新的行业划分标准:根据权威机构所形成的行业划分标准或方法,例如《国民经济行业分类标准》,重新建立新的、更加客观、全面、细致的行业划分标准,共划分出一级行业15类、二级行业72类、三级行业98类。

建立新旧行业分类对应关系:尽管原有的行业分类的考察角度具有一定的片面性,但是仍然可以依据旧的分类标准中关于每类行业的范围阐述,将其中绝大多数的一、二级行业【原始行业划分为二级】与新的分类标准中的一、二级行业进行对应,从而通过这种对应关系建立客户行业类别的一、二级初始划分。对于那些无法进行对应的行业,一、二级初始分类结果为缺失。

一级行业划分与修正:依据新的行业划分标准中对每一类一级行业的具体定义,全面考察现有客户的公司名称,从公司名称中提取出能够准确区分各类一级行业的关键字,形成一级行业分类关键字库。利用该关键字库对已经标准化的公司名称进行模糊查找,根据查找的关键字所属类别确定该客户的一级行业类别。如果该结果与初始分类结果相同,则初始分类不变;如果不同,则用该结果替换初始分类。

二级行业划分与修正:与一级行业划分和修正的过程类似,也要建立二级行业划分关键字库,通过关键字搜索确定客户所属的二级行业。若与原始分类相同,则保留原始分类;若不同,则更新原始分类。

三级行业的重新划分:由于旧的行业划分标准中不存在三级行业的划分,因此在新的行业划分过程中需要新增第三级行业划分结果,划分方法同样是依靠相应的关键字库进行搜索、区分。需要注意的是,在该步骤中,可能会出现某些客户无法根据关键字库进行第三级行业的归属,暂时将其第三级行业分类结果定义为“其他”,待分类标准修正和关键字库补充后,再重新进行第三级行业归类。

挑战 行业的重新划分其难点和挑战主要来自以下两方面:

新的行业分类标准的形成和认同:原有的行业分类规则已经在业务部门得到了相当范围的应用,因此在建立新的行业分类标准时,不仅要考虑如何将其应用到未来的分析中去,还需要将其在各个业务部门内达成共识。同时,要考虑到未来代替原有行业分类的可行性。

关键字库的建立、维护及运用规则:行业分类关键字库的建立和维护同样是一个长期的、循序渐进的过程,随着客户量不断增加而不断改进和丰富。另外,在利用行业分类关键字库进行模糊查找时,还需要注意的一个问题就是一个公司名称中包含跨行业的两个或两个以上的关键字,这时候如何确定行业归属是一个比较复杂的问题,需要通过不同关键字在公司名称中的位置以及不同关键字之间的从属关系来确定。例如,“ABC汽车制造公司幼儿园”中出现两个行业关键字“汽车制造”、“幼儿园”,根据两个关键字出现顺序,最终将其归属到“教育业”而非“制造业”。举例中出现的这种情况比较普遍,处理过程也相对简单,实际搜索过程中还会出现其他相对复杂的多关键字情况,处理方法和逻辑都不尽相同,大家可以根据实际的数据情况进行逻辑关系设定,这里不再赘述。

公司名称中不包含行业信息:对于这种情况,往往只能根据初始的客户信息和原有的行业分类标准进行行业划分,无法进行错误的识别、纠正以及行业细分。

·收入

问题 客户收入数据中所存在的数据质量问题比较严重,问题形成原因也多种多样。有的客户不愿意将个人收入信息透露给银行而造成收入信息缺失,有的客户因为怕不能通过风险审批而虚报收入。当然,也有前端数据录入人员工作疏忽所导致的人为错误等。

方法 针对上述在客户收入中所存在的数据质量问题,可以通过统计方法对异常的客户收入进行纠正,利用相关的信息对缺失的客户收入进行补充。

同类推荐
  • 你领导,他们跟从:如何鼓舞、领导和管理你的员工

    你领导,他们跟从:如何鼓舞、领导和管理你的员工

    经理人的职业生活中最困难的部分便是对员工的管理了,而《你领导,他们服从》将使这一工作变得简单。本书囊括了首席执行官、总裁、业务总监、部门领导和其他管理者必须面对的许多问题,以及解决这些问题的最优办法,是一本幽默、风趣、通俗易懂的“管理百宝箱”。这是一本经理人看了就想买的书,因为本书提出的理念和方法可以直接应用到工作实践中,从而极大地帮助经理人员创造卓越业绩、攀登职业高峰。
  • 雷军:让创业回归简单

    雷军:让创业回归简单

    本书选取世界范围内最有影响力的企业家进行解读,立足于时代、社会、产业、公司与个人的多维角度,提炼出企业家在创业、商战、管理等领域的哲学智慧,通过翔实的数据与生动的案例,剖析企业家哲学智慧的实用性与科学性,给读者以启迪借鉴。设计等十几个板块划分,选择符合企业家共性与独具个人特色的内容,提升图书的实用性与可读性。
  • 外贸企业财务管理

    外贸企业财务管理

    本书讲述了工商税金的管理、进出口关税的管理、出口退税的管理和税收筹划的理论。内容全面,系统而具体,重点突出,指向明确。
  • 销售不狠,业绩不稳

    销售不狠,业绩不稳

    《销售不狠,业绩不稳》借助动物仿生学原理,从鹰的眼睛、狼的性格、豹的速度和熊的力量四大角度出发,折射出其在销售中所必备的敏锐洞察力、坚韧意志力、强大说服力和果断成交力,深入浅出地对销售中的重要环节做了缜密的逻辑分析和阐述。通过诸多行之有效的营销案例揭示现实销售过程中的心理学规律,如何参透消费者的心理,如何进行客户的开发、如何抓住顾客的心理需求、如何运用相应的销售技巧,如何积极地促成交易等,最实用的销售攻略秘笈,本书将一网打尽。
  • 中国房地产金融风险防范研究:对资产证券化方式的思考

    中国房地产金融风险防范研究:对资产证券化方式的思考

    本书正是基于上述现实焦点问题来研究资产证券化与中国房地产金融风险防范问题,希冀对证券化方式下具有典型意义的风险事实做出合理解释,结合对我国房地产金融风险阶段性特征及其成因的解析,为实现我国房地产金融层次提升与风险规避提供新的理论支持。全书围绕以下两个问题勾勒出研究框架:一是证券化条件下房地产金融风险生成机制有什么新变化,二是在中国特殊国情下房地产金融风险的生成机制是怎样的。旨在从一般情况与特殊国情两个层面来考察资产证券化手段是否为化解中国房地产金融风险的良方。研究的重点在我国,研究的中心是房地产金融风险的生成机制。
热门推荐
  • 鼎定乾坤:至尊大陆

    鼎定乾坤:至尊大陆

    武印大陆上面:每一个时代,绝世天才不胜枚举,但是,每一个年代,站在巅峰的却总是只有数人而已,众多绝世天才陨落在成为绝世强者的道路上面。日月星辰齐聚大陆,大陆必将陷入大乱。无人可免。是彻底毁灭还是涅槃重生?束缚不再,神威浩荡,大陆终将一统。万载的预言,究竟昭示着怎样的天意?大陆又将何去何从?且看我龙翔笑傲江湖,快意恩仇,覆雨翻云!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 我的女仆分身

    我的女仆分身

    “大师,我有无数女仆,她们貌美如花,能力各异,每个人都是我的一道能力分身,可我为什么感觉很空虚,不快乐?”大师听后,掏出打火机点燃萧雷的衣服,当火快烧到皮肤时,他连忙把火吹灭。大师摇了摇头,再次点燃萧雷的衣服。萧雷顿悟:“大师,我明白了,你是说女仆就像衣服,乃身外之物,要懂得取舍,才会快乐是吗?”“不,我是说,吹啊,继续吹啊,不吹你会死啊~”…………欢乐企鹅群:39401772
  • 百姓私房菜

    百姓私房菜

    本书汇百家之所长,经典私房菜的制作过程,让您可以在自家的厨房里,利用最简单的器具,轻松制作出好吃、好看、好营养、好创意的各种家常菜。您只需要举一反三,便能让普通的家常菜因独特的做法而与众不同。还有“厨房小常识”告诉你健康饮食生活的小窍门!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 君当战

    君当战

    钱塘江大潮会,“血灵”李生奥约战“玄天剑客”邓凡,只言:“当今江湖,唯你我二人,可战否?”邓凡纵剑笑道:“当战!”
  • 花样爱恋

    花样爱恋

    这是一个校园故事,本书的主角玫兰玥会在其中发生许多故事!
  • 等你爱我

    等你爱我

    她,高傲无比,不可一世,玩弄感情于鼓掌之中。他,潇洒无情,桀骜不驯,游走花丛中招蜂引蝶。两个高傲的人的碰撞,是否会有一方屈服,付出真情,俘获对方的心,演绎一场爱情……
  • 天命萌女:腹黑拐走小纯洁

    天命萌女:腹黑拐走小纯洁

    本文处女作用词生涩请勿喷十五年前,祥云满头,百鸟朝凤,天命之女临世!前世的纠葛让她沉睡,神女苏醒,人皇临世,当呆萌遇上腹黑,注定逃不过千世姻缘
  • TFBOYS之冰蝶恋曲

    TFBOYS之冰蝶恋曲

    本文主要写了男主角和女主角相爱的过程,这不小说还关于魔法,请尽请期待。