第11章数据精练(2)

书签收藏评论目录封面

新身份证号码：××××××196011200024，第15～17位为顺序码，顺序码的奇数分配给男性，偶数分配给女性，从后面第二位构成的数字为偶数，判断该客户为“女性”。

·婚姻状态

婚姻状态的分析前面已经提到过，具体情况见前面相关章节。

最后，综合年龄、性别、婚姻状态三方面的信息，可以得到人生阶段的分类信息，如表5.6。

社会阶层分析

社会阶层分析需要的数据主要包括能够描述客户收入水平和财力情况的数据。例如，客户所在公司、行业、公司性质、职位、收入以及房产、存款情况等。

由于这些变量中很多为文字类数据，例如公司名称、行业、职位等；很多变量的取值范围极其广泛，例如公司名称、收入、存款等，所以该类变量经常会出现记录格式不标准，如公司名称；数据分类不明确，如行业分类、职位分类；信息填写不准确，如收入。另外，还有一些比较敏感的信息，客户不愿提供给银行而造成信息大量缺失，如收入、存款、房产等。由此可见，对这些数据进行精练是非常困难和极具挑战性的。

下面以几种比较典型的数据为例，具体介绍其中可能产生的数据质量问题及相应的数据精练方法。

·公司名称

问题　对于公司名称字段经常出现的数据质量问题，如表5.7所示。

方法　根据表5.7中列举出的可能发生在“公司名称”字段中的数据质量问题，可以采取以下几种相应的方法和步骤进行数据精练，最终实现“公司名称”的标准化。

大型公司名称统一：就职于大型公司的客户既是现有高贡献度客户的主体，也是最有价值的潜在客户群体，自然他们会成为银行关注的焦点和客户分析的重点。因此，如何准确辨识这部分客户就显得尤为重要。公司名称是辨别这些客户的最重要的途径，所以在进行公司名称整理过程中，有必要对大型公司进行特别处理。在进行大型公司名称整理之前，首先需要对“大型公司”定义，根据现有客户的来源，我们定义世界500强、沪深两市及香港上市的公司为大型公司。根据相应的外部数据源，建立其大型公司关键字库，其中包括公司全称、公司名称关键字、公司电话等信息，公司名称关键字可以是公司名称中具有高度分辨能力和排他性的关键字段，也可以是公司的简称等。利用建立起来的关键字库对公司名称进行模糊查找，从而确定大型公司，并生成新的公司名称字段。如果是大型公司，则用公司全称代替客户提供的公司名称，否则保持原有公司名称信息不变。大型公司名称统一的结果举例，如表5.8所示。

去除冗余信息：该步骤的实施目的主要是为了解决表5.7中所提到的“公司名称字段中出现冗余信息”问题。在进行冗余信息去除之前，需要首先确定能够区分主要信息和冗余信息的途径和标志，根据实际的数据状况，我们采用能够明确表征公司级别的关键字，例如公司、学校、大学、医院等，来进行两部分信息的区分。通过关键字库对客户提供的公司名称进行模糊查找，如发现公司名称中包含相应的关键字，则截取关键字【含】以前的内容作为新的公司名称，例如原始公司名称为“ABC公司财务部”，修正后的公司名称为“ABC公司”。

书写格式标准化：对于相同公司其名称写法不同这一问题，可以设定其中一种常用的、信息较为完整的书写形式为标准形式，将其他书写形式与其建立对应关系，并统一成该标准形式。例如，将公司全称与公司简称的对应，录入格式中半角与全角的对应，数字的中文与阿拉伯文的对应等。

公司名称与电话之间的循环查找：在通过上述几个步骤所整理出的公司名称结果以及公司电话标准化【后续章节将介绍】的基础上，将公司名称和公司电话进行比对，相同的公司名称赋予相同的公司编码，相同的公司电话也同样赋给同一公司编码，这样就可以保证通过公司名称和公司电话所查找到的相同公司的客户拥有同一个公司编码，如表5.9所示。

统一公司名称：对同一公司编号所对应的所有客户的公司名称进行统一，统一后的新的公司名称的选取原则，可以是同一公司编号所对应的长度最长的公司名称【因为前面已经对公司名称中的冗余信息进行了删除】，也可以是同一公司编号所对应的公司名称中出现频次最高的公司名称。

挑战　对于公司名称这样的文字型数据进行标准化是一个难度较大、费时较多的过程，主要遇到的挑战有：

各种关键字库的形成、更新和维护：关键字库的丰富程度是直接影响这一过程实施效果的关键因素。因此，不仅在一开始就需要尽量全面、细致地整理出所需的关键字，并且随着客户数量不断增加，涉及的公司数目不断增大，还应该对关键字库实施定期更新和维护。

循环查找的实现及准确度的提高：循环查找的实现是一个非常复杂的过程，它需要设计严密的查找逻辑，并通过复杂的语言程序来完成。由于本章节的主要目的在于介绍数据工程的思路和方法，所以对于细节的实施过程不作具体阐述，但在进行循环查找之前将公司名称和公司电话号码进行最大限度地标准化，无疑是提高循环查找准确度的关键。

·行业

问题　系统中关于客户行业的信息是以行业分类代码的形式记录下来的。在信用卡业务发展的初级阶段，这种代码的形成是基于客户所提供的公司名称、行业等信息，依据信贷风险部门制定的风险政策，由审批人员进行主观判断、划分客户行业类别，并记录在系统中。以这种方式所形成的行业分类，其划分标准往往具有一定的片面性【仅考虑风险一个维度】、主观判断或录入过程中会产生一定的人为错误等数据质量问题，因此会为未来的分析带来一定的障碍。

方法　针对上述问题，在对行业数据进行处理的过程中，我们主要通过如下几个步骤来形成更细致、更准确的行业分类：

建立新的行业划分标准：根据权威机构所形成的行业划分标准或方法，例如《国民经济行业分类标准》，重新建立新的、更加客观、全面、细致的行业划分标准，共划分出一级行业15类、二级行业72类、三级行业98类。

建立新旧行业分类对应关系：尽管原有的行业分类的考察角度具有一定的片面性，但是仍然可以依据旧的分类标准中关于每类行业的范围阐述，将其中绝大多数的一、二级行业【原始行业划分为二级】与新的分类标准中的一、二级行业进行对应，从而通过这种对应关系建立客户行业类别的一、二级初始划分。对于那些无法进行对应的行业，一、二级初始分类结果为缺失。

一级行业划分与修正：依据新的行业划分标准中对每一类一级行业的具体定义，全面考察现有客户的公司名称，从公司名称中提取出能够准确区分各类一级行业的关键字，形成一级行业分类关键字库。利用该关键字库对已经标准化的公司名称进行模糊查找，根据查找的关键字所属类别确定该客户的一级行业类别。如果该结果与初始分类结果相同，则初始分类不变；如果不同，则用该结果替换初始分类。

二级行业划分与修正：与一级行业划分和修正的过程类似，也要建立二级行业划分关键字库，通过关键字搜索确定客户所属的二级行业。若与原始分类相同，则保留原始分类；若不同，则更新原始分类。

三级行业的重新划分：由于旧的行业划分标准中不存在三级行业的划分，因此在新的行业划分过程中需要新增第三级行业划分结果，划分方法同样是依靠相应的关键字库进行搜索、区分。需要注意的是，在该步骤中，可能会出现某些客户无法根据关键字库进行第三级行业的归属，暂时将其第三级行业分类结果定义为“其他”，待分类标准修正和关键字库补充后，再重新进行第三级行业归类。

挑战　行业的重新划分其难点和挑战主要来自以下两方面：

新的行业分类标准的形成和认同：原有的行业分类规则已经在业务部门得到了相当范围的应用，因此在建立新的行业分类标准时，不仅要考虑如何将其应用到未来的分析中去，还需要将其在各个业务部门内达成共识。同时，要考虑到未来代替原有行业分类的可行性。

关键字库的建立、维护及运用规则：行业分类关键字库的建立和维护同样是一个长期的、循序渐进的过程，随着客户量不断增加而不断改进和丰富。另外，在利用行业分类关键字库进行模糊查找时，还需要注意的一个问题就是一个公司名称中包含跨行业的两个或两个以上的关键字，这时候如何确定行业归属是一个比较复杂的问题，需要通过不同关键字在公司名称中的位置以及不同关键字之间的从属关系来确定。例如，“ABC汽车制造公司幼儿园”中出现两个行业关键字“汽车制造”、“幼儿园”，根据两个关键字出现顺序，最终将其归属到“教育业”而非“制造业”。举例中出现的这种情况比较普遍，处理过程也相对简单，实际搜索过程中还会出现其他相对复杂的多关键字情况，处理方法和逻辑都不尽相同，大家可以根据实际的数据情况进行逻辑关系设定，这里不再赘述。

公司名称中不包含行业信息：对于这种情况，往往只能根据初始的客户信息和原有的行业分类标准进行行业划分，无法进行错误的识别、纠正以及行业细分。

·收入

问题　客户收入数据中所存在的数据质量问题比较严重，问题形成原因也多种多样。有的客户不愿意将个人收入信息透露给银行而造成收入信息缺失，有的客户因为怕不能通过风险审批而虚报收入。当然，也有前端数据录入人员工作疏忽所导致的人为错误等。

方法　针对上述在客户收入中所存在的数据质量问题，可以通过统计方法对异常的客户收入进行纠正，利用相关的信息对缺失的客户收入进行补充。

第11章数据精练(2)

你领导，他们跟从：如何鼓舞、领导和管理你的员工

雷军：让创业回归简单

外贸企业财务管理

销售不狠，业绩不稳

中国房地产金融风险防范研究：对资产证券化方式的思考

鼎定乾坤：至尊大陆

天行

我的女仆分身

百姓私房菜

天行

君当战

花样爱恋

等你爱我

天命萌女：腹黑拐走小纯洁

TFBOYS之冰蝶恋曲

第11章 数据精练(2)

第11章数据精练(2)