背景介绍
安邦保险是国内知名的财产保险公司,近年来逐渐扩展到寿险和养老险领域。因为安邦保险进入寿险领域时间不长,还缺乏数据运营的经验,保单数据存在很多质量问题,经常导致核保、核赔、保全等业务出现差错,也引起了客户抱怨。
安邦保险寿险部希望有一个工具,能够方便地检查数据中存在的数据质量问题,既在宏观上对数据质量有一个总体了解,也能定位数据错误,为下一步开展数据质量提升和数据治理打下良好基础。
业务目标
利用华傲数据的ADD平台,探索安邦保险寿险收据,挖掘数据中各列之间的关联关系,发现数据质量问题,形成数据质量报告。
发现数据中隐藏的规则
评估整体的数据质量
定位错误数据
技术目标
评估华傲数据的数据探索稽核产品,了解当前寿险数据,为进一步实施数据质量提升和数据治理奠定基础。
ADD平台的业务特点
ADD基于完整的数据质量理论,从重复性、关联性、完全性、合规性、一致性和正确性六个维度进行全方位的数据探索稽查和分析,在发挥业务人员丰富的业务知识和数据知识的同时,充分利用自动发掘规则所特有的覆盖全质量问题域、快速处理,并能够对规则库进行优化去重的特点,既能形成对目前数据质量的状态分析和评估,同时也能对数据质量规则库相应的数据质量提升进行结果预测和效果分析。
全方位的数据探索稽查和评估
数据质量的高低必须从多个角度衡量,即使准确性相当高的数据,如果数据已经过期,仍达不到质量管理标准。ADD平台以数据质量问题发现和质量评估为目标,从以下六个维度提出全方位的数据探索稽查方案。
·重复性:智能发现并清理重复记录。
·关联性:智能恢复失去关联的数据间的关系。
·完全性:自动补全遗失的数据。
·合规性:自动按行业标准补充和修正数据。
·一致性:自动进行数据间一致性的相互验证。
·正确性:智能进行数据间正确性的比对分析。
自动化+人机交互稽查规则形成机制
ADD平台针对数据质量六个维度,依据先进算法和理论采用自动化方式产生稽查规则,同时,为发挥业务人员的业务知识能力,也支持通过人机交互方式定义业务稽查规则。通过自动化+人机交互的规则定义方式既满足了对大量数据处理的效率和全面覆盖,同时也将业务人员丰富的业务数据知识和业务数据要求融合到对数据探索稽查的规则中。
数据质量提升改进方案形成机制
ADD平台针对形成的稽查规则,进行自动智能的规则优化处理,包括规则重复、不一致和冗余等,并形成最终的数据质量提升改进方案和对应的效果分析结果报告,为在ADP完成数据质量提升提供依据。
ADD平台的技术特点
为保证ADD平台的运行效果和效率,ADD平台采用了以下先进技术:
自动规则发现技术
ADD平台通过条件约束理论CFDs中的有限可公理化原理来实现规则的自动推理与发现;通过CFDs的可满足性原理来实现规则的合理性判断;通过CFDs的逻辑蕴涵原理来实现冗余规则的去除。从而形成完整的、严密的、可进化的、不冗余的质量提升规则。
智能模糊匹配技术
ADD采用以下智能匹配和模糊匹配技术的方式提高规则发现的效率和正确性。
分块:采用了排序、QGram、聚类、哈希、后缀数组等多种算法,首先对指定列进行排序,然后分块,从而减少比较的计算量。
相似度计算:采用编辑距离、编辑距离扩展-字形、编辑距离扩展-拼音、中文机构名全称/简称等算法。除了可计算非中文字符串的相似度,还可从字形、读音等角度比较中文字符串的相似度。
决策:提供多种决策机制,既有自动化程度很高的Fellegisunter算法,又有人工干预度很大的RuleBased算法。前者无需用户干预,通过自我数据训练得到的规则进行决策,后者基于用户预定义规则完成决策。
智能规则验证技术
针对形成的自动和人机交互形成的稽查规则中存在的有关问题,包括规则的重复、不一致和冗余等,首先进行具有专业水平的智能验证,并对发现的规则相关问题进行规则优化处理。