• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

数据格式内容清洗

作者:云创智学|发布时间:2022-05-20 13:34:42.0|来源:云创智学

数据源系统若为业务系统,则该系统的数据通常由用户填写,在用户填写数据的过程中,存在全角输入、半角输入、空格符号、错误字段格式等错误。


1、时间日期格式清洗

当采取多个源端整合数据时,因源端系统的不够严谨,采取了字符串类型作为数据的存储类型,可能在不同的源中存储日期、时间的格式不一,导致数据多源抽取到临时表后存在不同的日期格式,从而导致目标系统无法应用。


2、全角半角清洗

全角指一个字符占用两个标准字符位置,半角指一字符占用一个标准的字符位置。在数据采集时,时常因输入法设置问题,将字母或者数字输入存储为全角格式。故在对数据进行ETL操作时,需要进行全角和半角转换。


3、不应有的字符

在源端系统中,数据采集时因人为原因可能存在一些数据不应有的字符,例如身份证号码出现非数字和X的情况,中国人的姓名出现西文字符、阿拉伯数字等情况。此类问题的解决需要采取半自动+人工方式相结合进行清洗。


4、重新取数

某些指标非常重要又缺失率高,且存在其他数据源可以获取,可采取重新抽取不同数据源的数据进行关联对比清洗。


5、内容与字段不匹配

端系统同样存在数据与该数据的字段表达意义不符的现象,该类问题主要来源于源端业务系统的缺陷

联系方式
企业微信