数据源系统若为业务系统,则该系统的数据通常由用户填写,在用户填写数据的过程中,存在全角输入、半角输入、空格符号、错误字段格式等错误。
1、时间日期格式清洗
当采取多个源端整合数据时,因源端系统的不够严谨,采取了字符串类型作为数据的存储类型,可能在不同的源中存储日期、时间的格式不一,导致数据多源抽取到临时表后存在不同的日期格式,从而导致目标系统无法应用。
2、全角半角清洗
全角指一个字符占用两个标准字符位置,半角指一字符占用一个标准的字符位置。在数据采集时,时常因输入法设置问题,将字母或者数字输入存储为全角格式。故在对数据进行ETL操作时,需要进行全角和半角转换。
3、不应有的字符
在源端系统中,数据采集时因人为原因可能存在一些数据不应有的字符,例如身份证号码出现非数字和X的情况,中国人的姓名出现西文字符、阿拉伯数字等情况。此类问题的解决需要采取半自动+人工方式相结合进行清洗。
4、重新取数
某些指标非常重要又缺失率高,且存在其他数据源可以获取,可采取重新抽取不同数据源的数据进行关联对比清洗。
5、内容与字段不匹配
端系统同样存在数据与该数据的字段表达意义不符的现象,该类问题主要来源于源端业务系统的缺陷