改善数据质量
保证数据质量决不是一件容易的事情,不过借助于新型辅助工具,在一定程序上能够化难为易。
我原来曾经在一家投资银行从事程序员工作,我的办公桌紧挨“数据完全性”部门,该小组就是负责保证数据库掌握准确股票交易信息这项“费力不讨好”的工作,这家银行的计算机能够在几秒内处理数百万的交易信息,但是一次按键敲击错误或输入的值错误都可能堵塞全部数据汇集模块。
当一切进展顺利时,我们还会在谈笑间讨论数据的完整性究竟是什么哲学?数据的完整性究竟指的是什么?在那个时候,银行只是想用其记录交易信息及保证整个系统的顺畅运行,并不想深入了解其数据库。所以数据完整性就像无用的附加物。
现在这种观点得到了改变,数据完整性(或按现行的说法为数据质量)已经成为很多IT部门的热门话题。原来那些只去关注网站上用于客户填写资料的表单和窗体的公司老总们,现在会惊讶于为何公司的数据如此混乱?市场部需要的是受真实数据支持的信息作为业务拓展的向导,其中容不得有一丁点的马虎。
目前,许多软件厂商都在致力于解决这一问题。与原来将数据胡乱堆积在一起相比,这些厂商已经在开发能够更好处理数据的工具及套装软件,他们正在构建精密、合乎逻辑的信息框架并使用哲学术语(如本体论)在数据库领域内描述模型的数字和字符串信息。从总体上说数据质量问题的存在是因为仅靠“字节”无法充分表达最根本及潜在的信息。
“清洗”数据
这些系统外表看起来通常比较复杂,但都是典型具有实用性的工具,它们能够帮助IT商店根除最明显的问题以及费用最高的问题。这些系统通过执行“删除所有可能的错误副本”来清洗数据,它们还具有替换和添加或能,如将数据中所有的“Bob”替换为“Rorbert”或在所有旧电话号码中加入新区号。
最早最常用的数据质量软件之一便带有“cleansing”标志,该程序是通过公司以邮件列表形式保证所有的地址资料都尽可能是最现行、最正确及最完整的。Pitney Bowes Group 1软件公司曾经为“美国邮政总局(U.S. Postal Service)”开发过有关分析及改正的技术,现在Pitney Bowes正在出售更大众化的应用程序,该技术将解析地址规则集成到能够识别、改正地址信息、加入最完整ZIP代码的应用程序模块中。值得一提的是,它还可以识别缩写词,如能辨认出“St.paul’s St”和“saint Pauls Street”都是指圣保罗大街。
据Sharma介绍,Group 1的最新产品帮助公司改正了原有的一些错误。他具体解释说:“当一个新客户的记录被传达进来后,我们会对其进行确认和完善。如果这位客户在数据中心有记录,那么我们会将系统中的原记录更新成客户的最新资料,否则我们会将其视作是新客户,并将其信息加入到系统中。”
据IBM权威的实体分析解决专家Jeff Jonas介绍:“这种清除过程可能是比较复杂的,尤其是在决定哪些错误值可以丢弃时,可能存在过量删除数据的风险,这样最终也许会造成用户丢失掉有用的数据。”
在IBM是不允许员工凭个人的判断删除任何数据的,而且哪些数据有价值、哪些应该清除,这种判定并非永远都是正确的。Jonas解释说:“很多时候,我们在事后又发现需要对原来的决定再进行思考,也许现在觉得无用的数据某天就能转变成重要的数据。” |