·直击企业数据集成技术
·IT效力分析
·知识管理把人和"脑"分开
·下一代资产管理呼吁新方法
·建立全球化的企业网站
·本土IT产业竞争优势的转变
·外包业务风险评估须重视
·操作型BI时代来临
 
2007电子政务走向务实
·2007年,一批具有重大影响力的电子政务工程项目取得重要进展,将对今后的电子政务建设产生深远的影响。 ...
零售业BI应用或将破冰
·关于本土零售企业“规模不经济”的诟病,在最近两年被业界时时提起,而支撑这一说法的相关数据也比比皆是 ...
信息化有的放矢
·信息化目标明确、有的放矢,是一航成仪在信息化建设过程中秉承的原则。大到整个集团、小到每个具体的IT项目,一航成仪都有明确的目标指向 ...
·网络营销应先建立网络安全感
·Intel正式发布16款45nm处理器
·RFID从小规模应用中获得新生
·九个方法使你告别垃圾邮件
·戴尔CES将推22英寸液晶PC显示器
·日立推出500GB海量移动硬盘
·数据挖掘的认识误区
·减少IT部门电费的10种办法
·CIO的2008将是强者生存
·CIO管理战略的“十宗罪”
·外包的十大建议
·移动信息化助力科技奥运高峰论坛
·Vista系统网络会议新功能介绍
·FlashGet三个鲜为人知的技巧
·需求分析的两上两下方法论
·Gartner圈点分析型CRM
·ERP实施-给自己一片悬崖
·巧用WinRAR为硬盘"排毒"
·彩色喷墨传真一体机横向评测
·负载越重 双路服务器越强劲
·激光一体机 三星SCX-4500评测
·45nm服务器功耗详尽测试
·爱普生EMP-280防尘性能评测
·评测超短焦投影机明基MP771

数据挖掘的认识误区


上篇
 SMB.PCWorld.COM.CN | 2008-01-09 09:36:34

引:没有经验的企业实施数据挖掘项目时,错误的认识往往成为项目成功开展的重要障碍。因此及时矫正这些错误的认识也成为项目实施前一个重要的任务。


  对于普通人来说,数据挖掘可能是一个神秘的过程。没有经验的企业实施数据挖掘项目时,错误的认识往往成为项目成功开展的重要障碍。因此及时矫正这些错误的认识也成为项目实施前一个重要的任务。

  数据挖掘的所有内容是关于算法

  一谈到算法就会想到通过历史数据建立模型,数据挖掘算法是创建挖掘模型的机制,对产生的最终挖掘输出结果有很大的决定性。随着数据挖掘新技术的层出不穷和商业数据挖掘产品的成熟与完善。对同一商业问题,通常在产品中有多种算法可供选择,而为特定的任务选择正确的算法很有挑战性。

  您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果。而且算法可以进行复合使用,在一个数据挖掘解决方案中可以使用一些算法来探析数据,而使用其他算法基于该数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。

  也可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮子分析。

  由此看出在数据挖掘项目中,在明确挖掘目标和了解各种算法特点后,如何正确选择使用算法,得到期望的结果才是关键环节。

  在数据挖掘项目实施的过程中,业界有一个公认的方法论CRISP-DM(Cross Industry Standard Process for Data Ming,跨行业数据挖掘标准流程),从名称上可以看到,此模型的定义比较通用,能够应用于不同的行业解决业务问题。

  CRISP-DM流程模型包括了六个步骤,涵盖了数据挖掘的整个过程,它们是:商业理解、数据理解、数据准备、建立模型、模型评估、模型部署。

  在这六个步骤中,应用数据挖掘算法的过程主要集中在建立模型阶段,很显然算法不是数据挖掘的所有内容。建模所使用的数据准备得如何,很大程度上决定了数据挖掘项目的成败。

  因此,在一个成功的数据挖掘项目中,60%-80%的时间都是集中在商业理解、数据理解、数据准备阶段。此外,在数据挖掘项目中,特别强调数据挖掘算法和实际业务的紧密结合,否则数据挖掘很可能会出现“垃圾进,垃圾出”(garbage in garbage out)的现象。

  数据挖掘项目中,检验模型的唯一标准是预测精确度

  模型的预测精确度是检验模型好坏的一个重要指标,但不是唯一指标。一个良好的数据挖掘模型,在投入实际应用前,需要经过多方面的评估,从而确定它完全地达到了商业目标。评估数据挖掘模型优劣的指标有许多,比如精确度、LIFT、ROC、Gain图等。

  精确度是最基本和最简单的指标。但是要让用户接受一个模型的结果,仅靠这些评估指标却是不够的,还需要从模型结果的可用性上进一步阐述,即数据挖掘模型到底能带来什么业务上的价值。这实际上也就是数据挖掘模型的可解释性。在实际数据挖掘项目中,模型的可解释性往往比评估指标更为重要。

  在对模型进行评估时,既要参照评估标准,同时也要考虑到商业目标和商业成功的标准。片面的追求预测正确率就会忽视了数据挖掘的初衷。我们不是为了建立一个完美的数学模型而进行挖掘,而是为了解决实际商业问题。所以挖掘产生结果的可解释性与实用性,才是最根本的标准。例如在解决客户流失问题中,预测模型捕捉越多的流失客户,不一定就代表能够协助挽留较多的客户。关键在于预测结果对挽留营销活动的制定有多大的帮助。

  数据挖掘一定需要数据仓库

  从定义上讲,数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

  良好的数据源是数据挖掘成功的重要保证,所以说数据挖掘需要有自己的数据集市,因为通常数据仓库主要是为决策支持系统而建立的,数据在ETL过程中会有可能损失一些对数据挖掘有用的信息。

  特别是在数据规约阶段,针对数据集进行匹配,发现重复异常,根据匹配结果进行处理,删除部分记录或者将多个记录合并为一个更完整信息的记录的过程,对数据挖掘来讲很可能是隐含信息丢失的过程。重复的记录对决策支持系统可能没有用处,但对数据挖掘来讲可能是挖掘出隐含模式的重要来源。

1 2 下一页 >> 末页 推荐】【打印
Copyright(c) 2000-2008 pcworld.com.cn. All Rights Reserved.
京ICP备 05038969 号