LinkedIn对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25项技能中,数据挖掘排名第一。那么数据挖掘是什么?
数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此”数据挖掘”已经成为企业保持竞争力的必要方法。
数据挖掘的基本任务
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
数据挖掘建模过程
定义挖掘目标(目标定义)
- 任务理解
- 指标确定
数据取样(数据采集)
- 建模抽样
- 质量把控
- 实时采集
抽取数据的标准
- 相关性
- 可靠性
- 有效性
衡量数据质量的标准
- 资料完整无缺,各类指标项齐全。
- 数据准确无误,反映的都是正常(而不是异常)状态下的水平。
数据抽样的方式
- 随机抽样
- 等距抽样
- 分层抽样
- 从起始顺序抽样
- 分类抽样(依据某种属性的取值来选择数据子集)
数据整理
数据探索
对所抽取的样本数据进行探索、审核和必要的加工处理,是最终保证的挖掘模型的质量所必需的。
数据探索与预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。
数据探索主要包括:
- 异常值分析
- 缺失值分析
- 相关分析
- 周期性分析
数据预处理
当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。
数据预处理主要包括:
- 数据筛选
- 数据变量转换
- 缺失值处理
- 坏数据处理
- 数据标准化
- 主成分分析
- 属性选择
- 数据规约
挖掘建模(构建模型)
- 模式发现
- 构建模型
- 验证模型
样本抽取完成并经过预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?
这一步是数据挖掘工作的核心环节。
模型评价
- 设定评价标准
- 多模型对比
- 模型优化
上面的建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。
注意: 对分类与预测模型和聚类分析模型的评价方法是不同的。
常用的数据挖掘建模工具
- SAS
- SPSS
- SQL Server / MySQL
- Python
- R
- Matlab
- WEKA