Fork me on GitHub

Python数据分析与挖掘实战读书笔记之数据挖掘基础

LinkedIn对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25项技能中,数据挖掘排名第一。那么数据挖掘是什么?

数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此”数据挖掘”已经成为企业保持竞争力的必要方法。


数据挖掘的基本任务

数据挖掘的基本任务包括利用分类与预测聚类分析关联规则时序模式偏差检测智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。


数据挖掘建模过程

定义挖掘目标(目标定义)

  • 任务理解
  • 指标确定

数据取样(数据采集)

  • 建模抽样
  • 质量把控
  • 实时采集

抽取数据的标准

  • 相关性
  • 可靠性
  • 有效性

衡量数据质量的标准

  • 资料完整无缺,各类指标项齐全。
  • 数据准确无误,反映的都是正常(而不是异常)状态下的水平。

数据抽样的方式

  • 随机抽样
  • 等距抽样
  • 分层抽样
  • 从起始顺序抽样
  • 分类抽样(依据某种属性的取值来选择数据子集)

数据整理

数据探索

对所抽取的样本数据进行探索、审核和必要的加工处理,是最终保证的挖掘模型的质量所必需的。

数据探索与预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

数据探索主要包括:

  • 异常值分析
  • 缺失值分析
  • 相关分析
  • 周期性分析

数据预处理

当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。

数据预处理主要包括:

  • 数据筛选
  • 数据变量转换
  • 缺失值处理
  • 坏数据处理
  • 数据标准化
  • 主成分分析
  • 属性选择
  • 数据规约

挖掘建模(构建模型)

  • 模式发现
  • 构建模型
  • 验证模型

样本抽取完成并经过预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?

这一步是数据挖掘工作的核心环节

模型评价

  • 设定评价标准
  • 多模型对比
  • 模型优化

上面的建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用

注意: 对分类与预测模型和聚类分析模型的评价方法是不同的。


常用的数据挖掘建模工具

  • SAS
  • SPSS
  • SQL Server / MySQL
  • Python
  • R
  • Matlab
  • WEKA
----------------本文结束感谢您的阅读----------------
坚持原创技术分享,您的支持将鼓励我继续创作!
0%