数据挖掘基础知识
序号 | 探测指标 | 指标作用 | 指标类型 |
---|---|---|---|
1 | 均值(mean) | 能够利用所有已知信息,但对异常值(极大、极小)敏感 | 集中趋势指标 |
2 | 中位数(median) | 排序后居于中间位置的数值,有序尺度常用 | 集中趋势指标 |
3 | 众数(mode) | 出现最频繁的数,代表分布中的高峰 | 集中趋势指标 |
4 | 极差(range) | 最大最小值之差,直接受到异常值影响 | 变异性指标 |
5 | 方差(variance) | 数据越分散,原理均值,方差越大 | 变异性指标 |
6 | 标准差(standard deviation) | 与数据本身有相同的量纲 | 变异性指标 |
7 | 偏度(skewness) | 刻画数据在均值两侧偏差趋势的差异性 | 变异性指标 |
8 | 峰读(kurtosis) | 测量分布曲线相对平滑或突起的程度 | 变异性指标 |
序号 | 算法 | 归类 | 作用 |
---|---|---|---|
1 | C4.5 | 分类 | 机器学习算法中的一种分类决策树算法 |
2 | kNN | 分类 | K最近邻(k-Nearest Neighbor)分类算法 |
3 | Naive Bayes | 分类 | 朴素贝叶斯模型 |
4 | CART | 分类 | 分类与回归树 |
5 | K-Means | 聚类 | 聚类算法 |
6 | Apriori | 关联分析 | 一种最有影响的挖掘布尔关联规则频繁项集的算法 |
7 | AdaBoost | 袋装与推进 | 一种迭代算法 |
8 | PageRank | 链接挖掘 | Google算法的重要内容 |
9 | SVM | 统计学习 | 支持向量机 |
0 | EM | 统计学习 | 最大期望算法 |
次序 | 简要步骤 | 具体步骤 | 作用 |
---|---|---|---|
1 | 收集 | 信息收集 | 根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法, 将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。 |
2 | 收集 | 数据集成 | 把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。 |
3 | 预处理 | 数据规约 | 数据规约技术可以用来得到数据集的规约表 示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。 |
4 | 预处理 | 数据清理 | 在数据库中的数据有一些是不完整的 (有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。 |
5 | 预处理 | 数据变换 | 通过平滑聚集、数据概化、规范化等 方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步 |
6 | 挖掘 | 挖掘过程 | 根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。 |
7 | 挖掘 | 模式评估 | 从商业角度,由行业专家来验证数据挖掘结果的正确性。 |
8 | 挖掘 | 知识表示 | 将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。 |