您的当前位置:首页正文

(完整word版)数据挖掘填空题复习资料

2024-10-18 来源:威能网
(完整word版)数据挖掘填空题复习资料

1.属性的数据性质包括:相异性,有序性,可和差性和可乘除性四个性质 2.根据属性所具有的数值性质不同可将属性分为定性属性和定量属性 3.根据属性值得个数不同可将属性分为离散型和连续型

4.根据属性的数值性质可将属性分为四种属性类型标称,序数,区间,比率 5.非对称的属性是指自由出行属性非零值才是重要的属性 6.数据集的一般特性包括维度,稀疏性,分辨率 7.数据集的维度是数据集中的属性数目

8.稀疏数据集是指该数据集的数据对象具有的属性数目 9.记录数据分为事务数据,数据矩阵,稀疏数据矩阵三大类

11.基于图形的数据分为带有对象之间联系的数据,具有图形对象的数据 12.常见的有序数据有时间数据,序列数据,空间数据,时间序列数据

13.空间数据的一个重要特点是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似 14.抽样方法有简单随机抽样,分层抽样,渐进抽样

15.抽样偏倚是指样本包含的不同类型的对象与它们在总体中的出现情况下不成比例

16.特征选择过程可以看作由四部分组成:于集评估度量,控制新的特征子集产生的搜索策略,停止搜索判断,验证过程

17.特征加权是指另一种保留或删除特征的方法,权值越大,特征越重要,它在模型中起的作用越重要 18.特征创建是指由原来的属性创建新的属性,更有效地捕捉数据集中的重要信息 19.三种创建新属性的方法是特征提取,特征构造,映射数据到新的空间 20.将连续属性变换成分类属性过程称为离散化

21.将连续和离散属性变换成一个或多个二元属性的过程称为二元化

22.连续属性离散化方法分为非监督离散化,监督离散化方法,它们的区别在于使用类信息还是不使用类信息

23.非监督离散化分为等宽,等频率,聚类方法

(完整word版)数据挖掘填空题复习资料

27数据集中任何两个对象之间的距离构成的矩阵称为距离矩阵

四、

1.区别分类与回归的关键特征是类标号必须是离散属性。 2.分类的两个主要目的是进行描述性建模和预测性建模。 3.分类模型的误差可分为训练误差和泛化误差。

4.训练误差也称再带入误差或表现误差,是在训练记录上误分类样本比例。泛化误差是模型在未知记录上的期望误差。

5.一个号的分类模型不仅要能够很好地拟合训练数据,而且对未知样本也要能准确地分类。即一个号的分类模型必须具有低训练误差和低泛化误差。

6.在分类模型评估的保持方法中,将被标记的原始数据划分成两个不相交的集合,分别称为训练集和检验集。在训练数据集归纳分类模型,在检验集上评估模型的性能。

7.在分类模型评估的K折交叉验证方法中,吧数据分为大小相同的K份,在每次运行,选择其中一份作检验集,而其余的全作为训练集。 五、

1.分类规则的质量可用规则的覆盖率和准确率表示。 2.规则集的两个重要性质是互斥规则和穷举规则。

3.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则是互斥的,这个性质确保每条记录至多被R中的一条规则覆盖。

4.如果对属性值的任意组合,R中都存在一条规则加以覆盖,则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。 5.提取分类规则的方法有直接方法和间接方法两大类。

6.提取分类规则的直接方法是指把属性空间分为较小的子空间以便于属于一个子空间的所有记录可以使用一个分类规则进行分类。

7.提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述。

(完整word版)数据挖掘填空题复习资料

8.规则的排序方案有基于规则的排序方案和基于类的排序方案两种。 9.常见的分类规则增长策略有从一般到特殊和从特殊到一般两种 第六章

1.关联规则挖掘的目的是用于发现隐藏在大型数据集中的有意义的联系。 2.满足最小支持度和最小信任度的关联规则称为强关联规则。

3.给定一个事务数据库,关联规则挖掘问题就是通过用户指定的最小支持度和最小置信度来寻找强关联规则的过程。

4.关联规则挖掘问题可以划分成频繁项集产生和规则的产生两个子问题,

5.可以降低产生频繁项集的计算复杂度两种方法为:减少候选项集的数目和减少比较次数。 6.Apriori算法有两个知名的性能瓶颈。分别是1. 0/1负载很大,需要多次扫描事务数据库。 2. 可能产生庞大的候选集。

维归约是指数据预处理的一个重要动机是减少维度 区别分类与回归的关键特征是类标号必须是离散属性

提取分类规则的直接方法是指把属性空间分为较小的子空间,以便于属于一个子空间的所有记录可以使用一个分类规则进行分类、

提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述 关联规则挖掘问题可以划分为频繁项集产生和规则的产生两个子问题

可以降低生产频繁项集的计算复杂度两种方法为减少候选项集的数目和减少比较次数 K-候选集Ck产生的方法有:蛮力方法,FK1*F1和Fk1*Fk1

Apriori算法有两个致命的性能瓶颈。1.他们分别是0/1负载很大,需要多次扫描事物数据库,2.可能产生庞大的候选集

抽样偏倚是指样本包含不同类型的对象以及他们在总体重的出现情况不成比例

特征选择过程可以看作有四个部分组成收集评估度量、控制新的特征子集产生可搜索策略、停止搜索判断和

(完整word版)数据挖掘填空题复习资料

验证过程

分类的两个主要目的是进行描述性建模和预测性建模

训练误差也称在带入误差或表现误差,是在训练记录上误分类样本比例泛化误差是模型在未知记录上的期望误差

预测建模有分类和回归两类,他们的区别在于分类用于预测额离散的目标变量,而回归用于预测连续的目标变量

特征子集的选择方法有嵌入、过滤、和包装

因篇幅问题不能全部显示,请点此查看更多更全内容