cda level 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level...

37
CDA 数据分析研究院 CDA LEVEL 2 建模分析师经典练习题及详解 来源:CDA 数据分析师大纲解析 一、 数据挖掘基础理论 1(D) Data Mining 的定义,以下哪个片段是正确的? Data Mining 是: A.从现有的小量数据中 B.只撷取非常明显 C.之前已知 D.可能有用的知识 解析: 数据挖掘是从现有的大量数据中,撷取不明显、之前未知、可能有用的知识。 2(A) KDD 是什么意思? A.数据库中的知识发掘 B.文本知识发掘 C.实时知识发掘 D.领域知识发掘 解析: KDD Knowledge Discovery in Database,是在数据库中的知识发掘。 3(B) 根据 CRISP-DM 数据挖掘方法论,以下哪个阶段耗费的时间最多 A.业务理解 B.数据准备 C.建模

Upload: others

Post on 14-Mar-2020

20 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

CDA LEVEL 2 建模分析师经典练习题及详解

来源:CDA 数据分析师大纲解析

一、 数据挖掘基础理论

1、(D)

Data Mining 的定义,以下哪个片段是正确的? Data Mining 是:

A.从现有的小量数据中

B.只撷取非常明显

C.之前已知

D.可能有用的知识

解析:

数据挖掘是从现有的大量数据中,撷取不明显、之前未知、可能有用的知识。

2、(A)

KDD 是什么意思?

A.数据库中的知识发掘

B.文本知识发掘

C.实时知识发掘

D.领域知识发掘

解析:

KDD 是 Knowledge Discovery in Database,是在数据库中的知识发掘。

3、(B)

根据 CRISP-DM 数据挖掘方法论,以下哪个阶段耗费的时间 多

A.业务理解

B.数据准备

C.建模

Page 2: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

D.模型评估

解析:

数据准备通常约占整个知识发掘处理 60%~80%的时间。

4、(C)

对于建模时输入属性(Input Attribute)的选择,下列何者较好?

A.输入属性越多越好,不需事先筛选,以免选错

B.用专家进行筛选即可,不需再用算法进行筛选,以免与专家的想法不一致

C.用专家进行筛选后,再透过算法进行验证及再次筛选后,方可建模

D.以上均可

解析:

输入属性一定需要筛选。先用专家进行筛选后,再透过算法进行验证及再

次筛选后,方可建模。

5、(D)

通过各类技术手段对数据进行划分、清理、转换和缩减,此种方法称为?

A.数据次数表(Data Frequency Table)

B.数据标准化(Data Standardization)

C.数据优化(Data Optimization)

D.数据前处理(Dara Preprocessing)

解析:

对数据进行划分、清理、转换和缩减此为数据前处理的步骤。

6、(B)

运用描述性统计和可视化的技术,对数据进行分析属于数据挖掘的哪一类

任务?

A.建模描述(Model Description)

B.探索性数据分析(Data Explore)

C.预测建模(Model Building)

D.模式发掘(Pattern Discovery)

Page 3: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

解析:

叙述性统计和可视化的技术是探索性数据分析的两个常用的方法。

7、(B)

利用极值正规化的技术,下表中 ID3 的 Income 会被正规化成何值?

A.1.00

B.0.13

C.0.75

D.0.50

解析:

利用极值正规化技术,Income 会被正规化成!"###$!####%####$!####

= 0.125 ≅ 0.13。

8、(D)

为人所熟知的啤酒与尿布的关系,是采用数据挖掘中的哪项技术?

A.分类(Classification)

B.聚类分析(Cluster Analysis)

C.预测(Prediction)

D.关联分析(Association Analysis)

解析:

啤酒与尿布是利用关联分析找出商品间被同时购买的关联性。

9、(C)

哪种分析的方法主要目的在于了解各产品间的前后购买关系及概率?

Page 4: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

A.分类(Classification)

B.聚类分析(Cluster Analysis)

C.序列分析(Sequence Patterns)

D.关联分析(Association Analysis)

解析:

关联分析是找出商品间被同时购买的关联性。而序列分析则是找出商品间

被前后购买的关系。

10、(B)

下列何者为非指导性的学习方法(Unsupervised Learning)?

A.决策树(Decision Tree)

B.序列分析(Sequential Patterns)

C.简单贝式(Naive Bayes)

D.罗吉斯回归(Logistic Regression)

解析:

非指导性的学习方法不需要目标字段。以上除序列分析外,其余均需要目

标字段。

二、 数据前处理

1、(C)

连续型变量使用以下哪种方式进行缺失值填补较合适?

A.众数

B.通用的常数项-Unknown

C.均值

D.把填补遗缺值的问题当作是分类的问题

解析:

众数、通用的常数项-Unknown、及把填补缺失值的问题当作是分类的问题

是类别型变量进行缺失值填补使用的方法。均值才是连续型变量缺失值填

补的方法之一。

Page 5: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

2、(B)

当一个连续变量的缺失值占比在 85%左右时,以下哪种方式 合理?

A.直接使用该变量,不填补缺失值

B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量

C.使用多重查补的方法进行缺失值填补

D.使用中位数进行缺失值填补

解析:

缺失值的占比超过 50%以上时,此字段通常会舍弃不用,不做任何填补。但

另一种可能的处理的方式为将此字段的值根据是否缺失,生成指示变量,

将原字段舍弃,并仅使用此指示变量作为输入变量。数据的缺失隐含着与

某些行为有关联性时,使用此方法通常会有不错的分析成效。

3、(BD)

以下哪个方法属于盖帽法

A.删去大于三倍标准差的值

B.距离均值大于三倍标准差的值使用三倍标准差的值替代

C.删去 1.5 倍 IQR 的值

D.超出 1.5 倍 IQR 的值使用 1.5 倍 IQR 的值替代

解析:

盖帽法(天花板/地板法)是处理离群值的方法之一。可将距离均值大于三倍

标准差的值使用三倍标准差的值替代,或将超出 1.5 倍 IQR 的值使用 1.5 倍

IQR 的值替代。

4、(D)

关于离散化下列何者错误?

A.等宽离散化中每个区间的 Range 都是一样的

B.等宽离散化中每个区间中不一定有数据

C.离散化的其中一个目的是稳定模型的效能

D.等分离散化需要参考目标字段

Page 6: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

解析:

等宽与等分离散化与目标字段无关,不需要参考目标字段。

5、(B)

将复杂的地址简化成北、中、南、东四区,是在进行?

A.数据正规化(Normalization)

B.数据一般化(Generalization)

C.数据离散化(Discretization)

D.数据整合(Integration)

解析:

将地址简化成北、中、南、东四区,是数据一般化(Data Generalization)的技

术。

6、(D)

在使用历史数据构造训练集(Training)、验证(Validation)集和测试(Test)集时,

以下哪个样本量分配方案比较适合?

A.训练 50%,验证 0%,测试 50%

B.训练 100%,验证 0%,测试 0%

C.训练 0%,验证 100%,测试 0%

D.训练 60%,验证 30%,测试 10%

解析:

训练集的目的是构造预测模型;验证集的目的是修正预测模型;检验集/测

试集的目的是测试预测模型。三者缺一不可。

7、(C)

在使用历史数据构造训练(Train)集、验证(Validation)集和测试(Test)集时,训

练数据集的作用在于

A.用于对模型的效果进行无偏的评估

B.用于比较不同模型的预测准确度

C.用于构造预测模型

D.用于选择模型

Page 7: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

解析:

训练集的目的是构造预测模型;验证集的目的是修正预测模型;检验集/测

试集的目的是测试预测模型。

8、(AD)

无效变量包含以下哪些?

A.多余变量(Redundancy Variables)

B.输入变量(Input Variables)

C.条件变量(Conditional Variables)

D.不相关变量(Irrelevancy Variables)

解析:

无效变量包含多余变量及不相关变量。

9、(ABC)

以下哪种方法可以用于连续变量的压缩

A.因子分析

B.变量聚类

C.主成分分析

D.样本聚类

解析:

连续变量的压缩包含主成分分析、因子分析及变量聚类。分类变量的压缩

包含水平聚类及 WOE 打分。

三、 预测型数据挖掘模型

l 朴素贝叶斯

1、(C)

观察某航空公司男女搭机的行为:假设搭机中 65%是女性,剩余的是男性。

女性搭头等舱的概率是 30%,而男性搭头等舱的概率是 75%。请问搭头等舱的人

中,有多少概率是男生?

A.0.4262

B.0.2651

Page 8: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

C.0.5738

D.0.7375

解析:

此为贝式网络的应用。搭头等舱的人中,有多少概率是男生=P(男生|头等

舱)=P 头等舱 男生 × 0 男生

0 头等舱= 0.75× #.2"

0 头等舱= #.!%!"

0 头等舱。搭头等舱的人中,

有 多 少 概 率 是 女 生 =P( 女 生 | 头 等 舱 )=P 头等舱 女生 × 0 女生

0 头等舱= 0.3×

#.%"0 头等舱

= #.34"0 头等舱

。又 P(女生|头等舱)+P(男生|头等舱)=1.0。因此,P(头等

舱)=0.2625+0.195=0.4575。故 P(男生|头等舱)=#.!%!"#.5"6"

=0.5738。

2、(D)

如何利用「体重」以简单贝叶斯分类(Naive Bayes)预测「性别」?

A.选取另一条件属性

B.无法预测

C.将体重正规化为 0~1 之间

D.将体重离散化

解析:

简单贝叶斯分类对连续变量的处理方式有二。一是将连续变量进行离散化

的处理,一是将连续变量以常态分配的方式估计其概率值。

3、(B)

简单贝叶斯分类(Naive Bayes)可以用来预测何种数据型态?

A.数值

B.类别

C.时间

D.以上皆是

解析:

简单贝叶斯分类仅可用于建立分类模型。故可以用来预测一个东西的类别。

Page 9: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

l 线性回归

1、(C)

給定一个训练数据集如下:

X(年资:单

位年)

Y(薪水:单

位 K)

3 30

8 57

9 64

13 72

3 36

6 43

11 59

21 90

1 20

16 83

请计算出线性回归(Linear Regression)方程式 Y=a+bX 中的a值?

A.14.5

B.32.0

C.23.6

D.4.9

解析:

简单线性回归中计算a及b值非常的简单。计算如下:

Page 10: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

l 决策树

1、(A)

下列哪种决策树的砍树方法有使用到验证数据(Validation Data)?

A.CART(Classification And Regression Tree)

B.ID3

C.C4.5

D.以上皆非

解析:

CART 的砍树方法有使用到验证数据。ID3 及 C4.5 则使用推估的公式来预测

真实的错误率,并用它来决定砍树的结果。

2、(C)

下列何者不是决策树字段选择的度量?

A.信息增益(Information Gain)

B.卡方统计量(X2 Statistics)

C.支持度(Support)

D.基尼系数(Gini Index)

解析:

信息增益(Information Gain)是 ID3 决策树算法选择字段的度量。卡方统计

量(X2Statistics)是 CHAID 决策树算法选择字段的度量。基尼系数(Gini Index)

是 CART 决策树算法选择字段的度量。支持度(Support)是关联分析中所使

用的度量。

3、(C)

决策树建模时一个必要的步骤是决策树的修剪,下列何者不是决策树需要修

剪的原因?

A.为避免数据中的噪声影响建树的结果

Page 11: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

B.为了得到较一般化的决策规则

C.为了节省建模所需的时间

D.为了能在测试数据集中得到较好的预测结果

解析:

决策树的修剪是为了避免建模时所产生的 Overfitting 现象,使得在测试数

据集中得到较好的预测结果,并得到较一般化的决策规则。同时,可以避免

数据中的噪声影响建树的结果。

4、(D)

给定一个数据集如下:

请问字段 age 的 Information Gain 为多少?

A.0.048

B.0.151

C.0.029

D.0.246

解析:

age 的 Information Gain,可以用以下的方式加以计算:

Page 12: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

未选择属性切割数据前的 Entropy:

选择属性 Age 切割数据后的 Entropy:

两者相减就得到 Information Gain:

l 神经网络

1、(D)

下列何者不是神经网络的变形?

A.罗吉斯回归

B.线性回归

C.非线性回归

D.时间序列

解析:

不同神经网络的架设方式可以变形为线性回归、二元罗吉斯回归、多元罗

吉斯回归及非线性回归。

下图为类神经元的示意图,请回答以下问题:

Page 13: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

2、(A)

请问虚线的部分为?

A.类神经元

B.键结值(Weight)

C.阀值(Bias)

D.激发函数(Activation Function)

解析:

类神经元(Neuron)又名细胞核或细胞本体(Cell Body)。

3、(D)

请问 ()为?

A.类神经元

B.键结值(Weight)

C.阀值(Bias)

D.激发函数(Activation Function)

解析:

激发函数(Activation Function)又名 S 型函数(Sigmoid Function)或罗吉斯函

数(Logit Function)。

4、(B)

请问 W1,W2,…,Wm 为?

A.类神经元

B.权重值(Weight)

C.阀值(Bias)

D.激发函数(Activation Function)

Page 14: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

解析:

权重值(Weight)是神经键上的权重。

l 逻辑斯回归

1、(C)

罗吉斯回归(Logistic Regression)可以用来解决线性回归(Linear Regression)

中的什么问题?

A.属性挑选不易

B.受离群值影响过大

C.预测结果不符合实际应用情况

D.训练时间过长

解析:

线性回归是一个发散型方程式,在许多应用上会有不适合的情形发生。例

如,老鼠死亡率(P)与毒物用量(Drag Volume)之间的关系,会有超过 100%或

低于 0%的情形发生,如下图所示。

由上例可知,在许多应用上我们应该将线性回归的值压制在 0~1 之间,才

能产生出合理的值。Logistic Regression 就是将线性回归所产生的值带入

Logistic Function,以将输出值压制在 0~1 之间,如下图所示。

Page 15: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

2、(A)

在罗吉斯回归(Logistic Regression)中,Logit 转换的作用是?

A.让预测的机率值落在正常的区间

B.将预测结果反推为自变量的因果关系

C.让自变数的值平滑化

D.让方程式挑选的属性之间的共线性下降

解析:

Logit 转换的作用是让预测的机率值落在正常的 0~1 之间。

3、(A)

在使用回归(Regression)的方法中,反复将贡献度 大的变量放入模型中的

方法为何?

A.向前选择法(Forward)

B.递归选择法(Recursion)

C.逐步回归法(Stepwise)

D.向后淘汰法(Backward)

解析:

在回归(Regression)的方法中,反复将贡献度 大的变量放入模型中的方法

向前选择法。

l 支持向量机

1、(ABCD)

Page 16: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

关于支持向量机(Support Vector Machine)下列何者正确?

A.支持向量机可处理分类的问题

B.支持向量机可处理线性的问题

C.支持向量机可处理非线性的问题

D.支持向量机可预测数值

解析:

支持向量机(Support Vector Machine) 可处理分类及数值预测的问题。同时,

针对线性及非线性的问题,支持向量机均能有效的解决。

l 集成方法

1、(ABD)

下列何者是通过聚集多个分类器的组合来提高分类准确率的技术?

A.袋装法(Bagging)

B.提升法(Boosting)

C.支持向量机(Support Vector Machine)

D.随机森林(Random Forest)

解析:

通过聚集多个分类器的组合来提高分类准确率的技术称之为集成法

(Ensemble Methods)。集成法中又以袋装法(Bagging)、提升法(Boosting)、

以及随机森林(Random Forest)最为著名。

l 模型评估

根据下表的混乱矩阵(Confusion Matrix),回答以下问题:

1、(A)

对于属性值 YES 的响应率(Precision)应如何计算?

True Results

Predicted Results YES NO

YES A B

NO C D

Page 17: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

A. 7789

B.

C.

D.

解析:

在营销上,Precision 称之为响应率。在风控上,Precision 称之为命中率。

2、(B)

对于属性值 YES 的捕捉率(Recall)应如何计算?

A. 7789

B.

C.

D.

解析:

在营销上,Recall 称之为捕捉率。在风控上,Precision 称之为查全率。

四、 描述型数据挖掘模型

l 决策树

1、(B)

在 聚 类 (Clustering) 的 问 题 中 , 根 据 马 氏 距 离 测 量 (Manhattan Distance

Measure)方法,下表中数据 A 与数据 B 之间的距离为何?

A.0.4

Page 18: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

B.0.5

C.0.6

D.0.7

数据 Age(20~80) Income(25000~85000)

A 20 32000

B 35 47000

解析:

马氏距离 (Manhattan Distance)又称之为直角距离。

2、(C)

下列组别何者属于聚类 (Clustering)的算法?(A:K-means; B:Decision Tree;

C:EM; D:Neural Network; E:Apriori)

A.AB

B.BE

C.AC

D.CDE

解析:

K-means 及 EM 是著名的聚类(Clustering)算法。Decision Tree 及 Neural

Network 是预测行数据挖掘的著名模型。Apriori 则为关联分析的著名模型。

l 关联规则

1、(B)

有一条关联规则为X→Y,此规则的支持度为25%、信赖度(Confidence)为50%、

单独出现 X 的概率为 50%、单独出现 Y 的概率为 25%,则此规则的提升度(Lift)为?

A.2.5

B.2.0

C.1.5

D.2.3

Page 19: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

解析:

此规则的提升度(Lift)= 0(;,=)0(;)×0(=)

= #.!"#."×#.!"

= 2.0。

2、(D)

130 笔的交易数据中,购买面包的交易有 80 笔,买面包同时也买牛奶的笔

数有 64 笔,求算购买面包的人是否也会购买牛奶的信赖度(Confidence)为何?

A.85.5%

B.50%

C.75.3%

D.80.0%

解析:

信赖度(Confidence)= P(购买牛奶|购买面包) 0 购买面包,购买牛奶

0 购买面包= %5

@#= 0.8。

3、(A,B,C)

下表为一事务数据库,若最小支持度(Minimum Support)=50%,则以下哪些

是长度为 2 的频繁项目集(Frequent Itemset)?

A.BE

B.AC

C.BC

D.AB

解析:

各个项目集出现的次数及支持度分别如下:

TID ItemsBought

1 A,C,D

2 B,C,E

3 A,B,C,E

4 B,E

Page 20: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

Itemset Support Count Support

BE 3 0.75

AC 2 0.5

BC 2 0.5

AB 1 0.25

l 序列模式

1、(ABD)

关于序列模式(Sequential Patterns)下列何者正确?

A.序列模式须考虑时间

B.序列模式须考虑支持度

C.序列模式须考虑季节性

D.序列模式须考虑信赖度

解析:

序列模式是找出产品间先后购买的关联性。它需考虑时间、支持度、及信赖

度。季节性是时间序列(Time Series)模型所需考虑的。

五、 案例操作及解析

案例操作解析及典型示例

案例的操作是所有理论与实务的总合,需具备以下的知识及软件的处理能力:

一、数据的处理

1. 运用数据挖掘软件读入不同格式的数据文件。

2. 应用数据挖掘软件进行数据探索,包括特征的分布分析,异常值、缺失

值的分析和处理。

3. 运用数据挖掘软件进行关键变量的挖掘。同时,评估不同的关键变量选

择方法对模型效能的影响。

4. 能够使用数据挖掘软件根据数据的特征及问题的背景构造衍生变量,并

Page 21: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

且评估扩充前后对模型效能的提升程度。

5. 能够使用数据挖掘软件实现常用的数据变换、数据规约、离散化处理并

能够评估数据处理方法对模型效能的影响。

二、有监督学习

内容包括 近邻(KNN)、线性回归、贝叶斯网络、决策树(C4.5,CART,CHAID)、

神经网络(多层感知机)、logistic 回归、支持向量机、集成方法(袋装、提升)。要

求如下:

1. 理解如何评估模型效果,能运用数据挖掘软件进行数据集的分区(能将数

据切割为训练、验证及测试数据集)。

2. 能运用数据挖掘软件建立模型,能理解模型参数的含义。

3. 能解读模型结果,并运用指标及图形(正确率、响应率、捕捉率、F-指标、

KS Chart、ROC Chart、GINI Chart、Response Chart、Gain Chart、Lift Chart、

Profit Chart、Average Squared Error)来比较不同模型间的优略。

4. 对于分类问题,会使用代价矩阵和样本平衡方法来解决样本集中目标类

的分布不均衡所带来的问题。

三、无监督学习

1. 聚类分析:运用数据挖掘软件建立常用聚类模型(K-means,Two-Steps),

分析变量重要性及各个簇的特征,并提供营销建议。

2. 关联规则:运用数据挖掘软件建立关联规则模型,解读模型结果,并提

供营销建议。会使用软件处理负向关联规则及概念分层问题。

典型示例:

对电信公司的用户促销其感兴趣的电信服务,是公司会持续获利的模式之一。

某电信公司想针对手机用户推广新的网络服务,希望从用户过去跟公司往来的数

据中,运用数据挖掘(Data Mining)中的分类(Classification)技术,分析出会影响用

户接受新网络服务的相关因素,并建立能预测用户是否会对新网络服务感兴趣的

数据挖掘分类模型。此电信数据集共有 13 个字段,其中 11 个是输入字段,1 个

用户代码字段,一个目标字段(BROADBAND)。字段的说明如下:

Page 22: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

字段名称 类型 标签 角色

CUST_ID 数值型 用户代码 身份 ID

GENDER 类别型 性别 输 入 字 段 (Input

Attribute)

AGE 数值型 年龄 输 入 字 段 (Input

Attribute)

TENURE 数值型 申办门号月份数 输 入 字 段 (Input

Attribute)

CHANNEL 类别型 申办通路 输 入 字 段 (Input

Attribute)

AUTOPAY 类别型 自动转账扣缴 输 入 字 段 (Input

Attribute)

ARPB_3M 数值型 近 3 个月平均电话

输 入 字 段 (Input

Attribute)

CALL_PARTY_CN

T

数值型 拨出号码数 输 入 字 段 (Input

Attribute)

DAY_MOU 数值型 白天通话分钟数 输 入 字 段 (Input

Attribute)

AFTERNOON_M

OU

数值型 下午通话分钟数 输 入 字 段 (Input

Attribute)

NIGHT_MOU 数值型 夜间通话分钟数 输 入 字 段 (Input

Attribute)

AVG_CALL_LENG

TH

数值型 平均通话长度 输 入 字 段 (Input

Attribute)

BROADBAND 类别型 接受服务注记 目 标 字 段 (Target

Attribute)

此电信数据集已被切割成训练数据集(Training Data)及测试数据集(Test

Data)。请根据这两个数据集回答以下的问题。

1、(C)

在训练数据集中,有接受服务(BROADBAND=1)的用户比例为何?

Page 23: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

A.81.48%

B.18.39%

C.18.52%

D.18.61%

解析:

在训练数据集中,有接受服务(BROADBAND=1)的用户比例为 18.52%,如下

图。

2、(BC)

在训练数据集中,哪两个申办通路(CHANNEL)用户接受服务的比例较高?

A.1

B.2

C.3

D.4

解析:

在训练数据集中,申办通路(CHANNEL)用户接受服务的比例,如下图。其中,

申办通路 2 及 3 的用户接受服务的比例较高。

3、(AB)

Page 24: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

在训练数据集中,以下那些描述是正确的?

A.用户往来期间(TENURE)越高者,接受服务的比例越高

B.年纪(AGE)越大者,接受服务的比例越高

C. 近 3 个月平均电话费(ARPB_3M)越高者,接受服务的比例越低

D.有办自动转账扣缴(AUTOPAY)者,接受服务的比例越高

解析:

用户往来期间(TENURE)越高者,接受服务的比例越高,如下图。

用户年纪(AGE) 越大者,接受服务的比例越高,如下图。

近 3 个月平均电话费(ARPB_3M)越高者,接受服务的比例越高,如下图。

Page 25: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

有办自动转账扣缴(AUTOPAY)者,接受服务的比例越低,如下图。

4、(ABC)

在训练数据集中,以下那些字段的分布是属于右偏(Right Skewness)?

A.ARPB_3M

B.TENURE

C.NIGHT_MOU

D.以上皆非

解析:

由下图可以得知,ARPB_3M, TENURE 及 NIGHT_MOU,都是属于右偏

(Right Skewness)。

Page 26: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

5、(ACD)

在训练数据集中,以平均值法来侦测离群值(Outlier),以下那些字段会有离

群值的出现?

A.AGE

B.TENURE

C.AFTERNOON_MOU

D.DAY_MOU

解析:

由下图可以得知,AGE, AFTERNOON_MOU 及 DAY_MOU,有离群值(偏离

值+极端值)的出现。

6、(C)

Page 27: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

在训练数据集中, 近 3 个月平均电话费(ARPB_3M)经分析也有严重的离群

值出现,利用平均值法计算出其值的上限为 625。请将 ARPB_3M>=625 的记录

筛选出来,其有接受服务(BROADBAND=1)的用户比例为何?

A.70.23%

B.14.29%

C.85.71%

D.65.71%

解析:

筛选后,有接受服务(BROADBAND=1)的用户比例为 85.71%,如下图。

7、(AD)

下列的描述何者是正确的?

A.无效的字段包含不相关(Irrelevant)及多余(Redundant)的字段

B.多余的字段可透过统计的检定来加以排除

C.可用卡方检定来检定 TENUNE 与目标字段 BROADBAND 的相关性

D.可用 AVOVA 检定来检定 AFTERNOON_MOU 与目标字段 BROADBAND 的

相关性

解析:

无效的字段包含不相关(Irrelevant)及多余(Redundant)的字段。多余的字段

无法透过统计的检定来加以排除。统计检定可以排除不相关字段。TENUNE

是数值型字段,不可用卡方检定来检定 TENUNE 与目标字段 BROADBAND

的相关性。可用 AVOVA 检定来检定数值型字段与类别型目标字段的相关

性。

8、(D)

在训练数据集中,请根据统计的检定的计算结果,分析以下哪个字段是 不

重要的字段?

A.TENURE

Page 28: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

B.AGE

C.AVG_CALL_LENGTH

D.NIGHT_MOU

解析:

利用 ANOVA 检定的计算结果, 不重要的字段为 NIGHT_MOU,如下图。

9、(B)

以下是利用 Gain Chart 来评估在训练数据上,整体上哪个算法的建模结果

较好。请根据下图排序 3 个模型的优劣,并选择以下 好的答案?

A.Bayes Net 优于 Logistic Regression 优于 C4.5

B.C4.5 优于 Bayes Net 优于 Logistic Regression

C.Bayes Net 优于 C4.5 优于 Logistic Regression

D.以上皆非

解析:

根据下图的 Gain Chart,C4.5 优于 Bayes Net,Bayes Net 优于 Logistic

Regression。

Page 29: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

10、(C)

以下是在测试数据上的 Gain Chart,比较训练与测试数据上 Gain Chart 的表

现,哪个模型是稳定领先?

A.Bayes Net

B.Logistic Regression

C.C4.5

D.以上皆是

解析:

根据下图测试数据上的 Gain Chart 以及训练数据上的 Gain Chart,C4.5 是

稳定领先的模型。

Page 30: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

Page 31: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

一家银行希望使用客户的相关讯息来将全行客户分群,以利后续相关营销活

动的规划及进行。该数据保存在 banking_cust 这张表中。其中 CID 为顾客身分

ID,不作为聚类所用的输入字段。Sex 及 Marriage 也仅仅作为参考字段,不作为

聚类所用的输入字段。除此之外的其它变量(Income 及 Age)可以用于构造聚类模

型。具体的变量描述如下:

字段名称 类型 标签 角色

CID 数值 客户代码 身份 ID

Income 数值 客户年收入 输入字段(Input Attribute)

Sex 字符 性别 參 考 字 段 (Reference

Attribute)

Age 数值 客户年龄 输入字段(Input Attribute)

Marriage 字符 客 户 婚 姻 状

參 考 字 段 (Reference

Attribute)

假设银行想利用 K-means 的算法来将客户分成 3 群。请使用任何软件完成

以下题目:

11、(A)

数据集的大小(笔数)为何?

A.30

B.31

C.29

D.28

Page 32: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

12、(B)

Income 的标准差为多少?

A.44.231

B.46.294

C.33.245

D.55.121

13、(B)

用 K-means 聚类后,笔数 少的群有多少笔数据?

A.10

B.2

C.8

D.7

Page 33: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

请移除笔数 少的群的数据,然后再利用 K-means(K 设为 3)进行聚类一次。

输入变量一样使用 Income 及 Age。

14、(A)

移除笔数 少的群的数据后,Income 的标准差为多少?

A.25.016

B.33.271

C.52.016

D.46.251

15、(C)

Page 34: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

再次进行聚类聚类后,笔数 少的群有多少笔数据?

A.10

B.4

C.2

D.7

请再次移除笔数 少的群的数据,然后再利用 K-means(K 设为 3)进行聚类

一次。输入变量一样使用 Income 及 Age。

16、(C)

移除数据前后,Age 的标准差的差值为多少?

A.15.297

B.8.412

C.5.297

D.4.143

Page 35: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

17、(C)

进行聚类聚类后,3 群分别有多少笔数据?

A.10/10/10

B.9/8/7

C.8/10/8

D.7/10/6

18、(A)

Page 36: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

后过滤掉多少笔离群值的数据?

A.4

B.3

C.2

D.5

先后过滤掉 4 笔(2 笔+2 笔)

19、(A)

笔数 多的那一群,其特征描述为何?

A.年纪不轻,收入少

B.年纪轻,收入高

C.年纪高,收入高

D.年纪高,收入少

20、(B)

笔数 多的那一群,其男生的比例为何?

A.60%

B.80%

C.50%

D.70%

Page 37: CDA LEVEL 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level 2建模分析师经典练习题及详解 来源:cda数据分析师大纲解析 一、 数据挖掘基础理论

CDA 数据分析研究院

CDA 认证考试报名唯一通道:http://exam.cda.cn/