cda level 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level...

CDA 数据分析研究院

CDA LEVEL 2 建模分析师经典练习题及详解

来源：CDA 数据分析师大纲解析

一、数据挖掘基础理论

1、(D)

Data Mining 的定义，以下哪个片段是正确的? Data Mining 是：

A.从现有的小量数据中

B.只撷取非常明显

C.之前已知

D.可能有用的知识

解析：

数据挖掘是从现有的大量数据中，撷取不明显、之前未知、可能有用的知识。

2、(A)

KDD 是什么意思？

A.数据库中的知识发掘

B.文本知识发掘

C.实时知识发掘

D.领域知识发掘

解析：

KDD 是 Knowledge Discovery in Database，是在数据库中的知识发掘。

3、(B)

根据 CRISP-DM 数据挖掘方法论，以下哪个阶段耗费的时间多

A.业务理解

B.数据准备

C.建模


D.模型评估

解析：

数据准备通常约占整个知识发掘处理 60%~80%的时间。

4、(C)

对于建模时输入属性(Input Attribute)的选择，下列何者较好？

A.输入属性越多越好，不需事先筛选，以免选错

B.用专家进行筛选即可，不需再用算法进行筛选，以免与专家的想法不一致

C.用专家进行筛选后，再透过算法进行验证及再次筛选后，方可建模

D.以上均可

解析：

输入属性一定需要筛选。先用专家进行筛选后，再透过算法进行验证及再

次筛选后，方可建模。

5、(D)

通过各类技术手段对数据进行划分、清理、转换和缩减，此种方法称为？

A.数据次数表(Data Frequency Table)

B.数据标准化(Data Standardization)

C.数据优化(Data Optimization)

D.数据前处理(Dara Preprocessing)

解析：

对数据进行划分、清理、转换和缩减此为数据前处理的步骤。

6、(B)

运用描述性统计和可视化的技术，对数据进行分析属于数据挖掘的哪一类

任务？

A.建模描述(Model Description)

B.探索性数据分析(Data Explore)

C.预测建模(Model Building)

D.模式发掘(Pattern Discovery)


解析：

叙述性统计和可视化的技术是探索性数据分析的两个常用的方法。

7、(B)

利用极值正规化的技术，下表中 ID3 的 Income 会被正规化成何值？

A.1.00

B.0.13

C.0.75

D.0.50

解析：

利用极值正规化技术，Income 会被正规化成!"###$!####%####$!####

= 0.125 ≅ 0.13。

8、(D)

为人所熟知的啤酒与尿布的关系，是采用数据挖掘中的哪项技术?

A.分类(Classification)

B.聚类分析(Cluster Analysis)

C.预测(Prediction)

D.关联分析(Association Analysis)

解析：

啤酒与尿布是利用关联分析找出商品间被同时购买的关联性。

9、(C)

哪种分析的方法主要目的在于了解各产品间的前后购买关系及概率？


A.分类(Classification)

B.聚类分析(Cluster Analysis)

C.序列分析(Sequence Patterns)

D.关联分析(Association Analysis)

解析：

关联分析是找出商品间被同时购买的关联性。而序列分析则是找出商品间

被前后购买的关系。

10、(B)

下列何者为非指导性的学习方法(Unsupervised Learning)？

A.决策树(Decision Tree)

B.序列分析(Sequential Patterns)

C.简单贝式(Naive Bayes)

D.罗吉斯回归(Logistic Regression)

解析：

非指导性的学习方法不需要目标字段。以上除序列分析外，其余均需要目

标字段。

二、数据前处理

1、(C)

连续型变量使用以下哪种方式进行缺失值填补较合适？

A.众数

B.通用的常数项-Unknown

C.均值

D.把填补遗缺值的问题当作是分类的问题

解析：

众数、通用的常数项-Unknown、及把填补缺失值的问题当作是分类的问题

是类别型变量进行缺失值填补使用的方法。均值才是连续型变量缺失值填

补的方法之一。


2、(B)

当一个连续变量的缺失值占比在 85%左右时，以下哪种方式合理？

A.直接使用该变量，不填补缺失值

B.根据是否缺失，生成指示变量，仅使用指示变量作为解释变量

C.使用多重查补的方法进行缺失值填补

D.使用中位数进行缺失值填补

解析：

缺失值的占比超过 50%以上时，此字段通常会舍弃不用，不做任何填补。但

另一种可能的处理的方式为将此字段的值根据是否缺失，生成指示变量，

将原字段舍弃，并仅使用此指示变量作为输入变量。数据的缺失隐含着与

某些行为有关联性时，使用此方法通常会有不错的分析成效。

3、(BD)

以下哪个方法属于盖帽法

A.删去大于三倍标准差的值

B.距离均值大于三倍标准差的值使用三倍标准差的值替代

C.删去 1.5 倍 IQR 的值

D.超出 1.5 倍 IQR 的值使用 1.5 倍 IQR 的值替代

解析：

盖帽法(天花板/地板法)是处理离群值的方法之一。可将距离均值大于三倍

标准差的值使用三倍标准差的值替代，或将超出 1.5 倍 IQR 的值使用 1.5 倍

IQR 的值替代。

4、(D)

关于离散化下列何者错误？

A.等宽离散化中每个区间的 Range 都是一样的

B.等宽离散化中每个区间中不一定有数据

C.离散化的其中一个目的是稳定模型的效能

D.等分离散化需要参考目标字段


解析：

等宽与等分离散化与目标字段无关，不需要参考目标字段。

5、(B)

将复杂的地址简化成北、中、南、东四区，是在进行？

A.数据正规化(Normalization)

B.数据一般化(Generalization)

C.数据离散化(Discretization)

D.数据整合(Integration)

解析：

将地址简化成北、中、南、东四区，是数据一般化(Data Generalization)的技

术。

6、(D)

在使用历史数据构造训练集(Training)、验证(Validation)集和测试(Test)集时，

以下哪个样本量分配方案比较适合？

A.训练 50%，验证 0%，测试 50%

B.训练 100%，验证 0%，测试 0%

C.训练 0%，验证 100%，测试 0%

D.训练 60%，验证 30%，测试 10%

解析：

训练集的目的是构造预测模型；验证集的目的是修正预测模型；检验集/测

试集的目的是测试预测模型。三者缺一不可。

7、(C)

在使用历史数据构造训练(Train)集、验证(Validation)集和测试(Test)集时，训

练数据集的作用在于

A.用于对模型的效果进行无偏的评估

B.用于比较不同模型的预测准确度

C.用于构造预测模型

D.用于选择模型


解析：

训练集的目的是构造预测模型；验证集的目的是修正预测模型；检验集/测

试集的目的是测试预测模型。

8、(AD)

无效变量包含以下哪些？

A.多余变量(Redundancy Variables)

B.输入变量(Input Variables)

C.条件变量(Conditional Variables)

D.不相关变量(Irrelevancy Variables)

解析：

无效变量包含多余变量及不相关变量。

9、(ABC)

以下哪种方法可以用于连续变量的压缩

A.因子分析

B.变量聚类

C.主成分分析

D.样本聚类

解析：

连续变量的压缩包含主成分分析、因子分析及变量聚类。分类变量的压缩

包含水平聚类及 WOE 打分。

三、预测型数据挖掘模型

l 朴素贝叶斯

1、(C)

观察某航空公司男女搭机的行为：假设搭机中 65%是女性，剩余的是男性。

女性搭头等舱的概率是 30%，而男性搭头等舱的概率是 75%。请问搭头等舱的人

中，有多少概率是男生？

A.0.4262

B.0.2651


C.0.5738

D.0.7375

解析：

此为贝式网络的应用。搭头等舱的人中，有多少概率是男生=P(男生|头等

舱)=P 头等舱男生 × 0 男生

0 头等舱= 0.75× #.2"

0 头等舱= #.!%!"

0 头等舱。搭头等舱的人中，

有多少概率是女生 =P( 女生 | 头等舱 )=P 头等舱女生 × 0 女生

0 头等舱= 0.3×

#.%"0 头等舱

= #.34"0 头等舱

。又 P(女生|头等舱)+P(男生|头等舱)=1.0。因此，P(头等

舱)=0.2625+0.195=0.4575。故 P(男生|头等舱)=#.!%!"#.5"6"

=0.5738。

2、(D)

如何利用「体重」以简单贝叶斯分类(Naive Bayes)预测「性别」？

A.选取另一条件属性

B.无法预测

C.将体重正规化为 0~1 之间

D.将体重离散化

解析：

简单贝叶斯分类对连续变量的处理方式有二。一是将连续变量进行离散化

的处理，一是将连续变量以常态分配的方式估计其概率值。

3、(B)

简单贝叶斯分类(Naive Bayes)可以用来预测何种数据型态？

A.数值

B.类别

C.时间

D.以上皆是

解析：

简单贝叶斯分类仅可用于建立分类模型。故可以用来预测一个东西的类别。


l 线性回归

1、(C)

給定一个训练数据集如下：

X(年资：单

位年)

Y(薪水：单

位 K)

3 30

8 57

9 64

13 72

3 36

6 43

11 59

21 90

1 20

16 83

请计算出线性回归(Linear Regression)方程式 Y=a+bX 中的a值？

A.14.5

B.32.0

C.23.6

D.4.9

解析：

简单线性回归中计算a及b值非常的简单。计算如下：


l 决策树

1、(A)

下列哪种决策树的砍树方法有使用到验证数据(Validation Data)？

A.CART(Classification And Regression Tree)

B.ID3

C.C4.5

D.以上皆非

解析：

CART 的砍树方法有使用到验证数据。ID3 及 C4.5 则使用推估的公式来预测

真实的错误率，并用它来决定砍树的结果。

2、(C)

下列何者不是决策树字段选择的度量？

A.信息增益(Information Gain)

B.卡方统计量(X2 Statistics)

C.支持度(Support)

D.基尼系数(Gini Index)

解析：

信息增益(Information Gain)是 ID3 决策树算法选择字段的度量。卡方统计

量(X2Statistics)是 CHAID 决策树算法选择字段的度量。基尼系数(Gini Index)

是 CART 决策树算法选择字段的度量。支持度(Support)是关联分析中所使

用的度量。

3、(C)

决策树建模时一个必要的步骤是决策树的修剪，下列何者不是决策树需要修

剪的原因？

A.为避免数据中的噪声影响建树的结果


B.为了得到较一般化的决策规则

C.为了节省建模所需的时间

D.为了能在测试数据集中得到较好的预测结果

解析：

决策树的修剪是为了避免建模时所产生的 Overfitting 现象，使得在测试数

据集中得到较好的预测结果，并得到较一般化的决策规则。同时，可以避免

数据中的噪声影响建树的结果。

4、(D)

给定一个数据集如下：

请问字段 age 的 Information Gain 为多少？

A.0.048

B.0.151

C.0.029

D.0.246

解析：

age 的 Information Gain，可以用以下的方式加以计算：


未选择属性切割数据前的 Entropy：

选择属性 Age 切割数据后的 Entropy：

两者相减就得到 Information Gain：

l 神经网络

1、(D)

下列何者不是神经网络的变形？

A.罗吉斯回归

B.线性回归

C.非线性回归

D.时间序列

解析：

不同神经网络的架设方式可以变形为线性回归、二元罗吉斯回归、多元罗

吉斯回归及非线性回归。

下图为类神经元的示意图，请回答以下问题：


2、(A)

请问虚线的部分为？

A.类神经元

B.键结值(Weight)

C.阀值(Bias)

D.激发函数(Activation Function)

解析：

类神经元(Neuron)又名细胞核或细胞本体(Cell Body)。

3、(D)

请问 ()为？

A.类神经元

B.键结值(Weight)

C.阀值(Bias)


解析：

激发函数(Activation Function)又名 S 型函数(Sigmoid Function)或罗吉斯函

数(Logit Function)。

4、(B)

请问 W1,W2,…,Wm 为？

A.类神经元

B.权重值(Weight)

C.阀值(Bias)



解析：

权重值(Weight)是神经键上的权重。

l 逻辑斯回归

1、(C)

罗吉斯回归(Logistic Regression)可以用来解决线性回归(Linear Regression)

中的什么问题？

A.属性挑选不易

B.受离群值影响过大

C.预测结果不符合实际应用情况

D.训练时间过长

解析：

线性回归是一个发散型方程式，在许多应用上会有不适合的情形发生。例

如，老鼠死亡率(P)与毒物用量(Drag Volume)之间的关系，会有超过 100%或

低于 0%的情形发生，如下图所示。

由上例可知，在许多应用上我们应该将线性回归的值压制在 0~1 之间，才

能产生出合理的值。Logistic Regression 就是将线性回归所产生的值带入

Logistic Function，以将输出值压制在 0~1 之间，如下图所示。


2、(A)

在罗吉斯回归(Logistic Regression)中，Logit 转换的作用是？

A.让预测的机率值落在正常的区间

B.将预测结果反推为自变量的因果关系

C.让自变数的值平滑化

D.让方程式挑选的属性之间的共线性下降

解析：

Logit 转换的作用是让预测的机率值落在正常的 0~1 之间。

3、(A)

在使用回归(Regression)的方法中，反复将贡献度大的变量放入模型中的

方法为何？

A.向前选择法(Forward)

B.递归选择法(Recursion)

C.逐步回归法(Stepwise)

D.向后淘汰法(Backward)

解析：

在回归(Regression)的方法中，反复将贡献度大的变量放入模型中的方法

向前选择法。

l 支持向量机

1、(ABCD)


关于支持向量机(Support Vector Machine)下列何者正确？

A.支持向量机可处理分类的问题

B.支持向量机可处理线性的问题

C.支持向量机可处理非线性的问题

D.支持向量机可预测数值

解析：

支持向量机(Support Vector Machine) 可处理分类及数值预测的问题。同时，

针对线性及非线性的问题，支持向量机均能有效的解决。

l 集成方法

1、(ABD)

下列何者是通过聚集多个分类器的组合来提高分类准确率的技术?

A.袋装法(Bagging)

B.提升法(Boosting)

C.支持向量机(Support Vector Machine)

D.随机森林(Random Forest)

解析：

通过聚集多个分类器的组合来提高分类准确率的技术称之为集成法

(Ensemble Methods)。集成法中又以袋装法(Bagging)、提升法(Boosting)、

以及随机森林(Random Forest)最为著名。

l 模型评估

根据下表的混乱矩阵(Confusion Matrix)，回答以下问题：

1、(A)

对于属性值 YES 的响应率(Precision)应如何计算？

True Results

Predicted Results YES NO

YES A B

NO C D


A. 7789

B.

C.

D.

解析：

在营销上，Precision 称之为响应率。在风控上，Precision 称之为命中率。

2、(B)

对于属性值 YES 的捕捉率(Recall)应如何计算？

A. 7789

B.

C.

D.

解析：

在营销上，Recall 称之为捕捉率。在风控上，Precision 称之为查全率。

四、描述型数据挖掘模型

l 决策树

1、(B)

在聚类 (Clustering) 的问题中，根据马氏距离测量 (Manhattan Distance

Measure)方法，下表中数据 A 与数据 B 之间的距离为何？

A.0.4


B.0.5

C.0.6

D.0.7

数据 Age(20~80) Income(25000~85000)

A 20 32000

B 35 47000

解析：

马氏距离 (Manhattan Distance)又称之为直角距离。

2、(C)

下列组别何者属于聚类 (Clustering)的算法?(A:K-means; B:Decision Tree;

C:EM; D:Neural Network; E:Apriori)

A.AB

B.BE

C.AC

D.CDE

解析：

K-means 及 EM 是著名的聚类(Clustering)算法。Decision Tree 及 Neural

Network 是预测行数据挖掘的著名模型。Apriori 则为关联分析的著名模型。

l 关联规则

1、(B)

有一条关联规则为X→Y，此规则的支持度为25%、信赖度(Confidence)为50%、

单独出现 X 的概率为 50%、单独出现 Y 的概率为 25%，则此规则的提升度(Lift)为？

A.2.5

B.2.0

C.1.5

D.2.3


解析：

此规则的提升度(Lift)= 0(;,=)0(;)×0(=)

= #.!"#."×#.!"

= 2.0。

2、(D)

130 笔的交易数据中，购买面包的交易有 80 笔，买面包同时也买牛奶的笔

数有 64 笔，求算购买面包的人是否也会购买牛奶的信赖度(Confidence)为何？

A.85.5%

B.50%

C.75.3%

D.80.0%

解析：

信赖度(Confidence)= P(购买牛奶|购买面包) 0 购买面包,购买牛奶

0 购买面包= %5

@#= 0.8。

3、(A,B,C)

下表为一事务数据库，若最小支持度(Minimum Support)=50%，则以下哪些

是长度为 2 的频繁项目集(Frequent Itemset)？

A.BE

B.AC

C.BC

D.AB

解析：

各个项目集出现的次数及支持度分别如下：

TID ItemsBought

1 A,C,D

2 B,C,E

3 A,B,C,E

4 B,E


Itemset Support Count Support

BE 3 0.75

AC 2 0.5

BC 2 0.5

AB 1 0.25

l 序列模式

1、(ABD)

关于序列模式(Sequential Patterns)下列何者正确？

A.序列模式须考虑时间

B.序列模式须考虑支持度

C.序列模式须考虑季节性

D.序列模式须考虑信赖度

解析：

序列模式是找出产品间先后购买的关联性。它需考虑时间、支持度、及信赖

度。季节性是时间序列(Time Series)模型所需考虑的。

五、案例操作及解析

案例操作解析及典型示例

案例的操作是所有理论与实务的总合，需具备以下的知识及软件的处理能力：

一、数据的处理

1. 运用数据挖掘软件读入不同格式的数据文件。

2. 应用数据挖掘软件进行数据探索，包括特征的分布分析，异常值、缺失

值的分析和处理。

3. 运用数据挖掘软件进行关键变量的挖掘。同时，评估不同的关键变量选

择方法对模型效能的影响。

4. 能够使用数据挖掘软件根据数据的特征及问题的背景构造衍生变量，并


且评估扩充前后对模型效能的提升程度。

5. 能够使用数据挖掘软件实现常用的数据变换、数据规约、离散化处理并

能够评估数据处理方法对模型效能的影响。

二、有监督学习

内容包括近邻(KNN)、线性回归、贝叶斯网络、决策树(C4.5，CART，CHAID)、

神经网络(多层感知机)、logistic 回归、支持向量机、集成方法(袋装、提升)。要

求如下：

1. 理解如何评估模型效果，能运用数据挖掘软件进行数据集的分区(能将数

据切割为训练、验证及测试数据集)。

2. 能运用数据挖掘软件建立模型，能理解模型参数的含义。

3. 能解读模型结果，并运用指标及图形(正确率、响应率、捕捉率、F-指标、

KS Chart、ROC Chart、GINI Chart、Response Chart、Gain Chart、Lift Chart、

Profit Chart、Average Squared Error)来比较不同模型间的优略。

4. 对于分类问题，会使用代价矩阵和样本平衡方法来解决样本集中目标类

的分布不均衡所带来的问题。

三、无监督学习

1. 聚类分析：运用数据挖掘软件建立常用聚类模型(K-means，Two-Steps)，

分析变量重要性及各个簇的特征，并提供营销建议。

2. 关联规则：运用数据挖掘软件建立关联规则模型，解读模型结果，并提

供营销建议。会使用软件处理负向关联规则及概念分层问题。

典型示例：

对电信公司的用户促销其感兴趣的电信服务，是公司会持续获利的模式之一。

某电信公司想针对手机用户推广新的网络服务，希望从用户过去跟公司往来的数

据中，运用数据挖掘(Data Mining)中的分类(Classification)技术，分析出会影响用

户接受新网络服务的相关因素，并建立能预测用户是否会对新网络服务感兴趣的

数据挖掘分类模型。此电信数据集共有 13 个字段，其中 11 个是输入字段，1 个

用户代码字段，一个目标字段(BROADBAND)。字段的说明如下：


字段名称类型标签角色

CUST_ID 数值型用户代码身份 ID

GENDER 类别型性别输入字段 (Input

Attribute)

AGE 数值型年龄输入字段 (Input

Attribute)

TENURE 数值型申办门号月份数输入字段 (Input

Attribute)

CHANNEL 类别型申办通路输入字段 (Input

Attribute)

AUTOPAY 类别型自动转账扣缴输入字段 (Input

Attribute)

ARPB_3M 数值型近 3 个月平均电话

费

输入字段 (Input

Attribute)

CALL_PARTY_CN

T

数值型拨出号码数输入字段 (Input

Attribute)

DAY_MOU 数值型白天通话分钟数输入字段 (Input

Attribute)

AFTERNOON_M

OU

数值型下午通话分钟数输入字段 (Input

Attribute)

NIGHT_MOU 数值型夜间通话分钟数输入字段 (Input

Attribute)

AVG_CALL_LENG

TH

数值型平均通话长度输入字段 (Input

Attribute)

BROADBAND 类别型接受服务注记目标字段 (Target

Attribute)

此电信数据集已被切割成训练数据集(Training Data)及测试数据集(Test

Data)。请根据这两个数据集回答以下的问题。

1、(C)

在训练数据集中，有接受服务(BROADBAND=1)的用户比例为何？


A.81.48%

B.18.39%

C.18.52%

D.18.61%

解析：

在训练数据集中，有接受服务(BROADBAND=1)的用户比例为 18.52%，如下

图。

2、(BC)

在训练数据集中，哪两个申办通路(CHANNEL)用户接受服务的比例较高？

A.1

B.2

C.3

D.4

解析：

在训练数据集中，申办通路(CHANNEL)用户接受服务的比例，如下图。其中，

申办通路 2 及 3 的用户接受服务的比例较高。

3、(AB)


在训练数据集中，以下那些描述是正确的？

A.用户往来期间(TENURE)越高者，接受服务的比例越高

B.年纪(AGE)越大者，接受服务的比例越高

C. 近 3 个月平均电话费(ARPB_3M)越高者，接受服务的比例越低

D.有办自动转账扣缴(AUTOPAY)者，接受服务的比例越高

解析：

用户往来期间(TENURE)越高者，接受服务的比例越高，如下图。

用户年纪(AGE) 越大者，接受服务的比例越高，如下图。

近 3 个月平均电话费(ARPB_3M)越高者，接受服务的比例越高，如下图。


有办自动转账扣缴(AUTOPAY)者，接受服务的比例越低，如下图。

4、(ABC)

在训练数据集中，以下那些字段的分布是属于右偏(Right Skewness)？

A.ARPB_3M

B.TENURE

C.NIGHT_MOU

D.以上皆非

解析：

由下图可以得知，ARPB_3M, TENURE 及 NIGHT_MOU，都是属于右偏

(Right Skewness)。


5、(ACD)

在训练数据集中，以平均值法来侦测离群值(Outlier)，以下那些字段会有离

群值的出现？

A.AGE

B.TENURE

C.AFTERNOON_MOU

D.DAY_MOU

解析：

由下图可以得知，AGE, AFTERNOON_MOU 及 DAY_MOU，有离群值(偏离

值+极端值)的出现。

6、(C)


在训练数据集中，近 3 个月平均电话费(ARPB_3M)经分析也有严重的离群

值出现，利用平均值法计算出其值的上限为 625。请将 ARPB_3M>=625 的记录

筛选出来，其有接受服务(BROADBAND=1)的用户比例为何？

A.70.23%

B.14.29%

C.85.71%

D.65.71%

解析：

筛选后，有接受服务(BROADBAND=1)的用户比例为 85.71%，如下图。

7、(AD)

下列的描述何者是正确的？

A.无效的字段包含不相关(Irrelevant)及多余(Redundant)的字段

B.多余的字段可透过统计的检定来加以排除

C.可用卡方检定来检定 TENUNE 与目标字段 BROADBAND 的相关性

D.可用 AVOVA 检定来检定 AFTERNOON_MOU 与目标字段 BROADBAND 的

相关性

解析：

无效的字段包含不相关(Irrelevant)及多余(Redundant)的字段。多余的字段

无法透过统计的检定来加以排除。统计检定可以排除不相关字段。TENUNE

是数值型字段，不可用卡方检定来检定 TENUNE 与目标字段 BROADBAND

的相关性。可用 AVOVA 检定来检定数值型字段与类别型目标字段的相关

性。

8、(D)

在训练数据集中，请根据统计的检定的计算结果，分析以下哪个字段是不

重要的字段？

A.TENURE


B.AGE

C.AVG_CALL_LENGTH

D.NIGHT_MOU

解析：

利用 ANOVA 检定的计算结果，不重要的字段为 NIGHT_MOU，如下图。

9、(B)

以下是利用 Gain Chart 来评估在训练数据上，整体上哪个算法的建模结果

较好。请根据下图排序 3 个模型的优劣，并选择以下好的答案？

A.Bayes Net 优于 Logistic Regression 优于 C4.5

B.C4.5 优于 Bayes Net 优于 Logistic Regression

C.Bayes Net 优于 C4.5 优于 Logistic Regression

D.以上皆非

解析：

根据下图的 Gain Chart，C4.5 优于 Bayes Net，Bayes Net 优于 Logistic

Regression。


10、(C)

以下是在测试数据上的 Gain Chart，比较训练与测试数据上 Gain Chart 的表

现，哪个模型是稳定领先？

A.Bayes Net

B.Logistic Regression

C.C4.5

D.以上皆是

解析：

根据下图测试数据上的 Gain Chart 以及训练数据上的 Gain Chart，C4.5 是

稳定领先的模型。


一家银行希望使用客户的相关讯息来将全行客户分群，以利后续相关营销活

动的规划及进行。该数据保存在 banking_cust 这张表中。其中 CID 为顾客身分

ID，不作为聚类所用的输入字段。Sex 及 Marriage 也仅仅作为参考字段，不作为

聚类所用的输入字段。除此之外的其它变量(Income 及 Age)可以用于构造聚类模

型。具体的变量描述如下：

字段名称类型标签角色

CID 数值客户代码身份 ID

Income 数值客户年收入输入字段(Input Attribute)

Sex 字符性别參考字段 (Reference

Attribute)

Age 数值客户年龄输入字段(Input Attribute)

Marriage 字符客户婚姻状

态

參考字段 (Reference

Attribute)

假设银行想利用 K-means 的算法来将客户分成 3 群。请使用任何软件完成

以下题目：

11、(A)

数据集的大小(笔数)为何?

A.30

B.31

C.29

D.28


12、(B)

Income 的标准差为多少?

A.44.231

B.46.294

C.33.245

D.55.121

13、(B)

用 K-means 聚类后，笔数少的群有多少笔数据?

A.10

B.2

C.8

D.7


请移除笔数少的群的数据，然后再利用 K-means(K 设为 3)进行聚类一次。

输入变量一样使用 Income 及 Age。

14、(A)

移除笔数少的群的数据后，Income 的标准差为多少?

A.25.016

B.33.271

C.52.016

D.46.251

15、(C)


再次进行聚类聚类后，笔数少的群有多少笔数据?

A.10

B.4

C.2

D.7

请再次移除笔数少的群的数据，然后再利用 K-means(K 设为 3)进行聚类

一次。输入变量一样使用 Income 及 Age。

16、(C)

移除数据前后，Age 的标准差的差值为多少?

A.15.297

B.8.412

C.5.297

D.4.143


17、(C)

进行聚类聚类后，3 群分别有多少笔数据?

A.10/10/10

B.9/8/7

C.8/10/8

D.7/10/6

18、(A)


后过滤掉多少笔离群值的数据?

A.4

B.3

C.2

D.5

先后过滤掉 4 笔(2 笔+2 笔)

19、(A)

笔数多的那一群，其特征描述为何?

A.年纪不轻，收入少

B.年纪轻，收入高

C.年纪高，收入高

D.年纪高，收入少

20、(B)

笔数多的那一群，其男生的比例为何?

A.60%

B.80%

C.50%

D.70%


CDA 认证考试报名唯一通道：http://exam.cda.cn/

cda level 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level...

Documents