cda level 2建模分析师经典练习题及详解 · cda数据分析研究院 cda level...
TRANSCRIPT
CDA 数据分析研究院
CDA LEVEL 2 建模分析师经典练习题及详解
来源:CDA 数据分析师大纲解析
一、 数据挖掘基础理论
1、(D)
Data Mining 的定义,以下哪个片段是正确的? Data Mining 是:
A.从现有的小量数据中
B.只撷取非常明显
C.之前已知
D.可能有用的知识
解析:
数据挖掘是从现有的大量数据中,撷取不明显、之前未知、可能有用的知识。
2、(A)
KDD 是什么意思?
A.数据库中的知识发掘
B.文本知识发掘
C.实时知识发掘
D.领域知识发掘
解析:
KDD 是 Knowledge Discovery in Database,是在数据库中的知识发掘。
3、(B)
根据 CRISP-DM 数据挖掘方法论,以下哪个阶段耗费的时间 多
A.业务理解
B.数据准备
C.建模
CDA 数据分析研究院
D.模型评估
解析:
数据准备通常约占整个知识发掘处理 60%~80%的时间。
4、(C)
对于建模时输入属性(Input Attribute)的选择,下列何者较好?
A.输入属性越多越好,不需事先筛选,以免选错
B.用专家进行筛选即可,不需再用算法进行筛选,以免与专家的想法不一致
C.用专家进行筛选后,再透过算法进行验证及再次筛选后,方可建模
D.以上均可
解析:
输入属性一定需要筛选。先用专家进行筛选后,再透过算法进行验证及再
次筛选后,方可建模。
5、(D)
通过各类技术手段对数据进行划分、清理、转换和缩减,此种方法称为?
A.数据次数表(Data Frequency Table)
B.数据标准化(Data Standardization)
C.数据优化(Data Optimization)
D.数据前处理(Dara Preprocessing)
解析:
对数据进行划分、清理、转换和缩减此为数据前处理的步骤。
6、(B)
运用描述性统计和可视化的技术,对数据进行分析属于数据挖掘的哪一类
任务?
A.建模描述(Model Description)
B.探索性数据分析(Data Explore)
C.预测建模(Model Building)
D.模式发掘(Pattern Discovery)
CDA 数据分析研究院
解析:
叙述性统计和可视化的技术是探索性数据分析的两个常用的方法。
7、(B)
利用极值正规化的技术,下表中 ID3 的 Income 会被正规化成何值?
A.1.00
B.0.13
C.0.75
D.0.50
解析:
利用极值正规化技术,Income 会被正规化成!"###$!####%####$!####
= 0.125 ≅ 0.13。
8、(D)
为人所熟知的啤酒与尿布的关系,是采用数据挖掘中的哪项技术?
A.分类(Classification)
B.聚类分析(Cluster Analysis)
C.预测(Prediction)
D.关联分析(Association Analysis)
解析:
啤酒与尿布是利用关联分析找出商品间被同时购买的关联性。
9、(C)
哪种分析的方法主要目的在于了解各产品间的前后购买关系及概率?
CDA 数据分析研究院
A.分类(Classification)
B.聚类分析(Cluster Analysis)
C.序列分析(Sequence Patterns)
D.关联分析(Association Analysis)
解析:
关联分析是找出商品间被同时购买的关联性。而序列分析则是找出商品间
被前后购买的关系。
10、(B)
下列何者为非指导性的学习方法(Unsupervised Learning)?
A.决策树(Decision Tree)
B.序列分析(Sequential Patterns)
C.简单贝式(Naive Bayes)
D.罗吉斯回归(Logistic Regression)
解析:
非指导性的学习方法不需要目标字段。以上除序列分析外,其余均需要目
标字段。
二、 数据前处理
1、(C)
连续型变量使用以下哪种方式进行缺失值填补较合适?
A.众数
B.通用的常数项-Unknown
C.均值
D.把填补遗缺值的问题当作是分类的问题
解析:
众数、通用的常数项-Unknown、及把填补缺失值的问题当作是分类的问题
是类别型变量进行缺失值填补使用的方法。均值才是连续型变量缺失值填
补的方法之一。
CDA 数据分析研究院
2、(B)
当一个连续变量的缺失值占比在 85%左右时,以下哪种方式 合理?
A.直接使用该变量,不填补缺失值
B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C.使用多重查补的方法进行缺失值填补
D.使用中位数进行缺失值填补
解析:
缺失值的占比超过 50%以上时,此字段通常会舍弃不用,不做任何填补。但
另一种可能的处理的方式为将此字段的值根据是否缺失,生成指示变量,
将原字段舍弃,并仅使用此指示变量作为输入变量。数据的缺失隐含着与
某些行为有关联性时,使用此方法通常会有不错的分析成效。
3、(BD)
以下哪个方法属于盖帽法
A.删去大于三倍标准差的值
B.距离均值大于三倍标准差的值使用三倍标准差的值替代
C.删去 1.5 倍 IQR 的值
D.超出 1.5 倍 IQR 的值使用 1.5 倍 IQR 的值替代
解析:
盖帽法(天花板/地板法)是处理离群值的方法之一。可将距离均值大于三倍
标准差的值使用三倍标准差的值替代,或将超出 1.5 倍 IQR 的值使用 1.5 倍
IQR 的值替代。
4、(D)
关于离散化下列何者错误?
A.等宽离散化中每个区间的 Range 都是一样的
B.等宽离散化中每个区间中不一定有数据
C.离散化的其中一个目的是稳定模型的效能
D.等分离散化需要参考目标字段
CDA 数据分析研究院
解析:
等宽与等分离散化与目标字段无关,不需要参考目标字段。
5、(B)
将复杂的地址简化成北、中、南、东四区,是在进行?
A.数据正规化(Normalization)
B.数据一般化(Generalization)
C.数据离散化(Discretization)
D.数据整合(Integration)
解析:
将地址简化成北、中、南、东四区,是数据一般化(Data Generalization)的技
术。
6、(D)
在使用历史数据构造训练集(Training)、验证(Validation)集和测试(Test)集时,
以下哪个样本量分配方案比较适合?
A.训练 50%,验证 0%,测试 50%
B.训练 100%,验证 0%,测试 0%
C.训练 0%,验证 100%,测试 0%
D.训练 60%,验证 30%,测试 10%
解析:
训练集的目的是构造预测模型;验证集的目的是修正预测模型;检验集/测
试集的目的是测试预测模型。三者缺一不可。
7、(C)
在使用历史数据构造训练(Train)集、验证(Validation)集和测试(Test)集时,训
练数据集的作用在于
A.用于对模型的效果进行无偏的评估
B.用于比较不同模型的预测准确度
C.用于构造预测模型
D.用于选择模型
CDA 数据分析研究院
解析:
训练集的目的是构造预测模型;验证集的目的是修正预测模型;检验集/测
试集的目的是测试预测模型。
8、(AD)
无效变量包含以下哪些?
A.多余变量(Redundancy Variables)
B.输入变量(Input Variables)
C.条件变量(Conditional Variables)
D.不相关变量(Irrelevancy Variables)
解析:
无效变量包含多余变量及不相关变量。
9、(ABC)
以下哪种方法可以用于连续变量的压缩
A.因子分析
B.变量聚类
C.主成分分析
D.样本聚类
解析:
连续变量的压缩包含主成分分析、因子分析及变量聚类。分类变量的压缩
包含水平聚类及 WOE 打分。
三、 预测型数据挖掘模型
l 朴素贝叶斯
1、(C)
观察某航空公司男女搭机的行为:假设搭机中 65%是女性,剩余的是男性。
女性搭头等舱的概率是 30%,而男性搭头等舱的概率是 75%。请问搭头等舱的人
中,有多少概率是男生?
A.0.4262
B.0.2651
CDA 数据分析研究院
C.0.5738
D.0.7375
解析:
此为贝式网络的应用。搭头等舱的人中,有多少概率是男生=P(男生|头等
舱)=P 头等舱 男生 × 0 男生
0 头等舱= 0.75× #.2"
0 头等舱= #.!%!"
0 头等舱。搭头等舱的人中,
有 多 少 概 率 是 女 生 =P( 女 生 | 头 等 舱 )=P 头等舱 女生 × 0 女生
0 头等舱= 0.3×
#.%"0 头等舱
= #.34"0 头等舱
。又 P(女生|头等舱)+P(男生|头等舱)=1.0。因此,P(头等
舱)=0.2625+0.195=0.4575。故 P(男生|头等舱)=#.!%!"#.5"6"
=0.5738。
2、(D)
如何利用「体重」以简单贝叶斯分类(Naive Bayes)预测「性别」?
A.选取另一条件属性
B.无法预测
C.将体重正规化为 0~1 之间
D.将体重离散化
解析:
简单贝叶斯分类对连续变量的处理方式有二。一是将连续变量进行离散化
的处理,一是将连续变量以常态分配的方式估计其概率值。
3、(B)
简单贝叶斯分类(Naive Bayes)可以用来预测何种数据型态?
A.数值
B.类别
C.时间
D.以上皆是
解析:
简单贝叶斯分类仅可用于建立分类模型。故可以用来预测一个东西的类别。
CDA 数据分析研究院
l 线性回归
1、(C)
給定一个训练数据集如下:
X(年资:单
位年)
Y(薪水:单
位 K)
3 30
8 57
9 64
13 72
3 36
6 43
11 59
21 90
1 20
16 83
请计算出线性回归(Linear Regression)方程式 Y=a+bX 中的a值?
A.14.5
B.32.0
C.23.6
D.4.9
解析:
简单线性回归中计算a及b值非常的简单。计算如下:
CDA 数据分析研究院
l 决策树
1、(A)
下列哪种决策树的砍树方法有使用到验证数据(Validation Data)?
A.CART(Classification And Regression Tree)
B.ID3
C.C4.5
D.以上皆非
解析:
CART 的砍树方法有使用到验证数据。ID3 及 C4.5 则使用推估的公式来预测
真实的错误率,并用它来决定砍树的结果。
2、(C)
下列何者不是决策树字段选择的度量?
A.信息增益(Information Gain)
B.卡方统计量(X2 Statistics)
C.支持度(Support)
D.基尼系数(Gini Index)
解析:
信息增益(Information Gain)是 ID3 决策树算法选择字段的度量。卡方统计
量(X2Statistics)是 CHAID 决策树算法选择字段的度量。基尼系数(Gini Index)
是 CART 决策树算法选择字段的度量。支持度(Support)是关联分析中所使
用的度量。
3、(C)
决策树建模时一个必要的步骤是决策树的修剪,下列何者不是决策树需要修
剪的原因?
A.为避免数据中的噪声影响建树的结果
CDA 数据分析研究院
B.为了得到较一般化的决策规则
C.为了节省建模所需的时间
D.为了能在测试数据集中得到较好的预测结果
解析:
决策树的修剪是为了避免建模时所产生的 Overfitting 现象,使得在测试数
据集中得到较好的预测结果,并得到较一般化的决策规则。同时,可以避免
数据中的噪声影响建树的结果。
4、(D)
给定一个数据集如下:
请问字段 age 的 Information Gain 为多少?
A.0.048
B.0.151
C.0.029
D.0.246
解析:
age 的 Information Gain,可以用以下的方式加以计算:
CDA 数据分析研究院
未选择属性切割数据前的 Entropy:
选择属性 Age 切割数据后的 Entropy:
两者相减就得到 Information Gain:
l 神经网络
1、(D)
下列何者不是神经网络的变形?
A.罗吉斯回归
B.线性回归
C.非线性回归
D.时间序列
解析:
不同神经网络的架设方式可以变形为线性回归、二元罗吉斯回归、多元罗
吉斯回归及非线性回归。
下图为类神经元的示意图,请回答以下问题:
CDA 数据分析研究院
2、(A)
请问虚线的部分为?
A.类神经元
B.键结值(Weight)
C.阀值(Bias)
D.激发函数(Activation Function)
解析:
类神经元(Neuron)又名细胞核或细胞本体(Cell Body)。
3、(D)
请问 ()为?
A.类神经元
B.键结值(Weight)
C.阀值(Bias)
D.激发函数(Activation Function)
解析:
激发函数(Activation Function)又名 S 型函数(Sigmoid Function)或罗吉斯函
数(Logit Function)。
4、(B)
请问 W1,W2,…,Wm 为?
A.类神经元
B.权重值(Weight)
C.阀值(Bias)
D.激发函数(Activation Function)
CDA 数据分析研究院
解析:
权重值(Weight)是神经键上的权重。
l 逻辑斯回归
1、(C)
罗吉斯回归(Logistic Regression)可以用来解决线性回归(Linear Regression)
中的什么问题?
A.属性挑选不易
B.受离群值影响过大
C.预测结果不符合实际应用情况
D.训练时间过长
解析:
线性回归是一个发散型方程式,在许多应用上会有不适合的情形发生。例
如,老鼠死亡率(P)与毒物用量(Drag Volume)之间的关系,会有超过 100%或
低于 0%的情形发生,如下图所示。
由上例可知,在许多应用上我们应该将线性回归的值压制在 0~1 之间,才
能产生出合理的值。Logistic Regression 就是将线性回归所产生的值带入
Logistic Function,以将输出值压制在 0~1 之间,如下图所示。
CDA 数据分析研究院
2、(A)
在罗吉斯回归(Logistic Regression)中,Logit 转换的作用是?
A.让预测的机率值落在正常的区间
B.将预测结果反推为自变量的因果关系
C.让自变数的值平滑化
D.让方程式挑选的属性之间的共线性下降
解析:
Logit 转换的作用是让预测的机率值落在正常的 0~1 之间。
3、(A)
在使用回归(Regression)的方法中,反复将贡献度 大的变量放入模型中的
方法为何?
A.向前选择法(Forward)
B.递归选择法(Recursion)
C.逐步回归法(Stepwise)
D.向后淘汰法(Backward)
解析:
在回归(Regression)的方法中,反复将贡献度 大的变量放入模型中的方法
向前选择法。
l 支持向量机
1、(ABCD)
CDA 数据分析研究院
关于支持向量机(Support Vector Machine)下列何者正确?
A.支持向量机可处理分类的问题
B.支持向量机可处理线性的问题
C.支持向量机可处理非线性的问题
D.支持向量机可预测数值
解析:
支持向量机(Support Vector Machine) 可处理分类及数值预测的问题。同时,
针对线性及非线性的问题,支持向量机均能有效的解决。
l 集成方法
1、(ABD)
下列何者是通过聚集多个分类器的组合来提高分类准确率的技术?
A.袋装法(Bagging)
B.提升法(Boosting)
C.支持向量机(Support Vector Machine)
D.随机森林(Random Forest)
解析:
通过聚集多个分类器的组合来提高分类准确率的技术称之为集成法
(Ensemble Methods)。集成法中又以袋装法(Bagging)、提升法(Boosting)、
以及随机森林(Random Forest)最为著名。
l 模型评估
根据下表的混乱矩阵(Confusion Matrix),回答以下问题:
1、(A)
对于属性值 YES 的响应率(Precision)应如何计算?
True Results
Predicted Results YES NO
YES A B
NO C D
CDA 数据分析研究院
A. 7789
B.
C.
D.
解析:
在营销上,Precision 称之为响应率。在风控上,Precision 称之为命中率。
2、(B)
对于属性值 YES 的捕捉率(Recall)应如何计算?
A. 7789
B.
C.
D.
解析:
在营销上,Recall 称之为捕捉率。在风控上,Precision 称之为查全率。
四、 描述型数据挖掘模型
l 决策树
1、(B)
在 聚 类 (Clustering) 的 问 题 中 , 根 据 马 氏 距 离 测 量 (Manhattan Distance
Measure)方法,下表中数据 A 与数据 B 之间的距离为何?
A.0.4
CDA 数据分析研究院
B.0.5
C.0.6
D.0.7
数据 Age(20~80) Income(25000~85000)
A 20 32000
B 35 47000
解析:
马氏距离 (Manhattan Distance)又称之为直角距离。
2、(C)
下列组别何者属于聚类 (Clustering)的算法?(A:K-means; B:Decision Tree;
C:EM; D:Neural Network; E:Apriori)
A.AB
B.BE
C.AC
D.CDE
解析:
K-means 及 EM 是著名的聚类(Clustering)算法。Decision Tree 及 Neural
Network 是预测行数据挖掘的著名模型。Apriori 则为关联分析的著名模型。
l 关联规则
1、(B)
有一条关联规则为X→Y,此规则的支持度为25%、信赖度(Confidence)为50%、
单独出现 X 的概率为 50%、单独出现 Y 的概率为 25%,则此规则的提升度(Lift)为?
A.2.5
B.2.0
C.1.5
D.2.3
CDA 数据分析研究院
解析:
此规则的提升度(Lift)= 0(;,=)0(;)×0(=)
= #.!"#."×#.!"
= 2.0。
2、(D)
130 笔的交易数据中,购买面包的交易有 80 笔,买面包同时也买牛奶的笔
数有 64 笔,求算购买面包的人是否也会购买牛奶的信赖度(Confidence)为何?
A.85.5%
B.50%
C.75.3%
D.80.0%
解析:
信赖度(Confidence)= P(购买牛奶|购买面包) 0 购买面包,购买牛奶
0 购买面包= %5
@#= 0.8。
3、(A,B,C)
下表为一事务数据库,若最小支持度(Minimum Support)=50%,则以下哪些
是长度为 2 的频繁项目集(Frequent Itemset)?
A.BE
B.AC
C.BC
D.AB
解析:
各个项目集出现的次数及支持度分别如下:
TID ItemsBought
1 A,C,D
2 B,C,E
3 A,B,C,E
4 B,E
CDA 数据分析研究院
Itemset Support Count Support
BE 3 0.75
AC 2 0.5
BC 2 0.5
AB 1 0.25
l 序列模式
1、(ABD)
关于序列模式(Sequential Patterns)下列何者正确?
A.序列模式须考虑时间
B.序列模式须考虑支持度
C.序列模式须考虑季节性
D.序列模式须考虑信赖度
解析:
序列模式是找出产品间先后购买的关联性。它需考虑时间、支持度、及信赖
度。季节性是时间序列(Time Series)模型所需考虑的。
五、 案例操作及解析
案例操作解析及典型示例
案例的操作是所有理论与实务的总合,需具备以下的知识及软件的处理能力:
一、数据的处理
1. 运用数据挖掘软件读入不同格式的数据文件。
2. 应用数据挖掘软件进行数据探索,包括特征的分布分析,异常值、缺失
值的分析和处理。
3. 运用数据挖掘软件进行关键变量的挖掘。同时,评估不同的关键变量选
择方法对模型效能的影响。
4. 能够使用数据挖掘软件根据数据的特征及问题的背景构造衍生变量,并
CDA 数据分析研究院
且评估扩充前后对模型效能的提升程度。
5. 能够使用数据挖掘软件实现常用的数据变换、数据规约、离散化处理并
能够评估数据处理方法对模型效能的影响。
二、有监督学习
内容包括 近邻(KNN)、线性回归、贝叶斯网络、决策树(C4.5,CART,CHAID)、
神经网络(多层感知机)、logistic 回归、支持向量机、集成方法(袋装、提升)。要
求如下:
1. 理解如何评估模型效果,能运用数据挖掘软件进行数据集的分区(能将数
据切割为训练、验证及测试数据集)。
2. 能运用数据挖掘软件建立模型,能理解模型参数的含义。
3. 能解读模型结果,并运用指标及图形(正确率、响应率、捕捉率、F-指标、
KS Chart、ROC Chart、GINI Chart、Response Chart、Gain Chart、Lift Chart、
Profit Chart、Average Squared Error)来比较不同模型间的优略。
4. 对于分类问题,会使用代价矩阵和样本平衡方法来解决样本集中目标类
的分布不均衡所带来的问题。
三、无监督学习
1. 聚类分析:运用数据挖掘软件建立常用聚类模型(K-means,Two-Steps),
分析变量重要性及各个簇的特征,并提供营销建议。
2. 关联规则:运用数据挖掘软件建立关联规则模型,解读模型结果,并提
供营销建议。会使用软件处理负向关联规则及概念分层问题。
典型示例:
对电信公司的用户促销其感兴趣的电信服务,是公司会持续获利的模式之一。
某电信公司想针对手机用户推广新的网络服务,希望从用户过去跟公司往来的数
据中,运用数据挖掘(Data Mining)中的分类(Classification)技术,分析出会影响用
户接受新网络服务的相关因素,并建立能预测用户是否会对新网络服务感兴趣的
数据挖掘分类模型。此电信数据集共有 13 个字段,其中 11 个是输入字段,1 个
用户代码字段,一个目标字段(BROADBAND)。字段的说明如下:
CDA 数据分析研究院
字段名称 类型 标签 角色
CUST_ID 数值型 用户代码 身份 ID
GENDER 类别型 性别 输 入 字 段 (Input
Attribute)
AGE 数值型 年龄 输 入 字 段 (Input
Attribute)
TENURE 数值型 申办门号月份数 输 入 字 段 (Input
Attribute)
CHANNEL 类别型 申办通路 输 入 字 段 (Input
Attribute)
AUTOPAY 类别型 自动转账扣缴 输 入 字 段 (Input
Attribute)
ARPB_3M 数值型 近 3 个月平均电话
费
输 入 字 段 (Input
Attribute)
CALL_PARTY_CN
T
数值型 拨出号码数 输 入 字 段 (Input
Attribute)
DAY_MOU 数值型 白天通话分钟数 输 入 字 段 (Input
Attribute)
AFTERNOON_M
OU
数值型 下午通话分钟数 输 入 字 段 (Input
Attribute)
NIGHT_MOU 数值型 夜间通话分钟数 输 入 字 段 (Input
Attribute)
AVG_CALL_LENG
TH
数值型 平均通话长度 输 入 字 段 (Input
Attribute)
BROADBAND 类别型 接受服务注记 目 标 字 段 (Target
Attribute)
此电信数据集已被切割成训练数据集(Training Data)及测试数据集(Test
Data)。请根据这两个数据集回答以下的问题。
1、(C)
在训练数据集中,有接受服务(BROADBAND=1)的用户比例为何?
CDA 数据分析研究院
A.81.48%
B.18.39%
C.18.52%
D.18.61%
解析:
在训练数据集中,有接受服务(BROADBAND=1)的用户比例为 18.52%,如下
图。
2、(BC)
在训练数据集中,哪两个申办通路(CHANNEL)用户接受服务的比例较高?
A.1
B.2
C.3
D.4
解析:
在训练数据集中,申办通路(CHANNEL)用户接受服务的比例,如下图。其中,
申办通路 2 及 3 的用户接受服务的比例较高。
3、(AB)
CDA 数据分析研究院
在训练数据集中,以下那些描述是正确的?
A.用户往来期间(TENURE)越高者,接受服务的比例越高
B.年纪(AGE)越大者,接受服务的比例越高
C. 近 3 个月平均电话费(ARPB_3M)越高者,接受服务的比例越低
D.有办自动转账扣缴(AUTOPAY)者,接受服务的比例越高
解析:
用户往来期间(TENURE)越高者,接受服务的比例越高,如下图。
用户年纪(AGE) 越大者,接受服务的比例越高,如下图。
近 3 个月平均电话费(ARPB_3M)越高者,接受服务的比例越高,如下图。
CDA 数据分析研究院
有办自动转账扣缴(AUTOPAY)者,接受服务的比例越低,如下图。
4、(ABC)
在训练数据集中,以下那些字段的分布是属于右偏(Right Skewness)?
A.ARPB_3M
B.TENURE
C.NIGHT_MOU
D.以上皆非
解析:
由下图可以得知,ARPB_3M, TENURE 及 NIGHT_MOU,都是属于右偏
(Right Skewness)。
CDA 数据分析研究院
5、(ACD)
在训练数据集中,以平均值法来侦测离群值(Outlier),以下那些字段会有离
群值的出现?
A.AGE
B.TENURE
C.AFTERNOON_MOU
D.DAY_MOU
解析:
由下图可以得知,AGE, AFTERNOON_MOU 及 DAY_MOU,有离群值(偏离
值+极端值)的出现。
6、(C)
CDA 数据分析研究院
在训练数据集中, 近 3 个月平均电话费(ARPB_3M)经分析也有严重的离群
值出现,利用平均值法计算出其值的上限为 625。请将 ARPB_3M>=625 的记录
筛选出来,其有接受服务(BROADBAND=1)的用户比例为何?
A.70.23%
B.14.29%
C.85.71%
D.65.71%
解析:
筛选后,有接受服务(BROADBAND=1)的用户比例为 85.71%,如下图。
7、(AD)
下列的描述何者是正确的?
A.无效的字段包含不相关(Irrelevant)及多余(Redundant)的字段
B.多余的字段可透过统计的检定来加以排除
C.可用卡方检定来检定 TENUNE 与目标字段 BROADBAND 的相关性
D.可用 AVOVA 检定来检定 AFTERNOON_MOU 与目标字段 BROADBAND 的
相关性
解析:
无效的字段包含不相关(Irrelevant)及多余(Redundant)的字段。多余的字段
无法透过统计的检定来加以排除。统计检定可以排除不相关字段。TENUNE
是数值型字段,不可用卡方检定来检定 TENUNE 与目标字段 BROADBAND
的相关性。可用 AVOVA 检定来检定数值型字段与类别型目标字段的相关
性。
8、(D)
在训练数据集中,请根据统计的检定的计算结果,分析以下哪个字段是 不
重要的字段?
A.TENURE
CDA 数据分析研究院
B.AGE
C.AVG_CALL_LENGTH
D.NIGHT_MOU
解析:
利用 ANOVA 检定的计算结果, 不重要的字段为 NIGHT_MOU,如下图。
9、(B)
以下是利用 Gain Chart 来评估在训练数据上,整体上哪个算法的建模结果
较好。请根据下图排序 3 个模型的优劣,并选择以下 好的答案?
A.Bayes Net 优于 Logistic Regression 优于 C4.5
B.C4.5 优于 Bayes Net 优于 Logistic Regression
C.Bayes Net 优于 C4.5 优于 Logistic Regression
D.以上皆非
解析:
根据下图的 Gain Chart,C4.5 优于 Bayes Net,Bayes Net 优于 Logistic
Regression。
CDA 数据分析研究院
10、(C)
以下是在测试数据上的 Gain Chart,比较训练与测试数据上 Gain Chart 的表
现,哪个模型是稳定领先?
A.Bayes Net
B.Logistic Regression
C.C4.5
D.以上皆是
解析:
根据下图测试数据上的 Gain Chart 以及训练数据上的 Gain Chart,C4.5 是
稳定领先的模型。
CDA 数据分析研究院
CDA 数据分析研究院
一家银行希望使用客户的相关讯息来将全行客户分群,以利后续相关营销活
动的规划及进行。该数据保存在 banking_cust 这张表中。其中 CID 为顾客身分
ID,不作为聚类所用的输入字段。Sex 及 Marriage 也仅仅作为参考字段,不作为
聚类所用的输入字段。除此之外的其它变量(Income 及 Age)可以用于构造聚类模
型。具体的变量描述如下:
字段名称 类型 标签 角色
CID 数值 客户代码 身份 ID
Income 数值 客户年收入 输入字段(Input Attribute)
Sex 字符 性别 參 考 字 段 (Reference
Attribute)
Age 数值 客户年龄 输入字段(Input Attribute)
Marriage 字符 客 户 婚 姻 状
态
參 考 字 段 (Reference
Attribute)
假设银行想利用 K-means 的算法来将客户分成 3 群。请使用任何软件完成
以下题目:
11、(A)
数据集的大小(笔数)为何?
A.30
B.31
C.29
D.28
CDA 数据分析研究院
12、(B)
Income 的标准差为多少?
A.44.231
B.46.294
C.33.245
D.55.121
13、(B)
用 K-means 聚类后,笔数 少的群有多少笔数据?
A.10
B.2
C.8
D.7
CDA 数据分析研究院
请移除笔数 少的群的数据,然后再利用 K-means(K 设为 3)进行聚类一次。
输入变量一样使用 Income 及 Age。
14、(A)
移除笔数 少的群的数据后,Income 的标准差为多少?
A.25.016
B.33.271
C.52.016
D.46.251
15、(C)
CDA 数据分析研究院
再次进行聚类聚类后,笔数 少的群有多少笔数据?
A.10
B.4
C.2
D.7
请再次移除笔数 少的群的数据,然后再利用 K-means(K 设为 3)进行聚类
一次。输入变量一样使用 Income 及 Age。
16、(C)
移除数据前后,Age 的标准差的差值为多少?
A.15.297
B.8.412
C.5.297
D.4.143
CDA 数据分析研究院
17、(C)
进行聚类聚类后,3 群分别有多少笔数据?
A.10/10/10
B.9/8/7
C.8/10/8
D.7/10/6
18、(A)
CDA 数据分析研究院
后过滤掉多少笔离群值的数据?
A.4
B.3
C.2
D.5
先后过滤掉 4 笔(2 笔+2 笔)
19、(A)
笔数 多的那一群,其特征描述为何?
A.年纪不轻,收入少
B.年纪轻,收入高
C.年纪高,收入高
D.年纪高,收入少
20、(B)
笔数 多的那一群,其男生的比例为何?
A.60%
B.80%
C.50%
D.70%
CDA 数据分析研究院
CDA 认证考试报名唯一通道:http://exam.cda.cn/