2024年春江苏开放大学机器学习形考作业二高分答案

注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧

一、2024年春江苏开放大学机器学习形考作业二单选题答案

1、下列关于软投票说法错误的是?

A、投票表决器可以组合不同的基分类器

B、使用概率平均的⽅式来预测样本类别

C、可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均

D、软投票过程中每个基分类器都预测⼀个类别

学生答案:D

2、下列有关词袋表示法的理解有误的是()

A、将每个⽂本对应词表转化为特征向量

B、仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量

C、不考虑词语出现的顺序,每个出现过的词汇单独作为⼀列特征

D、不重复的特征词汇集合为词表

学生答案:B

3、兰德系数和轮廓系数都是常⽤的聚类分析指标,以下对兰德系数和轮廓系数说法错误的是

A、轮廓系数适⽤于实际类别信息未知的情况

B、在聚类结果随机产⽣的情况下,兰德系数不能保证系数接近于0、C、兰德系数取值为[0,1],越⼤聚类结果与真实情况越接近

D、调整兰德系数取值范围为[-1,1],负数代表结果不好,越接近于0越好

学生答案:D

4、箱线图是检测离群值的⽅法,下⾯关于箱线图的说法不正确的是?

A、箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数

B、箱外的两条线(胡须)分别延伸到最⼩和最⼤⾮异常点

C、四分位距IQR = 1.5 ( Q3-Q1 ),其中Q3为上四分位数, Q1为下四分位数

D、箱中⾼于上边缘和低于下边缘的值为离群点

学生答案:C

5、若集成模型中,预测值表示为,真实值为,则Adaboost的损失函数(Loss Function)

表示为()

2024年春江苏开放大学机器学习形考作业二高分答案

学生答案:B

6、关于三种常⻅的稳健性回归⽅法–Huber回归、RANSAC回归和泰尔森回归,下列选项说法

正确的是:

A、从回归的速度上看,⼀般来说,Huber回归最快,其次是RANSAC回归,最慢的是泰尔森回归

B、泰尔森回归⽐RANSAC回归在样本数量上的伸缩性(适应性)好

C、⼀般情况下,泰尔森回归可以更好地处理y⽅向的⼤值异常点

D、Huber回归可以更好地应对X⽅向的中等⼤⼩的异常值,但是这个属性将在⾼维情况下消失

学生答案:A

7、下列有关轮廓系数的说法错误的是()

A、所有样本的轮廓系数均值为聚类结果的轮廓系数,是该聚类是否合理、有效的度量

B、某个样本的轮廓系数近似为0,说明该样本在两个簇的边界上

C、某个样本的轮廓系数的绝对值接近1,说明该样本聚类结果合理

D、某个样本的轮廓系数接近1,说明该样本聚类结果合理

学生答案:C

8、下列模型中属于回归模型的是?

A、ID3、B、DBSCAN

C、线性回归

D、逻辑回归

学生答案:C

9、下列有关ROC曲线与AUC的描述错误的是

A、ROC曲线越靠近(0, 1)证明模型整体预测能⼒越差

B、AUC的取值为[0.5, 1]

C、AUC的⼏何意义为ROC曲线与横轴FPR之间的⾯积

D、ROC曲线可以⽤来考察模型的预测能⼒

学生答案:A

10、下列有关包裹式和嵌⼊式特征选择的说法错误的是()

A、嵌⼊式特征选择的思想是根据模型分析特征的重要性,常⽤正则化⽅式来做特征选择

B、包裹式特征选择的思想是把特征选择看做⼀个特征⼦集搜索问题, 筛选各个特征⼦集, ⽤模型评

估各个⼦集的效果

C、Scikit-learn中实现嵌⼊式特征选择的类SelectFromModel 必须与有feature_importances_ 或

者coef_ 属性的模型⼀起使⽤,如随机森林和逻辑回归

D、Scikit-learn中实现嵌⼊式特征选择的类有SelectFromModel 、RFE 和RFECV

学生答案:D

11、下列有关特征抽取和特征选择的说法有误的⼀项是()

A、特征抽取和特征选择是达到降维⽬的的两种途径

B、PCA和LDA是特征选择的两种主要⽅法

C、特征抽取的⽬标是根据原始的d个特征的组合形成k个新的特征,即将数据从d维空间映射到k维空间

D、特征选择的⽬标是从原始的d个特征中选择k个特征

学生答案:B

12、以下程序语句有误的是()

A、clf=LogisticRegression(penalty=’l1′,random_state=10,solver=’liblinear’)

B、clf=LogisticRegression(penalty=’l2′,random_state=10,solver=’liblinear’)

C、clf=LogisticRegression(penalty=’l1′,random_state=10,solver=’lbfgs’)

D、clf=LogisticRegression(penalty=’l2′,solver=’newton-cg’)

学生答案:C

13、关于线性回归模型的正则化,下列选项叙述不正确的是:

A、正则化的常⽤⽅法为岭回归和LASSO,主要区别在于岭回归的⽬标函数中添加了L2惩罚函数,⽽

LASSO的⽬标函数中添加的是L1惩罚函数

B、正则化可以减⼩线性回归的过度拟合和多重共线性等问题

C、对⽐岭回归和LASSO,岭回归更容易得到稀疏解

D、在求解LASSO时,常⽤的求解算法包括坐标下降法、LARS算法和ISTA算法等

学生答案:C

14、下列关于特征选择⽬的和原则的说法错误的是( )

A、特征选择能有效降低特征维度,简化模型

B、与⽬标特征相关性⾼的特征应该优先被选择

C、⽅差较⾼的特征应该被剔除

D、特征选择可以有效提升模型性能

学生答案:C

15、下列有关过滤式特征选择的说法错误的是()

A、过滤式特征选择的⽅法是评估单个特征和结果值之间的相关程度, 留下相关程度靠前的特征

B、过滤式特征选择的评价指标主要有Pearson 相关系数, 互信息, 距离相关度等;其中卡⽅检

验(chi2) ,F检验回归(f_regression) , 互信息回归(mutual_info_regression) ⽤于回归问

题,F检验分类(f_classif) , 互信息分类(mutual_info_classif) ⽤于分类问题

C、Scikit-learn中实现过滤式特征选择的SelectKBest 类可以指定过滤个数, SelectPercentile 类

可以指定过滤百分⽐

D、过滤式特征选择的缺点是只评估了单个特征对结果的影响,没有考虑到特征之间的相关作⽤,可能

剔除有⽤的相关特征

学生答案:B

16、以下四个算法中,哪个不属于Scikit-learn聚类的主要算法()

A、cluster.SpectralClustering

B、neighbors.KNeighborsRegressor

C、cluster.KMeans

D、cluster.AgglomerativeClustering

学生答案:B

17、下列有关DBSCAN聚类算法的理解有误的⼀项是()

A、对数据集中的异常点敏感

B、不需要预先设置聚类数量k

C、调参相对于传统的K-Means 之类的聚类算法稍复杂,需要对距离阈值ϵ ,邻域样本数阈

值MinPts 联合调参,不同的参数组合对最后的聚类效果有较⼤影响

D、可以对任意形状的⾼密度数据集进⾏聚类,相对的, K-Means 之类的聚类算法⼀般只适⽤于凸数据集

学生答案:A

18、下图给出了三个节点的相关信息,请给出特征A1、A2及A3的特征重要性递减排序()

2024年春江苏开放大学机器学习形考作业二高分答案

A、A3>A1>A2

B、所给信息不⾜。

C、A2>A3>A1

D、A1>A2>A3

学生答案:A

二、2024年春江苏开放大学机器学习形考作业二多选题答案

1、下列关于缺失值处理的说法错误的是( )

A、可以将缺失值作为预测⽬标建⽴模型进⾏预测,以此来插补缺失值

B、连续型特征可以使⽤众数来插补缺失值

C、根据经验,可以⼿动对缺失值进⾏插补

D、离散型特征可以使⽤平均值来插补缺失值

学生答案:B;D

2、将连续型特征离散化后再建⽴逻辑回归模型,这样做对模型有什么影响( )

A、计算结果⽅便存储,容易扩展。

B、起到简化逻辑回归模型的作⽤

C、易于模型的快速迭代

D、离散化后的特征对异常数据敏感

学生答案:A;B;C

3、下列哪些⽅法可以解决数据集的线性不可分问题( )

A、⾼斯核SVM

B、多项式核SVM

C、软间隔SVM

D、硬间隔SVM

学生答案:A;B;C

4、以下关于集成模型中提升法(boosting)与装袋法(bagging)的⽐较,说法正确的是()

A、Boosting主要⽤于⽤于抑制过拟合;⽽Bagging主要⽤于优化弱分类器。

B、Boosting的学习器可并⾏训练,⽆顺序;Bagging的学习器需要串⾏进⾏,有顺序。

C、Boosting⼀般采⽤整个训练集训练学习器;Bagging则采⽤部分训练集,没⽤到的数据可⽤于测

试。

D、Adaboost是⼀种Boosting⽅法;Random Forest是⼀种Bagging⽅法。

学生答案:C;D

5、下列关于软投票说法正确的是?(多选)

A、软投票过程中每个基分类器都预测⼀个类别

B、可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均

C、投票表决器可以组合不同的基分类器

D、使用概率平均的⽅式来预测样本类别

学生答案:B;C;D

6、下列有关scikit-learn中TfidfVectorizer 类和CountVectorizer 类的说法错误的是()

A、属性stop_words :返回停⽤词表

B、参数stop_words :设置停⽤词,默认为None (没有),可设置为english 或list (⾃⾏给定)

C、参数min_df :设定阈值,忽略频率⾼于此阈值的词汇,默认为1、D、属性vocabulary_ :返回词汇表(字典型)

学生答案:A;C

7、模型输⼊的特征通常需要是数值型的,所以需要将⾮数值型特征通过特征编码转换为数值特

征。下列选项对DataFrame对象df1 中的Make 字段进⾏特征编码,其中正确的是?

2024年春江苏开放大学机器学习形考作业二高分答案

A、from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

df1[‘Make’]=le.fit_transform(df1[“Make”])

B、df1[‘Make’] = df1[‘Make’].str.replace({‘Toyota’:1, ‘Ford’:2, ‘Volvo’:3, ‘Audi’:4, ‘BMW

‘:5, ‘Nissan’:6})

C、df1[‘Make’] = df1[‘Make’].map({‘Toyota’:1, ‘Ford’:2, ‘Volvo’:3, ‘Audi’:4, ‘BMW’:5, ‘Ni

ssan’:6})

D、df1[‘Make’] = df1[‘Make’].replace({‘Toyota’:1, ‘Ford’:2, ‘Volvo’:3, ‘Audi’:4, ‘BMW’:5,

‘Nissan’:6})

学生答案:A;C;D

8、关于sklearn中的KNeighborsClassifier 算法类,下列说法正确的是()

A、距离度量附属参数p 可设置为p =2“euclidean”(欧式距离)、p =1为“manhattan”(曼哈顿距离),默认为2、B、K近邻算法通过对以样本a为圆⼼,半径为k的圆内的训练样本进⾏多数投票来确定样本a的类别。

C、当样本分布较乱,预测效果不好时,可将weights 设置为“distance”,将距离⽬标更近的近邻点赋

予更⾼的权重,来改善预测效果

D、参数’n_neighbors’ 的取值应该越⼤越好

学生答案:A;C

9、现有⼀个垃圾邮件分类问题,⽤N个关键词汇X1,X2,…,XN作为特征,将所有的邮件分类为垃圾邮件C1与正常邮件C2。m1为出现了关键词汇X1的垃圾邮件数量,m为垃圾邮件总数,M 为所有邮件总数,则下列加⼊Laplace平滑(平滑系数为1)的概率公式表示正确的是( )

2024年春江苏开放大学机器学习形考作业二高分答案

学生答案:B;D

10、分类正确率、混淆矩阵是评价分类模型效果的重要依据,下列编程语句有错误的是( ) (其

中x , y 是训练集和训练集标签,分别为DataFrame对象和Series对象)

2024年春江苏开放大学机器学习形考作业二高分答案
2024年春江苏开放大学机器学习形考作业二高分答案

A、语句(4)

B、语句(3)

C、语句(2)

D、语句(1)

学生答案:A;B

11、下列关于⽂本特征抽取中TF-IDF ⽅法理解正确的是()

A、TF 即词频:某词汇在该⽂本中出现的频率

B、TF-IDF = TF * IDF

C、TF-IDF ⽅法有效过滤掉不常⻅的词语

D、IDF 即逆⽂本频率:词频的权重调整系数

学生答案:A;B;D

题型:多选题客观题分值4分难度:一般得分:0

12、Scikit-learn中,对函数metrics.accuracy_score 使⽤⽅法描述正确的是

A、from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, y_pred, normalize=False))

B、from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, y_pred, normalize=False))

C、from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, y_pred))

D、from sklearn.metrics import accuracy_score

print(accuracy_score(y_test, y_pred))

学生答案:B;D

禁止转载未经授权,禁止转载,发布者:形考达人黄金VIP,出处:https://www.xingkaowang.com/18622.html

本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!内容仅供研究参考,付费前请自行鉴别。

免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,预祝大家上岸成功

(0)
上一篇 2023年8月17日 上午9:29
下一篇 2024年5月15日 下午8:58

相关推荐

  • 2024年春江苏开放大学机器学习综合大作业:基于分类算法的肝病诊断

    作业要求: 一.实验内容: 本案例基于UCI公开的肝病患者诊断数据,从患者生理指标和医疗检测指标出发,使用单一分类器和集成方法对患者是否患肝病进行预测分析。首先,我们对数据进行了预处理和探索性分析,挖掘出数据的内在联系;之后,借助sklearn中的各种分类模块进行预测;最后,比较不同分类器下的预测效果。 下载数据集indian_liver_patient.c…

    2024年8月1日
  • 2024年春江苏开放大学机器学习实验及技能训练(四):根据学习者在学习活动中的特征预测学生的成绩等级

    实验四:根据学习者在学习活动中的特征预测学生的成绩等级 1. 实践目标: 掌握主流的分类模型的实现方法,包括逻辑回归、K近邻、决策树、朴素贝叶斯、支持向量机等。 2. 实践内容: 根据学习者在学习活动中的特征预测学生的成绩等级。 3. 实践操作: 在虚拟实验平台完成对应实验,并撰写实验报告在此处上传。 参考范文两篇,自行修改,防…

    机器学习 2024年8月1日
  • 2024年春江苏开放大学机器学习实验及技能训练(二):共享单车时租数量预测

    实验二:共享单车时租数量预测 1. 实践目标: 掌握数据预处理的基本方法,包括缺失值异常值处理、标准化、离散化、特征编码等。 2. 实践内容: 利用城市当天的天气、温度、湿度和风速等环境信息对自行车的租借数量进行有效预测,预测每小时内租用的自行车总数。 3. 实践操作: 在虚拟实验平台完成对应实验,并撰写实验报告在此处上传。 参…

    机器学习 2024年8月1日
  • 2024年春江苏开放大学机器学习形考作业一高分答案

    一、2024年春江苏开放大学机器学习形考作业一单选题答案 1、如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的? A、测试样本误差不可能为零 B、以上答案都不对 C、测试样本误差始终为零 D、不确定 学生答案:B 2、下列模型中属于回归模型的是? A、线性回归 B、DBSCAN C、逻辑回归 D、ID3 学生答案:A…

    2024年5月15日
  • 江苏开放大学机器学习BBS:列举一个数据“过拟合”的例子,谈—谈过拟合带来的后果

    江苏开放大学机器学习BBS:维度灾难最直接的后果就是“过拟合”,进而导致分类错误,这也是数据降维研究的初衷。 请你列举一个数据“过拟合”的例子,谈—谈过拟合带来的后果,并提出—种数据降维的方法来解决该问题。 参考答案:过拟合是一个机器学习中的常见问题,它发生在模型对训练数据过度拟合,导致在新的、未见过的数据上表现不佳。 例如,假设我们有一个分类猫和狗的机器学…

    机器学习 2023年8月17日
  • 江苏开放大学机器学习BBS1:谈谈你知道哪些机器学习的应用案例,它对我们的生活带来了哪些改变?

    请你结合你的所见所闻,谈谈你知道哪些机器学习的应用案例,它对我们的生活带来了哪些改变? 参考答案: 1.理解自然语言:AI能够理解自然语言,这意味着你可以用日常语言与它交流,而不需要学习特殊的语言。它能够理解你的需求,并为你提供最佳的解决方案。 2.生成回复:AI不仅可以理解你的问题,还能够生成回复。你可以向它询问各种问题,从简单的计算到复杂的分析,它都能够…

    机器学习 2023年8月17日
  • 江苏开放大学机器学习第二次形考作业高分参考答案

    江苏开放大学机器学习第二次形考作业选择题 1、下列有关ROC曲线与AUC的描述错误的是 A、AUC的⼏何意义为ROC曲线与横轴FPR之间的⾯积 B、ROC曲线可以⽤来考察模型的预测能⼒ C、AUC的取值为[0.5,1] D、ROC曲线越靠近(0,1)证明模型整体预测能⼒越差 正确答案:D   学生答案:D 2、下列有关过滤式特征选择的说法…

    2023年8月17日
  • 江苏开放大学机器学习第一次形考作业高分答案

    江苏开放大学机器学习第一次形考作业选择题 1、构建一个最简单的线性回归模型需要几个系数(只有一个特征)? A、1 B、2 C、4 D、3 正确答案:B   学生答案:B 2、下列关于数据标准化的说法不正确的是() A、数据经过Z-Score标准化后的取值范围为[0,1] B、标准化可以去除数据特征之间存在的量纲问题 C、Z-Score标准…

    机器学习 2023年8月17日

发表回复

登录后才能评论
联系我们

邮件:xingkaowang@163.com

QQ:994370779

工作时间:周一至周五,9:30-17:30,节假日休息

人工解题

人工解题

会员学期新增题免费解答

年费享实践作业、小论文定制

可单独实践报告、小论文定制

解题QQ:994370779

售后反馈
微信公众号
微信公众号
分享本页
返回顶部