江苏开放大学数据采集与预处理第三次高分参考答案含代码

注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧

江苏开放大学数据采集与预处理第三次选择题

1、下列选项中,( )是评价数据质量的核心准则。

A、完整性

B、准确性

C、适用性

D、简洁性

正确答案:C   学生答案:C

2、下列说法中,关于清洗重复值的说法正确的是( )

A、清洗重复值的基本思想是“分而合之”

B、清洗重复值的基本思想是“排序”

C、清洗重复值的基本思想是“排序和合井”

D、清洗重复值的基本思想是“合并”

正确答案:C   学生答案:C

3、下列选项属于名义型特征的是( )

A、景点名称={天坛,北海,故宫、⾹⼭}

B、成绩={88,92,83,95}

C、质量⽔平={⼀级,⼆级,三级,四级}

D、半径={7.64,7.44,7.23,7.39}

正确答案:A   学生答案:A

4、下列选项中,描述不正确的是( )。

A、数据清洗的目的是为了提高数据质量

B、异常值一定要删除

C、可使用Drop_DupliCAtes()方法删除重复数据

D、ConCAt()函数可以沿着一条轴将多个对象进行堆迭

正确答案:B   学生答案:B

5、请阅读下面一段程序:

from pAnDAs import Series

import pnDAs As pD

from numpy import NAN

series_oBj = Series([None, 4, NAN])

pD.isnull(series_oBj)

执行上述程序后,最终输出的结果为( )。

A、0 True1 FAlse2True

B、0True1True2FAlse

C、0FAlse1True2rue

D、0True1 True2True

正确答案:A   学生答案:A

6、下列选项中,可以删除缺失值或空值的是( )。

A、.isnull()

B、.notnull()

C、.DropnA()

D、.fillnA()

正确答案:C   学生答案:C

7、下列选项中,描述不正确是( )。

A、ConCA、t()函数可以沿着一条轴将多个对象进行堆迭

B、merge()函数可以根据一个或多个键将不同的DAtAFrAme进行合并

C、可以使用renAme()方法对索引进行重命名操作

D、unstACk()方法可以将列索引旋转为行索引

正确答案:D   学生答案:D

8、请阅读下面一段程序:

import numpy As np

import pAnDAs As pD

ser_oBj = pD.Series([4, np.nAn, 6, ])

ser_oBj.sort_vAlues()

执行上述程序后,最终输出的结果为( )。

A、4、 -3、.0、5、 2、.0、0、 4、.0、3、 5、.0、 6、.01、 NA、N

B、1、 NA、N2、 6、.0、3、 5、.0、0、 4、.0、5、 2、.04、 -3、.0、

C、5、 2、.0、0、 4、.0、3、 5、.0、2、 6、.0、4、 -3、.0、

1、 NA、N

D、0、 4、.0、1、 NA、N2、 6、.0、3、 5、.0、4、 -3、.0、5、 2、.0、

正确答案:A   学生答案:A

9、下列说法错误的是( )

A、必须删除异常值

B、可以对缺失值进⾏插补

C、对数据进⾏标准化,消除量纲的影响

D、数据离散化是⼀种数据转换的⽅式

正确答案:A   学生答案:A

10、下列选项表述错误的是( )

A、数据清洗包括缺失值处理、异常值处理、数据转换等⼏个⽅⾯

B、数据的初步处理是对数据进⾏整合、分组等操作

C、检测异常值的⽅法可以基于统计、距离、密度、模型等

D、缺失值最好的处理⽅式是直接删除

正确答案:D   学生答案:D

江苏开放大学数据采集与预处理第三次填空题

1、常见的数据质量问题主要包括缺失值、以及错误值等问题。

正确答案:重复值

2、stA、C、k()方法可以将列索引转换为。

正确答案:行索引

3、技术是提高数据质量的有效方法。

正确答案:数据清洗

4、ConCAt()函数的堆迭方式有横向堆迭和,连接方式有内连接和纵向堆叠。

1简述数据清洗的基本流程。

参考答案:

1、对缺失值进行清洗数据清洗第一步,对缺失值进行清洗。缺失值是非常常见的数据问题,它的处理方法也很多。下面分享一种很常用的方法,首先是明确缺失值的范围:对每个字段进行计算其缺失值比例,并按照缺失比例和字段重要性,分别制定策略。

2、去除不需要的字段:这个步骤非常简单,直接删掉即可。这里有一个点注意,就是记得先对数据进行备份,或者先进行小规模的数据实验,确定无误后在应用到大量的数据上。这样做是为了避免“一误删成千古恨”。

3、填充缺失内容:填充缺失数据有3种方法,分别是以业务知识/经验推测进行填充、以同一个指标计算的结果进行填充、以不同的指标计算的结果进行填充。

4、重新取数:重新取数是针对那些指标重要但缺失率又较高的数据,这需要向取数人员或是业务人员进行资讯,或者从其他渠道取到相关数据。

5、关联性验证:如果数据的来源较多,就有必要进行关联性验证。

2、现有如下图所示的两组数据,其中 A组中B列数据存在缺失值,并且该列数据为int类型,B组中的数据均为str类型。接下来,请对这些数据进行以下操作:

江苏开放大学数据采集与预处理第三次高分参考答案含代码

(1)使用DAtAFrAme创建这两组数据。

(2)现在需要使用B组中的数据对A组中的缺失值进行填充并保持数据类型一致。

(3)将合并后A组中索引名为key的索引重命名为D。

请将程序写在下面的文本框内。

import numpy as np 
import pandas as pd 
group_A=pd.DataFrame({'A':[2,3,5,2,3], 
                      'B':[5,np.nan,2,3,6], 
                      'C':[8,7,50,8,2], 
                      'key':[3,4,5,2,5]},dtype=int)
group_B=pd.DataFrame({'A':[3,4,5], 
                      'B':[3,4,5], 
                      'C':[3,4,5]},dtype=str)
com=group_A.combine_first(group_B) 
com.rename(columns={'key':'D'},inplace=True)
print(com)

禁止转载未经授权,禁止转载,发布者:形考达人黄金VIP,出处:https://www.xingkaowang.com/9697.html

本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!内容仅供研究参考,付费前请自行鉴别。

免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,预祝大家上岸成功

(0)
上一篇 2023年8月22日 下午7:20
下一篇 2023年8月22日 下午7:54

相关推荐

发表回复

登录后才能评论
联系我们

邮件:xingkaowang@163.com

QQ:994370779

工作时间:周一至周五,9:30-17:30,节假日休息

人工解题

人工解题

会员学期新增题免费解答

年费享实践作业、小论文定制

可单独实践报告、小论文定制

解题QQ:994370779

售后反馈
微信公众号
微信公众号
分享本页
返回顶部