面试题——Python数据分析与应用(补充:填空)

 

第一章 数据分析概述

26Jupyter Notebook可以使用命令行方式打开,只需要在命令行中输入命令即可。

参考答案 :

Jupyter Notebook

 

27、数据分析是指使用适当的对收集来的大量数据进行分析,从中提取有用信息和形成结论,并加以详细研究和概括总结的过程。

参考答案 :

【统计分析方法】

 

28、在处理自然语言时库被称为使用Python进行教学和计算语言学工作的绝佳工具

参考答案 :

NLTK

 

29Anconda PromptAnconda自带的

参考答案 :【命令行】

 

30是一个集成了大量常用扩展包的环境,能够避免包配置或兼容等各类问题。

参考答案 :

Anaconda

 

31、在使用Anconda管理Python包时,可以使用命令可以获取当前环境中已经安装的包信息。

参考答案 :

conda list

 

32Jupyter Notebook是一个支持代码、数学方程、可视化和MarkdownWeb应用程序

参考答案 :

【实时】

33SeabornPython中基于的数据可视化工具。

参考答案 :

Matplotlib

 

 

34、在统计学领域,数据分析可以划分为

参考答案 :

【描述性数据分析】【探索性数据分析】【验证性数据分析】

 

35Pandas是一个基于的数据分析包,它是为了解决数据分析任务而创建的。

参考答案 :

NumPy

 

第二章 科学计算库NumPy

31ndarray对象具有能力和复杂的广播能力。

参考答案 :

【矢量算术】

 

32NumPy函数是三元表达式x if condition else y的矢量化版本。

参考答案 :

where()

 

33、已知数组ashape为(41),数组bshape为(2,),则它们相加后得到数组的shape

参考答案 :

【(42)】

 

34、在NumPy中,大小相等的数组之间的任何算术运算都会应用到

参考答案 :

【元素级】

 

35、在Numpy中,可以使用函数找出数组中的唯一值。

参考答案 :

unique()

 

36、在创建ndarray对象时,可以使用arange()函数创建一个数组。

参考答案 :

【等差】

 

37、在NumPy中,函数用于判断整个数组中的元素的值是否全部满足条件。

参考答案 :

all()

 

38、根据数组参数的个数可以将通用函数分为通用函数与通用函数。

参考答案 :

【一元】【二元】

 

39、数组在进行矢量化运算时,要求数组的形状是的。

参考答案 :

【相等】

 

40、在NumPy中,ndarray对象具有处理的能力。

参考答案 :

【高维数组】

 

 

第三章 数据分析工具Pandas

31DataFrame类对象属于二维结构,它同时拥有索引和索引。

参考答案 :

【行】【列】

 

32MultiIndex类提供了3种创建层次化索引的方法,它们分别是from_tuples()from_arrays()

参考答案 :

from_product()

 

33、在创建Series对象时,可以通过一个列表或进行构建。

参考答案 :

【字典】

 

34Pandas排序可以分为按排序和按索引排序。

参考答案 :

【数据】

 

35Pandas执行算术运算时,会先按照索引进行对齐,对齐以后再进行相应的运算,没有对齐的位置会用进行补齐。

参考答案 :

NaN

 

36、使用read_html()函数读取网页数据时,只能读取网页的标签。

参考答案 :

table

 

37Pandas常用的数据结构有

参考答案 :

Series】【DataFrame

 

38函数既可以读取整张数据表,又可以执行SQL语句。

参考答案 :

read_sql()

 

39Series结构由组成。

参考答案 :

【索引】【数据】

 

40iloc方法主要使用整数来索引数据,而不能使用来索引数据。

参考答案 :

【标签】

 

 

第四章 数据预处理

31Pandas中使用函数实现哑变量处理。

参考答案 :

get_dummies()

 

32、数据的目的在于提高数据质量。

参考答案 :

【清洗】

 

33、使用drop_duplicates()函数重复数据时,默认会保留第一次出现的数据。

参考答案 :

【删除】

 

34的目的是让数据具有完整性、唯一性、权威性、合法性、一致性。

参考答案 :

【数据清洗】

 

35、检测异常值的方法有

参考答案 :

原则】【箱形图】

 

36、缺失值产生的原因主要有

参考答案 :

【人为原因】【机械原因】

 

37merge()函数连接数据的方式包括内连接、外连接、

参考答案 :

【左连接】【右连接】

 

38、通过fillna()方法填充缺失数据时,可以采用前向填充或两种方式。

参考答案 :

【后向填充】

 

39Pandas中使用函数实现离散化数据。

参考答案 :

cut()

 

40duplicated()方法用于标记Pandas对象的数据是否重复,重复则标记为

参考答案 :

True

 

 

第五章 数据聚合与分组运算

30、在Pandas中,是指使用特定的条件将原数据划分为若干个组。

参考答案 :

【分组】

 

31、当一个DataFrame对象执行groupby()方法后会返回一个对象。

参考答案 :

DataFrameGroupBy

 

32groupby()Pandas中提供的一个用来的方法。

参考答案 :

【分组】

 

33、分组聚合的过程可分为和合并。

参考答案 :

【拆分】【应用】

 

34、在分组聚合的过程中,应用是指将某个或方法应用到每个分组。

参考答案 :

【函数】

 

35、通过agg(func)方法进行聚合时,func参数既可以接收Pandas中的内置方法,也可以接收函数。

参考答案 :

【自定义】

答案说明 :

当用字典对Pandas对象进行分组时,则需要确定轴的方向及字典中的映射关系,即字典中的键为列名,字典的值为自定义的分组名。

 

36、以列表或数组做为分组键时,它们的必须与待分组对象的轴一样。

参考答案 :

【长度】

 

37transform()方法会对产生的标量值进行操作。

参考答案 :

【广播】

答案说明 :

transform()方法返回的结果有两种,一种是可以广播的标量值(np.mean),另一种可以是与分组大小相同的结果数组。

 

第六章 数据可视化

31、饼图可以显示一个数据序列中各项的大小与各项总和的

参考答案 :

【比例】

 

32Bokeh是一个专门针对使用的交互式可视化库。

参考答案 :

Web浏览器】

 

33使用一系列高度不等的纵向条纹或线段表示数据分布的情况。

参考答案 :

【直方图】

答案说明 :

直方图,又称作质量分布图,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据的类型,纵轴表示分布情况。

 

34Matplotlib是一个Python 2D库,作图风格接近MATLAB

参考答案 :

【绘图】

 

35、当调用plot()函数绘制图形时,会画在指定子图的位置上。

参考答案 :

【最后一次】

 

36pyplot模块中默认拥有一个表示空白画布的对象。

参考答案 :

Figure

 

37Bokeh式可视化的绘图库,支持Web浏览器展示。

参考答案 :

【交互】

 

38是用直线段将各数据点连接起来而组成的图形,以折线的方式显示数据的变化趋势。

参考答案 :

【折线图】

答案说明 :

折线图是用直线段将各数据点连接起来而组成的图形,以折线的方式显示数据的变化趋势。

 

39、折线图是用直线段将各数据点连接起来而组成的图形,以的方式显示数据的变化趋势。

参考答案 :

【折线】

 

40、要想使用Matplotlib绘制图表,需要先导入模块。

参考答案 :

pyplot

 

41Figure对象允许划分为多个绘图区域,每个绘图区域都是一个对象,被称为子图。

参考答案 :

Axes

 

42、要想当前生成的图表,可以调用savefig()函数实现。

参考答案 :

【保存】

 

43、如果不希望在默认的画布上绘制图形,则可以调用函数构建一张新的空白画布。

参考答案 :

figure()

 

44、数据可视化是指将数据以的形式表示,并利用数据分析发现其中未知信息的处理过程。

参考答案 :

【图表】

 

45、如果希望一次性创建一组,则可以通过subplots()函数进行实现。

参考答案 :

【子图】

 

 

第七章 时间序列数据分析

41、在创建DatetimeIndex对象时,如果只是指定了开始日期与结束日期,则默认生成的时间戳是按计算的。

参考答案 :

【天】

 

42、通过date_range()函数创建DatetimeIndex对象时,如果只是传入了开始日期或结束日期,则还需要用参数指定产生多少个时间戳。

参考答案 :

periods

 

43、若频率相同的两个Period对象进行数学运算,则计算结果为它们的

参考答案 :

【单位数量】

 

44、如果是将高频率数据聚合到低频率数据,则称为

参考答案 :

【降采样】

 

45是指将时间序列从一个频率转换到另一个频率的处理过程。

参考答案 :

【重采样】

 

46、不平稳的时间序列需要通过一定手段转化为平稳序列,一般采用的手段就是

参考答案 :

【差分】

 

47、时间序列的移动是指沿着方向将数据进行前移或后移。

参考答案 :

【时间轴】

 

48、若调用shift()方法时传入一个,则表明时间序列中的数据会沿着纵轴方向移动一次。

参考答案 :

【正数】

 

49、若调用shift()方法时传入一个,则表明时间序列中的数据会沿着纵轴反方向移动一次。

参考答案 :

-1

 

50指的是根据指定的单位长度来框住时间序列,从而计算框内的统计指标。

参考答案 :

【滑动窗口】

 

51、在降采样时,时间序列的数据量是的。

参考答案 :

【减少】

 

52、如果将低频率数据转换到高频率数据,则称为

参考答案 :

【升采样】

 

53、在Pandas中,时间戳使用对象表示。

参考答案 :

Timestamp

 

54DatetimeIndex对象表示由一组构成的索引。

参考答案 :

【时间戳】

 

55Pandas提供的date_range()函数主要用于生成一个具有频率的DatetimeIndex对象。

参考答案 :

【固定】

 

56、时间序列是指多个上形成的数值序列。

参考答案 :

【时间点】

 

57ARIMA是一种用于时间序列的常见统计模型。

参考答案 :

【预测】

 

58、时间序列数据经过移动操作后,发生了变化,而时间戳索引没有发生任何变化。

参考答案 :

【数据】

 

59、在Pandas中,类表示一个标准的时间段或时期。

参考答案 :

Period

 

60Pandas中的频率是由一个和一个乘数组成的。

参考答案 :

【基础频率】

 

 

第八章 文本数据分析

26、词形归一化的目的是将派生词转化为形式。

参考答案 :

【基本】

 

27NLTK是一套基于的自然语言处理工具包。

参考答案 :

Python

 

28、一般,我们会使用来表示文本特征。

参考答案 :

【词频】

答案说明 :

一般,我们会使用词频(某一个给定词语在文档中出现的次数)来表示文本特征,若某个词在这些文本中出现的次数最多,则表示这个单词比较具有代表性。

 

29、余弦相似度通过计算两个的夹角余弦值来评估它们的相似度。

参考答案 :

【向量】

 

30NLP主要研究的是实现人与计算机之间用语言进行有效通信的各种理论和方法。

参考答案 :

【自然】

 

31NLTK库中提供了一个FreqDist类,主要负责记录每个词出现的

参考答案 :

【次数】

 

32、英文句子是以为分隔符的。

参考答案 :

【空格】

 

33的目的是将文本自动地归类为一种或多种预定义的类别。

参考答案 :

【文本分类】

 

34、余弦相似度与向量的幅值无关,只与向量的相关。

参考答案 :

【方向】

答案说明 :

当两个向量的方向完全相反,夹角余弦取最小值-1。当余弦值为0时,两向量正交,夹角为90度。

 

35NLTK中的模块用于获取和处理语料库。

参考答案 :

nltk.corpus

 

36、文本情感分析是对带有的主观性文本进行分析、处理、归纳和推理的过程。

参考答案 :

【情感色彩】

 

37是指按照一定的规则将由连续字符组成的语句划分成一个个独立词语的过程。

参考答案 :

【分词】

 

38、词性标注是给分词结果中的每个单词标注一个正确的过程。

参考答案 :

【词性】

 

39、情感分析可以细分为分析、情感程度分析及主客观分析等。

参考答案 :

【情感极性】

 

40nltk.text模块中提供了类来表示一组文本。

参考答案 :

TextCollection


 

面试题——Python数据分析与应用(补充:填空)》有1个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注