面试题——Python数据分析与应用(补充:简答)

第一章 数据分析概述

36、请简述为什么选择使用Python做数据分析。(至少3个)

参考答案 :

1语法简单精炼,适合初学者入门

2拥有一个巨大且活跃的科学计算社区

3拥有强大的通用编程能力

4人工智能时代的通用语言

5方便对接其他语言

37、请简述什么是conda

参考答案 :

conda是一个在WindowsMac OSLinux上运行的开源软件包管理系统和环境管理系统,可以快速地安装、运行和更新软件包及其依赖项。

38、请简述什么是Anconda

参考答案 :

Anconda是一个可以便捷获取和管理包,同时对环境可以统一管理的发行版本,它包含了condaPython在内的超过180个科学包及其依赖项。

39、简述Anconda的特点。

参考答案 :

1包含了众多流行的科学、数学、工程和数据分析的Python

2完全开源和免费

3额外的加速和优化是收费的,但对于学术用途,可以申请免费的License

4全平台支持LinuxWindowsMac OS X、支持Python2.62.73.4…

第二章 科学计算库NumPy

41、请简述什么布尔型索引。

参考答案 :

布尔型索引指的是将一个布尔数组作为数组索引,返回的数据是布尔数组中True对应位置的值。

42、请简述什么是数组的转置。

参考答案 :

数组的转置指的是将数组中的每个元素按照一定的规则进行位置变换。NumPy提供了transpose()方法和T属性两种实现形式。其中,简单的转置可以使用T属性,它其实就是进行轴对换而已。

第三章 数据分析工具Pandas

41、请简述什么是DataFrame

参考答案 :

DataFrame是一个类似于二维数组或表格(如excel)的对象,它每列的数据可以是不同的数据类型。与Series的结构相似,DataFrame的结构也是由索引和数据组成的,不同的是,DataFrame的索引不仅有行索引,还有列索引。

42、请简述Pandas中有哪些常见的读写操作,并说明其作用。

参考答案 :

常用的读写操作有read_csvto_csvread_sqlto_sqlread_htmlread_excelto_excel,其中read_csvto_csv表示对csv文件的读取与写入;read_sqlto_sql表示对数据库的读取与写入;read_excelto_excel表示对excel文件的读取与写入;read_html表示对网页中table标签数据的读取。

第四章 数据预处理

41、请简述Pandas中数据合并的常用方法。

参考答案 :

Pandas中常用的数据合并方法有concat()函数、merge()函数、join()方法、combine_first()方法,其中concat()函数可以沿着一条轴将多个对象进行堆叠;merge()函数多用于主键合并、join()方法多用于索引合并;combine_first()用于对DataFrame的填充。

42、请简述什么是哑变量。

参考答案 :

哑变量又称虚拟变量、名义变量,从名称上看就知道,它是人为虚设的变量,用来反映某个变量的不同类别。使用哑变量处理类别转换,事实上就是将分类变量转换为哑变量矩阵或指标矩阵,矩阵的值通常用“0”“1”表示。

第五章 数据聚合与分组运算

38、请简述分组聚合的原理。

Pandas中,分组是指使用特定条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作(如聚合、转换等),最后将计算的结果进行整合。

39、请简述groupby()方法的几种分组方式。

参考答案 :

常用的分组方式主要有以下4种:1.列表或数组,其长度必须与待分组轴一样。2.DataFrame对象中某列的名称。3.字典或Series对象,给出待分组轴上的值与分组名称之间的对应关系。4.函数,用于处理轴索引或索引中的各个标签。

第六章 数据可视化

46、请简述什么是Seaborn库。

参考答案 :

Seaborn 是基于Matplotlib的可视化库,专攻于统计可视化,使数据可视化更加赏心悦目。此外,Seaborn 可以和Pandas进行无缝链接,让初学者更容易上手。

47、请简述什么是Bokeh库。

我的答案:

Bokeh是针对浏览器使用的交互式可视化库,它旨在提供优雅、简洁的通用图像,帮助程序员快速地、轻松地创建交互图、数据应用程序等

48、请简述什么是数据可视化。

参考答案 :

数据可视化是指将数据以图表的形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。

49、请简述直方图与条形图的区别。

参考答案 :

1)条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。

2)由于分组数据具有连续性,所以直方图的各矩形通常是连续排列的,而条形图则是分开排列的。

3)条形图主要用于展示分类数据,而直方图则主要用于展示数据型数据。

50、请简述数据可视化的意义。

参考答案 :

数据可视化旨在借助图形化手段,清晰有效地将数据中的各种属性和变量呈现出来,使用户可以从不同的维度观察数据,从而对数据进行更深入地观察和分析。

第七章 时间序列数据分析

61、什么是平稳时间序列?

参考答案 :

对于一个时间序列来说,如果它的均值没有系统的变化(无趋势),方差没有系统变化,并且严格消除了周期性的变化,就称为是平稳的。

62、什么是时间序列?

参考答案 :

时间序列是指多个时间点上形成的数值序列。

63、什么是时间序列的移动?

参考答案 :

移动是指沿着时间轴方向将数据进行前移或后移。

64、什么是滑动窗口?

参考答案 :

滑动窗口指的是根据指定的单位长度来框住时间序列,从而计算框内的统计指标。

第八章 文本数据分析

41jieba库支持哪些分词模式?

参考答案 :

精确模式,全模式,搜索引擎模式

42、什么是NLP

参考答案 :

自然语言处理(NLP)领域是计算机科学领域与人工智能领域中的一个重要方向,主要研究方向是实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

43、什么是词性标注?

参考答案 :

词性标注,又称词类标注,是指为分词结果中的每个单词标注一个正确的词性的过程。

44、情感极性分析有哪些常用方法?

参考答案 :

情感词典、机器学习


发表评论

电子邮件地址不会被公开。 必填项已用*标注