大数据分布并行处理试题及答案.docx
- Summer&Records个人认证 |
- 2021-09-17 发布|
- 23.81 KB|
- 27页
大数据分布并行处理试题及答案
RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,只能通过文件创建。 [判断题]
对
错(正确答案)
spark中的map和flatmap算子的区别是flatmap可以返回多条元素 [判断题]
对(正确答案)
错
下面哪个算子容易导致driver端内存溢出? [单选题]
map
count
collect(正确答案)
take
哪一种持久化策略表示只存储到内存,并且不序列化。 [单选题]
MEMORY_ONLY(正确答案)
cache()
MEMORY_AND_DISK
MEMORY_ONLY_SER
spark中的广播变量可以保证每个Executor内部只保存1份变量数据。 [判断题]
对
错(正确答案)
spark中在划分Stage的时候,遇到窄依赖就会划分出前后两个Stage。 [判断题]
对
错(正确答案)
spark中的持久化,只是将数据保存在内存中或者本地磁盘文件中,RDD的lineage(血缘关系)是不变的。 [判断题]
对(正确答案)
错
HBase属于基于键值对类型的NoSQL数据库。 [判断题]
对(正确答案)
错
针对HBase的应用场景的介绍,错误的是: [单选题]
适合半结构和非结构数据
适合存储记录稀疏的数据
适合存储多版本数据
适合海量数据分析(正确答案)
HBase中不支持数字和字符串数据类型。 [判断题]
对(正确答案)
错
HBase中,每一行数据中的Rowkey字段不是必须的,可以为null。 [判断题]
对
错(正确答案)
HBase中在建表的时候,列族必须指定,并且后期无法修改。 [判断题]
对
错(正确答案)
HBase中,针对具有多个历史版本数据的字段,会按照时间戳正序排序。 [判断题]
对
错(正确答案)
HBase中的数据是按照Rowkey正序