大数据分布并行处理试题及答案.docx

想预览更多内容,点击预览全文

申明敬告:

本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己完全接受本站规则且自行承担所有风险,本站不退款、不进行额外附加服务;如果您已付费下载过本站文档,您可以点击这里二次下载

文档介绍

大数据分布并行处理试题及答案

RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,只能通过文件创建。 [判断题]

错(正确答案)

spark中的map和flatmap算子的区别是flatmap可以返回多条元素 [判断题]

对(正确答案)

下面哪个算子容易导致driver端内存溢出? [单选题]

map

count

collect(正确答案)

take

哪一种持久化策略表示只存储到内存,并且不序列化。 [单选题]

MEMORY_ONLY(正确答案)

cache()

MEMORY_AND_DISK

MEMORY_ONLY_SER

spark中的广播变量可以保证每个Executor内部只保存1份变量数据。 [判断题]

错(正确答案)

spark中在划分Stage的时候,遇到窄依赖就会划分出前后两个Stage。 [判断题]

错(正确答案)

spark中的持久化,只是将数据保存在内存中或者本地磁盘文件中,RDD的lineage(血缘关系)是不变的。 [判断题]

对(正确答案)

HBase属于基于键值对类型的NoSQL数据库。 [判断题]

对(正确答案)

针对HBase的应用场景的介绍,错误的是: [单选题]

适合半结构和非结构数据

适合存储记录稀疏的数据

适合存储多版本数据

适合海量数据分析(正确答案)

HBase中不支持数字和字符串数据类型。 [判断题]

对(正确答案)

HBase中,每一行数据中的Rowkey字段不是必须的,可以为null。 [判断题]

错(正确答案)

HBase中在建表的时候,列族必须指定,并且后期无法修改。 [判断题]

错(正确答案)

HBase中,针对具有多个历史版本数据的字段,会按照时间戳正序排序。 [判断题]

错(正确答案)

HBase中的数据是按照Rowkey正序

最近下载