北大英华大数据面试题

尚硅谷教育 04-02 145

前言：

此时兄弟们对“简述集群计算的最主要瓶颈”大约比较关注，看官们都想要学习一些“简述集群计算的最主要瓶颈”的相关知识。那么小编也在网络上收集了一些有关“简述集群计算的最主要瓶颈””的相关文章，希望兄弟们能喜欢，小伙伴们快快来了解一下吧！

北大英华

一、选择题（单、多选）

1.下面哪个程序负责HDFS数据存储 ()

a)NameNode b)Jobtracker c)Datanode d）secondaryNameNode e)tasktracker

2.下列哪个程序通常与NameNode在一个节点启动（）

a) SecondaryNameNode b）DataNode c）TaskrTracker d)Jobtracker

3.下列哪项通常是集群的最主要瓶颈（）

a）CPU b)网络c）磁盘d）内存

4.关于SecondaryNameNode 哪项是正确的？（）

a）它是Namewode的热备

b)它对内存没有要求

c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间

d)SecondaryNameNode应与NameNode 部署到一个节点

5.有关hashMap 跟hashTable 的区别，说法正确的是（）

a) hashMap和hashTable都实现了Map接口

b）HashMap是非synchronized，而HashTable是synchronized

c）HashTable 使用Enumeration,HashMap使用Iterator

d)HashTable直接使用对象的hashcode,HashMap重新计算hash值，而且用与代替求模

6.以下说法正确的是（）

a)对于局部内部类，不能在class前加任何修饰符（public default private protected）来修饰

b)只要没有定义不带参数的构造函数，JVM都会为类生成一个默认的构造函数

c)向上转型中，父类与子类拥有相同名字的普通方法时，访问的是子类的成员方法

d)单例模式中类的构造方法使用private修饰，声明为私有，这样就不能在类的外部使用new关键字来创建实例对象

7.在JAVA中关于抽象类的描述正确的说（）

a）抽象类可以被实例化

B）如果一个类中有一个方法被声明为抽象的这个类必须是抽象类

c）抽象类的方法必须是抽象的

d）声明抽象类必须带有abstract关键字

8.Client 端上传文件的时候下列哪项正确

a）数据经过NameNode传递给DataNode

b）Client 端将文件切分为Block，依次上传

c）Client 只上传数据到一台Datalode，然后由NameNode负责Block复制工作

9.以下说法正确的是（）

a）Hadoop是Java 开发的，所以MapReduce只支持Java 语言编写

b）Hadoop 支持数据的随机读写

c）Ganglia 不仅可以进行监控，也可以进行告警

d）Block Size 是不可以修改的

10.下面哪段程序能够正确的实现了GBK编码字节流到UTF-8编码字节流的转换：

byte[] src,dst;()

a)dst=String.fromBytes(src,"GBK").getBytes("UTF-8")

b)dst=new String(src,"GBK").getBytes("UTF-8")

c)dst=new String("GBK",src).getBytes()

d)dst=String.encode(String.decode(src,"GBK")),"UTF-8)

11.以下说法正确的是()

a)Slave 节点要存储数据，所以它的磁盘越大越好。

b)Hadoop默认调度器策略为FIFO

c)Mapreduce的input split 就是一个block

d)集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行

12.以下关于kafka的说法正确的有()

a)producer向broker发送事件

b)consumer从broker消费事件

c)事件由topic区分开，每个consumer都会属于一个group

d)相同的group中的consumer不能重复消费事件，而同一事件将会发送给每一个不

同group的consumer

13.下面哪个操作肯定是宽依赖()

A. map B. flatMap C. reduceByKey D. sample

14.下面哪个端口不是spark自带服务的端口()

A. 8080 B.4040 C.8090 D.18080

15.下面哪个是spark的action操作

a) map b) collect c)filter d)countByKey

16.以下说法错误的是()

a)启动一个新线程是直接调用run()方法

b)CyclicBarrier和CountDownLatch都可以用来让一组线程等待其它线程

c)如果手动结束一个线程，可以用volatile布尔变量来退出run()方法，循

还或者是取消任务来中断线程

d)wait和notify方法要在同步块里调用

17.hive的元数据存储在derby 和 MySQL 中有什么区别()

A.没区别 B.多会话 C.支持网络环境 D.数据库的区别

18.Spark默认的存储级别()

A MEMORY_ONLY B MEMORY_ONLY_SER

C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

19.Spark中Stape的Task的数量是由什么决定的()

A Partition B Job C Stage D TaskScheduler

20.以下代码运行输出是()

public class Person{private String name = "Person";int age = 0;}public class Child extends Person{public String grade;public static void main(String[] args){Person p = new Child();System.out.println(p.name);}}

A)输出：Person

B)没有输出

C)编译出错

D)运行出错

二，简答部分

1.scala中的隐式函数的关键字？

2. Hbase如何优化的？

3. hadoop中的combine函数的作用？

4. hadoop如何杀死一个job？

5. spark血统的概念？

6. 写出在base shel1中的命令：

a）hbase中查询表名为test，谁的值=001

b）hbase中查询表名为test，rowkey为userl开头的

本文地址：http://www.longkongtuishu.com/cac17BA1sAlUAAVI.html

标签： #简述集群计算的最主要瓶颈

北大英华大数据面试题

分享一些容易被忽视的Hadoop面试题及答案

北大英华大数据面试题