hadoop基础面试题(常见Hadoop面试题及答案解析)

hadoop基础面试题(常见Hadoop面试题及答案解析)

4 问答题(一)

4.6 Hadoop 是否遵循UNIX 模式?

是的,在UNIX 用例下,Hadoop 还拥有“conf”目录。

4.7 Hadoop 安装在什么目录下?

Cloudera 和Apache 使用相同的目录结构, Hadoop 被安装在

cd/usr/lib/hadoop-0.20/。

4.8 Namenode、Jobtracker 和tasktracker 的端口号是?

Namenode,70;Jobtracker,30;Tasktracker,60。

4.9 Hadoop 的核心配置是什么?

Hadoop 的核心配置通过两个xml 文件来完成:1,hadoop-default.xml;2,

hadoop-site.xml。这些文件都使用xml 格式,因此每个xml 中都有一些属性,包括名称

和值,但是当下这些文件都已不复存在。

4.10 那当下又该如何配置?

Hadoop 现在拥有3 个配置文件:1,core-site.xml;2,hdfs-site.xml;3,

mapred-site.xml。这些文件都保存在conf/子目录下。

4.11 RAM 的溢出因子是?

溢出因子(Spillfactor)是临时文件中储存文件的大小,也就是Hadoop-temp 目录。

4.12 fs.mapr.working.dir 只是单一的目录?

fs.mapr.working.dir 只是一个目录。

4.13 hdfs-site.xml 的3 个主要属性?

dfs.name.dir 决定的是元数据存储的路径以及DFS 的存储方式(磁盘或是远端)

dfs.data.dir 决定的是数据存储的路径

fs.checkpoint.dir 用于第二Namenode

4.14 如何退出输入模式?

退出输入的方式有:1,按ESC;2,键入:q(如果你没有输入任何当下)或者键入:wq

(如果你已经输入当下),并且按下Enter。

4.15 当你输入hadoopfsck/造成“connectionrefusedjavaexception’”时,系统究

竟发生了什么?

这意味着Namenode 没有运行在你的VM 之上。

4.16 我们使用Ubuntu 及Cloudera,那么我们该去哪里下载Hadoop,或者是默认

就与Ubuntu 一起安装?

这个属于Hadoop 的默认配置,你必须从Cloudera 或者Edureka 的dropbox 下载,

然后在你的系统上运行。当然,你也可以自己配置,但是你需要一个Linuxbox,Ubuntu

或者是RedHat。在Cloudera 网站或者是Edureka 的Dropbox 中有安装步骤。

4.17 “jps”命令的用处?

这个命令可以检查Namenode、Datanode、TaskTracker、JobTracker 是否正常工

作。

4.18 如何重启Namenode?

点击stop-all.sh,再点击start-all.sh。

键入sudohdfs ( Enter), su-hdfs ( Enter),/etc/init.d/ha (Enter), 及

/etc/init.d/hadoop-0.20-namenodestart(Enter)。

4.19 Fsck 的全名?

全名是:FileSystemCheck。

4.20 如何检查Namenode 是否正常运行?

如果要检查Namenode 是否正常工作, 使用命令

/etc/init.d/hadoop-0.20-namenodestatus 或者就是简单的jps。

4.21 mapred.job.tracker 命令的作用?

可以让你知道哪个节点是JobTracker。

4.22 /etc/init.d 命令的作用是?

/etc/init.d 说明了守护进程(服务)的位置或状态,其实是LINUX 特性,和Hadoop

关系不大。

4.23 如何在浏览器中查找Namenode?

如果你确实需要在浏览器中查找Namenode,你不再需要localhost:8021,

Namenode 的端口号是50070。

4.24 如何从SU 转到Cloudera?

从SU 转到Cloudera 只需要键入exit。

4.25 启动和关闭命令会用到哪些文件?

Slaves 及Masters。

4.26 Slaves 由什么组成?

Slaves 由主机的列表组成,每台1 行,用于说明数据节点。

4.27 Masters 由什么组成?

Masters 同样是主机的列表组成,每台一行,用于说明第二Namenode 服务器。

4.28 hadoop-env.sh 是用于做什么的?

hadoop-env.sh 提供了Hadoop 中.JAVA_HOME 的运行环境。

4.29 Master 文件是否提供了多个入口?

是的你可以拥有多个Master 文件接口。

4.30 hadoop-env.sh 文件当下的位置?

hadoop-env.sh 现在位于conf。

4.31 在Hadoop_PID_DIR 中,PID 代表了什么?

PID 代表了“ProcessID”。

4.32 /var/hadoop/pids 用于做什么?

/var/hadoop/pids 用来存储PID。

4.33 hadoop-metrics.properties 文件的作用是?

hadoop-metrics.properties 被用做“Reporting”,控制Hadoop 报告,初始状态是

“nottoreport”。

4.34 Hadoop 需求什么样的网络?

Hadoop 核心使用Shell(SSH)来驱动从节点上的服务器进程,并在主节点和从节点

之间使用password-lessSSH 连接。

4.35 全分布式环境下为什么需求password-lessSSH?

这主要因为集群中通信过于频繁,JobTracker 需要尽可能快的给TaskTracker 发布任

务。

4.36 这会导致安全问题吗?

完全不用担心。Hadoop 集群是完全隔离的,通常情况下无法从互联网进行操作。与

众不同的配置,因此我们完全不需要在意这种级别的安全漏洞,比如说通过互联网侵入等等。

Hadoop 为机器之间的连接提供了一个相对安全的方式。

4.37 SSH 工作的端口号是?

SSH 工作的端口号是NO.22,当然可以通过它来配置,22 是默认的端口号。

4.38 SSH 中的注意点还包括?

SSH 只是个安全的shell 通信,可以把它当做NO.22 上的一种协议,只需要配置一个

密码就可以安全的访问。

4.39 为什么SSH 本地主机需要密码?

在SSH 中使用密码主要是增加安全性,在某些情况下也根本不会设置密码通信。

4.40 如果在SSH 中添加key,是否还需要设置密码?

是的,即使在SSH 中添加了key,还是需要设置密码。

4.41 假如Namenode 中没有数据会怎么样?

没有数据的Namenode 就不能称之为Namenode,通常情况下,Namenode 肯定

会有数据。

4.42 当JobTracker 宕掉时,Namenode 会发生什么?

当JobTracker 失败时,集群仍然可以正常工作,只要Namenode 没问题。

4.43 是客户端还是Namenode 决定输入的分片?

这并不是客户端决定的,在配置文件中以及决定分片细则。

4.44 是否可以自行搭建Hadoop 集群?

是的,只要对Hadoop 环境足够熟悉,你完全可以这么做。

4.45 是否可以在Windows 上运行Hadoop?

你最好不要这么做,RedHatLinux或者是Ubuntu 才是Hadoop 的最佳操作系统。在

Hadoop 安装中,Windows 通常不会被使用,因为会出现各种各样的问题。因此,Windows

绝对不是Hadoop 的推荐系统。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发表评论

登录后才能评论