国产自产第一-国产自产对白一区-国产自产精品-国产自产区44页-国产自产在线-国产自产自拍-国产自产自拍视频-国产自精品

干貨|50個大數據面試問題及答案完結篇：經驗豐富的Hadoop開發人員面試問題

原創|大數據新聞|編輯：蔣永|2019-03-12 10:20:10.000|閱讀 1218 次

概述：截止到現在我們已經更新了四期，涵蓋了大數據新人面試、大數據經驗者面試、大數據hadoop面試和hadoop開發新人面試四個板塊，今天進入最后一期，慧都網給大家分享10個經驗豐富的Hadoop開發人員面試問題。

# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

相關鏈接：

截止到現在我們已經更新了四期，涵蓋了大數據新人面試、大數據經驗者面試、大數據hadoop面試和hadoop開發新人面試四個板塊，如果對其中的版塊有興趣的小伙伴，點擊下方文章跳轉觀看。

《干貨|50個大數據面試問題及答案第一篇:10個大數據面試入門級問題》

《干貨|50個大數據面試問題及答案第二篇：10個大數據面試中級問題》

《干貨|50個大數據面試問題及答案第三篇：10個大數據Hadoop面試問題》

《干貨|50個大數據面試問題及答案第四篇：Hadoop開發人員新手面試問題》

馬上開始我們今天的分享，祝您在面試的時候能有所幫助！

經驗豐富的Hadoop開發人員面試問題

面試官對經驗豐富的Hadoop開發人員有更多的期望，因此他們會提一些相對有難度的問題。因此，如果您已經獲得了一些經驗，請不要忘記涵蓋基于命令，基于場景，基于真實體驗的問題。在這里，我們為有經驗的Hadoop開發人員帶來一些示例面試問題。

41.如何重啟Hadoop中的所有守護進程？

答：要重新啟動所有守護進程，需要先停止所有守護進程。Hadoop目錄包含sbin目錄，該目錄存儲腳本文件以在Hadoop中停止和啟動守護進程。

使用stop daemons命令/sbin/stop-all.sh停止所有守護進程，然后使用/sin/start-all.sh命令再次啟動所有守護進程。

42.在Hadoop中使用jps命令有什么用？

答： jps命令用于檢查Hadoop守護程序是否正常運行。此命令顯示在計算機上運行的所有守護程序，即Datanode，Namenode，NodeManager，ResourceManager等。

43.解釋覆蓋HDFS中復制因子的過程。

答：有兩種方法可以覆蓋HDFS中的復制因子。

方法1：在文件基礎上

在此方法中，使用Hadoop FS shell在文件的基礎上更改復制因子。用于此的命令是：

$ hadoop fs - setrep -w2 / my / test_file

這里，test_file是復制因子將設置為2的文件名。

方法2：在目錄基礎上

在此方法中，復制因子在目錄基礎上更改，即修改給定目錄下所有文件的復制因子。

$ hadoop fs -setrep -w5 / my / test_dir

這里，test_dir是目錄的名稱，目錄的復制因子，其中的所有文件都將設置為5。

44.沒有任何數據的NameNode會發生什么？

答案： Hadoop中不存在沒有任何數據的NameNode。如果有NameNode，它將包含一些數據或它將不存在。

45.解釋NameNode恢復過程。

答案： NameNode恢復過程涉及下面提到的使Hadoop集群運行的步驟：

在恢復過程的第一步中，文件系統元數據副本（FsImage）啟動一個新的NameNode。
下一步是配置DataNodes和Clients。然后，這些DataNode和客戶端將確認新的NameNode。
在最后一步中，新的NameNode在完成最后一個檢查點FsImage加載和接收來自DataNodes的塊報告時開始為客戶端提供服務。

注意：不要忘記，這個NameNode恢復過程在大型Hadoop集群上消耗了大量時間。因此，它使日常維護變得困難。因此，建議使用HDFS高可用性架構。

46. Hadoop CLASSPATH如何啟動或停止Hadoop守護進程是必不可少的？

CLASSPATH包含必要的目錄，其中包含用于啟動或停止Hadoop守護程序的jar文件。因此，設置CLASSPATH對于啟動或停止Hadoop守護進程至關重要。

但是，每次設置CLASSPATH都不是我們遵循的標準。通常CLASSPATH寫在/etc/hadoop/hadoop-env.sh文件中。因此，一旦我們運行Hadoop，它將自動加載CLASSPATH。

47.為什么HDFS只適用于大型數據集而不適用于許多小文件？

這是由于NameNode的性能問題。通常，NameNode被分配了巨大的空間來存儲大規模文件的元數據。元數據應該來自單個文件，以實現最佳的空間利用率和成本效益。對于小尺寸文件，NameNode不使用整個空間，這是性能優化問題。

48.為什么我們需要Hadoop中的數據位置？

HDFS中的數據集存儲為Hadoop集群的DataNodes中的塊。在MapReduce作業執行期間，各個Mapper處理塊（Input Splits）。如果數據不在Mapper執行作業的同一節點中，則需要通過網絡將數據從DataNode復制到映射器DataNode。

現在，如果MapReduce作業具有超過100個Mapper并且每個Mapper嘗試同時從集群中的其他DataNode復制數據，則會導致嚴重的網絡擁塞，這是整個系統的一個重要性能問題。因此，數據接近計算是一種有效且具有成本效益的解決方案，在技術上稱為Hadoop中的數據位置。它有助于提高系統的整體吞吐量。

數據局部性能的3 種：