原創|大數據新聞|編輯:蔣永|2019-03-12 10:20:10.000|閱讀 1218 次
概述:截止到現在我們已經更新了四期,涵蓋了大數據新人面試、大數據經驗者面試、大數據hadoop面試和hadoop開發新人面試四個板塊,今天進入最后一期,慧都網給大家分享10個經驗豐富的Hadoop開發人員面試問題。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
截止到現在我們已經更新了四期,涵蓋了大數據新人面試、大數據經驗者面試、大數據hadoop面試和hadoop開發新人面試四個板塊,如果對其中的版塊有興趣的小伙伴,點擊下方文章跳轉觀看。
《干貨|50個大數據面試問題及答案第一篇:10個大數據面試入門級問題》
《干貨|50個大數據面試問題及答案第二篇:10個大數據面試中級問題 》
《干貨|50個大數據面試問題及答案第三篇:10個大數據Hadoop面試問題》
《干貨|50個大數據面試問題及答案第四篇:Hadoop開發人員新手面試問題》
馬上開始我們今天的分享,祝您在面試的時候能有所幫助!
面試官對經驗豐富的Hadoop開發人員有更多的期望,因此他們會提一些相對有難度的問題。因此,如果您已經獲得了一些經驗,請不要忘記涵蓋基于命令,基于場景,基于真實體驗的問題。在這里,我們為有經驗的Hadoop開發人員帶來一些示例面試問題。
41.如何重啟Hadoop中的所有守護進程?
答:要重新啟動所有守護進程,需要先停止所有守護進程。Hadoop目錄包含sbin目錄,該目錄存儲腳本文件以在Hadoop中停止和啟動守護進程。
使用stop daemons命令/sbin/stop-all.sh停止所有守護進程,然后使用/sin/start-all.sh命令再次啟動所有守護進程。
42.在Hadoop中使用jps命令有什么用?
答: jps命令用于檢查Hadoop守護程序是否正常運行。此命令顯示在計算機上運行的所有守護程序,即Datanode,Namenode,NodeManager,ResourceManager等。
43.解釋覆蓋HDFS中復制因子的過程。
答:有兩種方法可以覆蓋HDFS中的復制因子。
方法1:在文件基礎上
在此方法中,使用Hadoop FS shell在文件的基礎上更改復制因子。用于此的命令是:
$ hadoop fs - setrep -w2 / my / test_file
這里,test_file是復制因子將設置為2的文件名。
方法2:在目錄基礎上
在此方法中,復制因子在目錄基礎上更改,即修改給定目錄下所有文件的復制因子。
$ hadoop fs -setrep -w5 / my / test_dir
這里,test_dir是目錄的名稱,目錄的復制因子,其中的所有文件都將設置為5。
44.沒有任何數據的NameNode會發生什么?
答案: Hadoop中不存在沒有任何數據的NameNode。如果有NameNode,它將包含一些數據或它將不存在。
45.解釋NameNode恢復過程。
答案: NameNode恢復過程涉及下面提到的使Hadoop集群運行的步驟:
注意:不要忘記,這個NameNode恢復過程在大型Hadoop集群上消耗了大量時間。因此,它使日常維護變得困難。因此,建議使用HDFS高可用性架構。
46. Hadoop CLASSPATH如何啟動或停止Hadoop守護進程是必不可少的?
CLASSPATH包含必要的目錄,其中包含用于啟動或停止Hadoop守護程序的jar文件。因此,設置CLASSPATH對于啟動或停止Hadoop守護進程至關重要。
但是,每次設置CLASSPATH都不是我們遵循的標準。通常CLASSPATH寫在/etc/hadoop/hadoop-env.sh文件中。因此,一旦我們運行Hadoop,它將自動加載CLASSPATH。
47.為什么HDFS只適用于大型數據集而不適用于許多小文件?
這是由于NameNode的性能問題。通常,NameNode被分配了巨大的空間來存儲大規模文件的元數據。元數據應該來自單個文件,以實現最佳的空間利用率和成本效益。對于小尺寸文件,NameNode不使用整個空間,這是性能優化問題。
48.為什么我們需要Hadoop中的數據位置?
HDFS中的數據集存儲為Hadoop集群的DataNodes中的塊。在MapReduce作業執行期間,各個Mapper處理塊(Input Splits)。如果數據不在Mapper執行作業的同一節點中,則需要通過網絡將數據從DataNode復制到映射器DataNode。
現在,如果MapReduce作業具有超過100個Mapper并且每個Mapper嘗試同時從集群中的其他DataNode復制數據,則會導致嚴重的網絡擁塞,這是整個系統的一個重要性能問題。因此,數據接近計算是一種有效且具有成本效益的解決方案,在技術上稱為Hadoop中的數據位置。它有助于提高系統的整體吞吐量。
數據局部性能的3 種:
49. DFS可以處理大量數據,為什么我們需要Hadoop框架?
Hadoop不僅用于存儲大數據,還用于處理這些大數據。雖然DFS(分布式文件系統)也可以存儲數據,但它缺少以下功能:
50.什么是Sequencefileinputformat?
Hadoop使用特定的文件格式,稱為序列文件。序列文件將數據存儲在序列化鍵值對中。Sequencefileinputformat是讀取序列文件的輸入格式。
50個大數據面試問題及答案系列已經全部完結,慧都網衷心的祝愿您在面試中取得成功,不管您是新人還是經驗豐富的老手都希望您能在我們分享的50個面試問題和答案中獲取您想要的東西,如果您發現除我們分享的50個問題中并沒有涵蓋您認為的專業問題,您可以評論留言給我們,我們期待和您一起分享。
與此同時可以撥打慧都熱線023-68661681或咨詢,我們將幫您轉接大數據專家團隊,并發送相關資料給您!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn