是一個讓使用者簡易撰寫並執行處理海量資料應用程式的軟體平台。
比喻:
處理海量資料的生產線,只需學會定義 map 跟 reduce 工作站該做哪些事情。
特色:
- 海量:擁有儲存與處理大量資料的能力。
- 經濟:可以用在一般PC所架設的叢集環境內。
- 效率:透過分散式檔案系統的幫助,可以得到快速回應。
- 可靠:節點發生錯誤,即時自動取得備份資料與部屬運算資源。
Hadoop軟體歷史起源:
Hadoop是由Apache Lucene的建立者Doug Cutting所開發維護。
2003年 - Google發表雲端運算論文 (GFS/Bigtable/MapReduce)
2004年 - Doug Cutting 開放原始碼實作,NDFS
2004年 - Google發佈MapReduce的架構
2005年 - Doug Cutting實作MapReduce
2006年 - Doug Cutting將Nutch改名為Hadoop,並加入Yahoo團隊。
2006年 - MapReduce和NDFS分別被納入Hadoop的項目中。
2008年 - Yahoo宣布達成 10000-core Hadoop cluster
2009年 - Yahoo破了世界紀錄1T的資料分析(62秒),打敗Google的68秒。
其他事件:
- Nutch後來遇到儲存大量網站資料的瓶頸。
- Google在會議分享他們的三大關鍵技術。 (GFS/Bigtable/MapReduce)
- Hadoop創辦人曾經參考Google的設計。
- 原本的Nutch Distributed File System 變成了 Hadoop DFS (HDFS)
名詞解釋:
Lucene:用Java設計的高效能文件索引引擎API,索引文件中的每一字,讓搜尋的效率比傳統逐字比較還要高很多。
Nutch:是一個開放原始碼(自Nutch 0.8開始),以Java來實作的搜尋引擎,利用Lucene為函式庫。
沒有留言:
張貼留言