大數(shù)據(jù)培訓(xùn)之大數(shù)據(jù)技術(shù)生態(tài)體系
大數(shù)據(jù)技術(shù)生態(tài)體系如圖2-26所示。
圖2-26? 大數(shù)據(jù)技術(shù)生態(tài)體系
圖中涉及的技術(shù)名詞解釋如下:
1)Sqoop:Sqoop是一款開(kāi)源的工具,主要用于在Hadoop、Hive與傳統(tǒng)的數(shù)據(jù)庫(kù)(MySql)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 :MySQL,Oracle 等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。
2)Flume:Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方(可定制)的能力。
3)Kafka:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),有如下特性:
(1)通過(guò)O(1)的磁盤(pán)數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種結(jié)構(gòu)對(duì)于即使數(shù)以TB的消息存儲(chǔ)也能夠保持長(zhǎng)時(shí)間的穩(wěn)定性能。
(2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒數(shù)百萬(wàn)的消息。
(3)支持通過(guò)Kafka服務(wù)器和消費(fèi)機(jī)集群來(lái)分區(qū)消息。
(4)支持Hadoop并行數(shù)據(jù)加載。
4)Storm:Storm用于“連續(xù)計(jì)算”,對(duì)數(shù)據(jù)流做連續(xù)查詢(xún),在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶(hù)。
5)Spark:Spark是當(dāng)前最流行的開(kāi)源大數(shù)據(jù)內(nèi)存計(jì)算框架。可以基于Hadoop上存儲(chǔ)的大數(shù)據(jù)進(jìn)行計(jì)算。
6)Oozie:Oozie是一個(gè)管理Hdoop作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。
7)Hbase:HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。
8)Hive:Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的SQL查詢(xún)功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。
10)R語(yǔ)言:R是用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開(kāi)放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。
11)Mahout:Apache Mahout是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)。
12)ZooKeeper:Zookeeper是Google的Chubby一個(gè)開(kāi)源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、 分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶(hù)。
想要了解跟多關(guān)于大數(shù)據(jù)培訓(xùn)課程內(nèi)容歡迎關(guān)注尚硅谷大數(shù)據(jù)培訓(xùn),尚硅谷除了這些技術(shù)文章外還有免費(fèi)的高質(zhì)量大數(shù)據(jù)培訓(xùn)課程視頻供廣大學(xué)員下載學(xué)習(xí)。