渴望技術(shù)轉(zhuǎn)型
轉(zhuǎn)換行業(yè)的IT小白
有一定技術(shù)基礎(chǔ)
希望增長經(jīng)驗
接觸更廣技術(shù)面
從事一定年限技術(shù)開發(fā)
目標(biāo)突破自我
學(xué)習(xí)大數(shù)據(jù)技術(shù)
突破職業(yè)瓶頸
Linux、Hadoop
Java、Hive、Flume
Kafka等基礎(chǔ)框架
充分了解在線教育行業(yè)的業(yè)務(wù)數(shù)據(jù)體系熟悉在線教育行業(yè)的離線指標(biāo)體系熟悉在線教育行業(yè)的實時指標(biāo)體系
數(shù)據(jù)采集策略數(shù)據(jù)建模理論了解認(rèn)識多種數(shù)據(jù)倉庫技術(shù)模塊充分掌握多種大數(shù)據(jù)技術(shù)框架的協(xié)調(diào)應(yīng)用
數(shù)據(jù)清洗思路離線數(shù)據(jù)分析經(jīng)驗實時數(shù)據(jù)分析經(jīng)驗定時調(diào)度
數(shù)據(jù)可視化接口編寫性能優(yōu)化集群運維任務(wù)部署
項目涵蓋40多個Shell腳本,6大類用戶行為日志數(shù)據(jù),25張業(yè)務(wù)數(shù)據(jù)原始表格,100多張在線教育大數(shù)據(jù)表格,100多個在線教育統(tǒng)計指標(biāo);
充分調(diào)研各大廠數(shù)倉建模體系,以阿里巴巴的數(shù)據(jù)倉庫建模理論為最終藍(lán)本,搭建實用且貼近生產(chǎn)實際的數(shù)倉建模體系;
應(yīng)用建模理論,提出可實踐性強的數(shù)倉搭建理論過程,數(shù)據(jù)調(diào)研→明確數(shù)據(jù)域→構(gòu)建業(yè)務(wù)總線矩陣→維度模型設(shè)計→明確統(tǒng)計指標(biāo)→匯總模型設(shè)計→分層構(gòu)建數(shù)倉;
多方參考大廠數(shù)倉分層體系,合理數(shù)據(jù)分層,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率,降低數(shù)據(jù)計算成本。
實戰(zhàn)式數(shù)據(jù)模擬策略,模擬生成全面的原始數(shù)據(jù),針對真實數(shù)據(jù)執(zhí)行數(shù)據(jù)采集工作;
采用Flume采集用戶行為日志數(shù)據(jù),適配組件全面調(diào)研,給出詳細(xì)貼近實戰(zhàn)的配置文件,自定義采集組件,解決時間戳零點漂移,優(yōu)化小文件存儲帶來問題,提供更多實戰(zhàn)經(jīng)驗;
采用流行數(shù)據(jù)采集框架DataX采集業(yè)務(wù)數(shù)據(jù),提供詳細(xì)配置文件及腳本解讀,掌握更多腳本編寫技巧;
采用Maxwell監(jiān)控業(yè)務(wù)數(shù)據(jù)變動情況,做到更實時更準(zhǔn)確的變動數(shù)據(jù)采集,靈活使用Maxwell框架,全面掌握使用技巧;
真實數(shù)據(jù)ETL實操,掌握如何對原始數(shù)據(jù)進(jìn)行清洗、脫敏、數(shù)據(jù)分類、整合;
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉庫DWD層,完成事務(wù)型事實表、周期型事實表、累積快照事實表搭建和數(shù)據(jù)裝載;
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉庫DIM層,針對緩慢變化維度,構(gòu)建拉鏈表;
基于指標(biāo)體系分析構(gòu)建DWS層,將相同粒度、統(tǒng)計周期的派生指標(biāo)整合統(tǒng)計為寬表,提高計算結(jié)果復(fù)用性;
安裝部署受各大廠歡迎的DolphinScheduler工作流調(diào)度系統(tǒng),實現(xiàn)數(shù)據(jù)倉庫搭建全流程定時自動化調(diào)度以及故障自動郵件告警;
采用SuperSet對調(diào)度采集至RDBMS數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進(jìn)行多圖表、儀表盤可視化展示;
采用Echarts,結(jié)合SpringBoot對結(jié)果數(shù)據(jù)進(jìn)行可視化展示,充分掌握數(shù)據(jù)展示接口編寫流程;
基于企業(yè)級數(shù)據(jù)倉庫的海量數(shù)據(jù)計算業(yè)務(wù),對CPU配置、內(nèi)存分配、任務(wù)提交、任務(wù)執(zhí)行計劃等方面進(jìn)行全面的性能調(diào)優(yōu);
項目涵蓋幾十個Flink實時計算任務(wù)、幾十個實時計算指標(biāo)、上萬行實時開發(fā)代碼。
參照大廠實際數(shù)倉建模理論,分層構(gòu)建實時數(shù)據(jù)倉庫,ODS層、DIM層、DWD層、DWS層、ADS層,分層計算,數(shù)據(jù)分流,提高效率,降低耦合度;
使用HBase+Phoenix的組合存儲DIM層維度數(shù)據(jù),大大提高響應(yīng)速度;
使用Flink CDC結(jié)合MySQL動態(tài)配置表,動態(tài)獲取維度表配置,實現(xiàn)數(shù)據(jù)動態(tài)自動分流;
采用Redis進(jìn)行旁路緩存,提高響應(yīng)速度,并使用Flink提供的異步IO進(jìn)行優(yōu)化;
提供針對多種場景的雙流Join解決方案,深入分析各種解決方案的優(yōu)劣,培養(yǎng)問題解決能力;
靈活運用Flink的狀態(tài)編程實現(xiàn)數(shù)據(jù)去重,計算去重類指標(biāo);
對所有指標(biāo)計算需求提供基于Table API和Flink SQL的兩種解決方案,滿足不同企業(yè)開發(fā)需求,培養(yǎng)多角度開發(fā)能力;
使用FlinkCEP技術(shù)實現(xiàn)不同用戶行為模式的識別,完成用戶跳出行為的篩選;
采用Doris存儲最終寬表數(shù)據(jù),大大提高數(shù)據(jù)查詢效率,并為用戶提供即席查詢、可視化報表展示的多樣可能性;
采用SpringBoot編寫數(shù)據(jù)展示接口對接SugarBI實現(xiàn)數(shù)據(jù)可視化大屏展示,熟練掌握數(shù)據(jù)展示接口的編寫流程
詳細(xì)講解生產(chǎn)環(huán)境中會產(chǎn)生的反壓問題,對反壓原因、反壓定位、反壓處理進(jìn)行詳細(xì)分解;
多角度分析大數(shù)據(jù)分析中常見的數(shù)據(jù)傾斜問題,提供詳盡的問題定位策略和多種解決方案;
? 詳細(xì)講解生產(chǎn)環(huán)境中常見的故障:非法配置異常、Java 堆空間異常、直接緩沖存儲器異常、元空間異常、網(wǎng)絡(luò)緩沖區(qū)數(shù)量不足、超出容器內(nèi)存異常、Checkpoint 失敗、Checkpoint 慢、Kafka動態(tài)發(fā)現(xiàn)分區(qū)、Watermark不更新、依賴沖突、超出文件描述符限制、臟數(shù)據(jù)導(dǎo)致數(shù)據(jù)轉(zhuǎn)發(fā)失敗等,令學(xué)員在短時間內(nèi)掌握生產(chǎn)環(huán)境中常見到、難解決的開發(fā)難題,迅速增長經(jīng)驗,提升能力。