大數據職位收入高

學了大數據,薪酬年年飛,攔都攔不住!

你是否已經意識這是你人生中的一個重要轉機?能不能抓住這個時代的機遇,就在于你對大數據信息的應用和獲取。而如何成為大數據時代的弄潮兒,掌握當下最緊缺的軟件技能是關鍵!谷歌、阿里巴巴、百度、京東都在急需掌握hadoop技術的大數據人才!無論你精通大數據的哪一項類,都將在未來職場脫穎而出!

我要高薪就業

大數據、云計算系統頂級架構師課程學習路線圖

大數據之Java企業級核心技術篇

了解更多詳情

課程體系

北風大數據、云計算系統架構師頂級課程

階段一、大數據、云計算 - Hadoop大數據開發技術

課程一、大數據運維之Linux基礎

本部分是基礎課程,幫大家進入大數據領域打好Linux基礎,以便更好地學習Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等眾多課程。因為企業
中的項目基本上都是使用Linux環境下搭建或部署的。

1)Linux系統概述
2)系統安裝及相關配置
3)Linux網絡基礎
4)OpenSSH實現網絡安全連接
5)vi文本編輯器

6)用戶和用戶組管理
7)磁盤管理
8)Linux文件和目錄管理
9)Linux終端常用命令
10)linux系統監測與維護

課程二、大數據開發核心技術 - Hadoop 2.x從入門到精通

本課程是整套大數據課程的基石:其一,分布式文件系統HDFS用于存儲海量數據,無論是Hive、HBase或者Spark數據存儲在其上面;其二是分布式資源管理框架
YARN,是Hadoop 云操作系統(也稱數據系統),管理集群資源和分布式數據處理框架MapReduce、Spark應用的資源調度與監控;分布式并行計算框架
MapReduce目前是海量數據并行處理的一個最常用的框架。Hadoop 2.x的編譯、環境搭建、HDFS Shell使用,YARN 集群資源管理與任務監控,MapReduce編
程,分布式集群的部署管理(包括高可用性HA)必須要掌握的。

一、初識Hadoop 2.x

1)大數據應用發展、前景
2)Hadoop 2.x概述及生態系統
3)Hadoop 2.x環境搭建與測試

二、深入Hadoop 2.x

1)HDFS文件系統的架構、功能、設計
2)HDFS Java API使用
3)YARN 架構、集群管理、應用監控
4)MapReduce編程模型、Shuffle過程、編程調優

三、高級Hadoop 2.x

1)分布式部署Hadoop 2.x
2)分布式協作服務框架Zookeeper
3)HDFS HA架構、配置、測試
4)HDFS 2.x中高級特性
5)YARN HA架構、配置
6)Hadoop 主要發行版本(CDH、HDP、Apache)

四、實戰應用

1)以【北風網用戶瀏覽日志】數據進行實際的分析 2)原數據采集 3)數據的預處理(ETL) 4)數據的分析處理(MapReduce)

課程三、大數據開發核心技術 - 大數據倉庫Hive精講

hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行
運行。其優點是學習成本低,可以通類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

一、Hive 初識入門

1)Hive功能、體系結構、使用場景
2)Hive環境搭建、初級使用
3)Hive原數據配置、常見交互方式

二、Hive深入使用

1)Hive中的內部表、外部表、分區表
2)Hive 數據遷移
3)Hive常見查詢(select、where、distinct、join、group by)
4)Hive 內置函數和UDF編程

三、Hive高級進階

1)Hive數據的存儲和壓縮
2)Hive常見優化(數據傾斜、壓縮等)

四、結合【北風網用戶瀏覽日志】實際案例分析

1)依據業務設計表
2)數據清洗、導入(ETL)
3)使用HiveQL,統計常見的網站指標

課程四、大數據協作框架 - Sqoop/Flume/Oozie精講

Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL
,Oracle ,Postgres等)中的數據導進到關系型數據庫中。Sqoop項目開始于2009年,最早是作為Hadoop的一個第三方模塊存在,后來為了讓使用者能夠快速部
署,也為了讓開發人員能夠更快速的迭代開發,Sqoop獨立成為一個Apache項目。

一、數據轉換工具Sqoop

1)Sqoop功能、使用原則
2)將RDBMS數據導入Hive表中(全量、增量)
3)將HDFS上文件導出到RDBMS表中

二、文件收集框架Flume

1)Flume 設計架構、原理(三大組件)
2)Flume初步使用,實時采集數據
3)如何使用Flume監控文件夾數據,實時采集錄入HDFS中 4)任務調度框架Oozie

三、Oozie功能、安裝部署

1)使用Oozie調度MapReduce Job和HiveQL
2)定時調度任務使用

課程五、大數據Web開發框架 - 大數據WEB 工具Hue精講

Hue是一個開源的Apache Hadoop UI系統,最早是由Cloudera Desktop演化而來,由Cloudera貢獻給開源社區,它是基于Python Web框架Django實現的。通
過使用Hue我們可以在瀏覽器端的Web控制臺上與Hadoop集群進行交互來分析處理數據,例如操作HDFS上的數據,運行MapReduce Job等等。

1)Hue架構、功能、編譯
2)Hue集成HDFS
3)Hue集成MapReduce

4)Hue集成Hive、DataBase
5)Hue集成Oozie

課程六、大數據核心開發技術 - 分布式數據庫HBase從入門到精通

HBase是一個分布式的、面向列的開源數據庫,該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分布式存儲系統”。HBase在
Hadoop之上提供了類似于Bigtable的能力,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大
規模結構化存儲集群

一、HBase初窺使用

1)HBase是什么、發展、與RDBMS相比優勢、企業使用
2)HBase Schema、表的設計
3)HBase 環境搭建、shell初步使用(CRUD等)

二、HBase 深入使用

1)HBase 數據存儲模型
2)HBase Java API使用(CRUD、SCAN等)
3)HBase 架構深入剖析
4)HBase 與MapReduce集成、數據導入導出

三、HBase 高級使用

1)如何設計表、表的預分區(依據具體業務分析講解)
2)HBase 表的常見屬性設置(結合企業實際)
3)HBase Admin操作(Java API、常見命令)

四、【北風網用戶瀏覽日志】進行分析

1)依據需求設計表、創建表、預分區
2)進行業務查詢分析
3)對于密集型讀和密集型寫進行HBase參數調優

課程七、大數據核心開發技術 - Storm實時數據處理(選修)

Storm是Twitter開源的分布式實時大數據處理框架,被業界稱為實時版Hadoop。 隨著越來越多的場景對Hadoop的MapReduce高延遲無法容忍,比如網站統計、
推薦系統、預警系統、金融系統(高頻交易、股票)等等, 大數據實時處理解決方案(流計算)的應用日趨廣泛,目前已是分布式技術領域最新爆發點,而Storm更是
流計算技術中的佼佼者和主流。 按照storm作者的說法,Storm對于實時計算的意義類似于Hadoop對于批處理的意義。Hadoop提供了map、reduce原語,使我
們的批處理程序變得簡單和高效。 同樣,Storm也為實時計算提供了一些簡單高效的原語,而且Storm的Trident是基于Storm原語更高級的抽象框架,類似于基于
Hadoop的Pig框架, 讓開發更加便利和高效。本課程會深入、全面的講解Storm,并穿插企業場景實戰講述Storm的運用。 淘寶雙11的大屏幕實時監控效果沖擊
了整個IT界,業界為之驚嘆的同時更是引起對該技術的探索。 學完本課程你可以自己開發升級版的“淘寶雙11”,還等什么?

1)Storm簡介和課程介紹
2)Storm原理和概念詳解
3)Zookeeper集群搭建及基本使用
4)Storm集群搭建及測試
5)API簡介和入門案例開發
6)Spout的Tail特性、storm-starter及maven使用、Grouping策略
7)實例講解Grouping策略及并發
8)并發度詳解、案例開發(高并發運用)
9)案例開發——計算網站PV,通過2種方式實現匯總型計算。
10)案例優化引入Zookeeper鎖控制線程操作
11)計算網站UV(去重計算模式)
12)【運維】集群統一啟動和停止shell腳本開發
13)Storm事務工作原理深入講解 14)Storm事務API及案例分析

15)Storm事務案例實戰之 ITransactionalSpout
16)Storm事務案例升級之按天計算
17)Storm分區事務案例實戰
18)Storm不透明分區事務案例實戰
19)DRPC精解和案例分析
20)Storm Trident 入門
21)Trident API和概念
22)Storm Trident實戰之計算網站PV
23)ITridentSpout、FirstN(取Top N)實現、流合并和Join
24)Storm Trident之函數、流聚合及核心概念State
25)Storm Trident綜合實戰一(基于HBase的State)
26)Storm Trident綜合實戰二
27)Storm Trident綜合實戰三
28)Storm集群和作業監控告警開發

課程八、Spark技術實戰之基礎篇 -Scala語言從入門到精通

為什么要學習Scala?源于Spark的流行,Spark是當前最流行的開源大數據內存計算框架,采用Scala語言實現,各大公司都在使用Spark:IBM宣布承諾大力推進
Apache Spark項目,并稱該項目為:在以數據為主導的,未來十年最為重要的新的開源項目。這一承諾的核心是將Spark嵌入IBM業內領先的分析和商務平臺,
Scala具有數據處理的天然優勢,Scala是未來大數據處理的主流語言

1)-Spark的前世今生
2)-課程介紹、特色與價值
3)-Scala編程詳解:基礎語法
4)-Scala編程詳解:條件控制與循環
5)-Scala編程詳解:函數入門
6)-Scala編程詳解:函數入門之默認參數和帶名參數
7)-Scala編程詳解:函數入門之變長參數
8)-Scala編程詳解:函數入門之過程、lazy值和異常
9)-Scala編程詳解:數組操作之Array、ArrayBuffer以及遍歷數組
10)-Scala編程詳解:數組操作之數組轉換

11)-Scala編程詳解:Map與Tuple
12)-Scala編程詳解:面向對象編程之類
13)-Scala編程詳解:面向對象編程之對象
14)-Scala編程詳解:面向對象編程之繼承
15)-Scala編程詳解:面向對象編程之Trait
16)-Scala編程詳解:函數式編程
17)-Scala編程詳解:函數式編程之集合操作
18)-Scala編程詳解:模式匹配
19)-Scala編程詳解:類型參數
20)-Scala編程詳解:隱式轉換與隱式參數
21)-Scala編程詳解:Actor入門

課程九、大數據核心開發技術 - 內存計算框架Spark精講

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優點。啟用了內存分布數據集,除
了能夠提供交互式查詢外,它還可以優化迭代工作負載。Spark Streaming: 構建在Spark上處理Stream數據的框架,基本的原理是將Stream數據分成小的時間片斷
(幾秒),以類似batch批量處理的方式來處理這小部分數據

1)Spark 初識入門
2)Spark 概述、生態系統、與MapReduce比較
3)Spark 編譯、安裝部署(Standalone Mode)及測試
4)Spark應用提交工具(spark-submit,spark-shell)
5)Scala基本知識講解(變量,類,高階函數)
6)Spark 核心RDD
7)RDD特性、常見操作、緩存策略
8)RDD Dependency、Stage常、源碼分析
9)Spark 核心組件概述

10)案例分析
11)Spark 高階應用
12)Spark on YARN運行原理、運行模式及測試
13)Spark HistoryServer歷史應用監控
14)Spark Streaming流式計算
15)Spark Streaming 原理、DStream設計
16)Spark Streaming 常見input、out
17)Spark Streaming 與Kafka集成
18)使用Spark對【北風網用戶瀏覽日志】進行分析

課程十、大數據核心開發技術 - Spark深入剖析

本課程主要講解目前大數據領域熱門、火爆、有前景的技術——Spark。在本課程中,會從淺入深,基于大量案例實戰,深度剖析和講解Spark,并且會包含
完全從企業真實復雜業務需求中抽取出的案例實戰。課程會涵蓋Scala編程詳解、Spark核心編程.

1)Scala編程、Hadoop與Spark集群搭建、Spark核心編程、Spark內核源碼深度剖析、Spark性能調優
2)Spark源碼剖析

課程十一、企業大數據平臺高級應用

本階段主要就之前所學內容完成大數據相關企業場景與解決方案的剖析應用及結合一個電子商務平臺進行實戰分析,主要包括有: 企業大數據平臺概述、搭建企業
大數據平臺、真實服務器手把手環境部署、使用CM 5.3.x管理CDH 5.3.x集群

1)企業大數據平臺概述
2)大數據平臺基本組件
3)Hadoop 發行版本、比較、選擇
4)集群環境的準備(系統、基本配置、規劃等)
5)搭建企業大數據平臺
6)以實際企業項目需求為依據,搭建平臺
7)需求分析(主要業務)
8)框架選擇(Hive\HBase\Spark等)

9)真實服務器手把手環境部署
10)安裝Cloudera Manager 5.3.x
11)使用CM 5.3.x安裝CDH 5.3.x
12)如何使用CM 5.3.x管理CDH 5.3.x集群
13)基本配置,優化
14)基本性能測試
15)各個組件如何使用

課程十二、項目實戰:驢媽媽旅游網大型離線數據電商分析平臺

離線數據分析平臺是一種利用hadoop集群開發工具的一種方式,主要作用是幫助公司對網站的應用有一個比較好的了解。尤其是在電商、旅游、銀行、證券、游戲
等領域有非常廣泛,因為這些領域對數據和用戶的特性把握要求比較高,所以對于離線數據的分析就有比較高的要求了。 本課程講師本人之前在游戲、旅游等公司
專門從事離線數據分析平臺的搭建和開發等,通過此項目將所有大數據內容貫穿,并前后展示!

1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、離線數據分析,SpringMVC,Highchat
2)Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts實現的電商離線數據分析
3)日志收集系統、日志分析、數據展示設計

課程十三、項目實戰:基于1號店的電商實時數據分析系統(選修)

課程基于1號店的業務及數據進行設計和講解的,主要涉及
1、課程中完整開發3個Storm項目,均為企業實際項目,其中一個是完全由Storm Trident開發。 項目源碼均可以直接運行,也可直接用于商用或企業。
2、每個技術均采用最新穩定版本,學完后會員可以從Kafka到Storm項目開發及HighCharts圖表開發一個人搞定!讓學員身價劇增!
3、搭建CDH5生態環境完整平臺,且采用Cloudera Manager界面化管理CDH5平臺。讓Hadoop平臺環境搭建和維護都變得輕而易舉。
4、分享實際項目的架構設計、優劣分析和取舍、經驗技巧,陡直提升學員的經驗值

1)全面掌握Storm完整項目開發思路和架構設計
2)掌握Storm Trident項目開發模式
3)掌握Kafka運維和API開發、與Storm接口開發
4)掌握HighCharts各類圖表開發和實時無刷新加載數據
5)熟練搭建CDH5生態環境完整平臺

6)靈活運用HBase作為外部存儲
7)可以做到以一己之力完成從后臺開發(Storm、Kafka、Hbase開發)
到前臺HighCharts圖表開發、Jquery運用等,所有工作一個人搞定!
可以一個人搞定淘寶雙11大屏幕項目!

課程十四、項目實戰:基于美團網的大型離線電商數據分析平臺

本項目使用了Spark技術生態棧中最常用的三個技術框架,Spark Core、Spark SQL和Spark Streaming,進行離線計算和實時計算業務模塊的開發。實現了包括用
戶訪問session分析、頁面單跳轉化率統計、熱門商品離線統計、 廣告點擊流量實時統計4個業務模塊。過合理的將實際業務模塊進行技術整合與改造,
該項目完全涵蓋了Spark Core、Spark SQL和Spark Streaming這三個技術框架中幾乎所有的功能點、知識點以及性能優化點。 僅一個項目,即可全面掌握Spark
技術在實際項目中如何實現各種類型的業務需求!在項目中,重點講解了實際企業項目中積累下來的寶貴的性能調優 、troubleshooting以及數據傾斜解決方案等知識和技術

1)真實還原完整的企業級大數據項目開發流程:
項目中采用完全還原企業大數據項目開發場景的方式來講解,
每一個業務模塊的講解都包括了數據分析、需求分析、方案設計、數據庫設計、編碼實現、功能測試、性能調優、troubleshooting與解決數據傾斜(后期運維)等環節
,真實還原企業級大數據項目開發場景。
讓學員掌握真實大數據項目的開發流程和經驗!

2)現場Excel手工畫圖與寫筆記:所有復雜業務流程、架構原理
、Spark技術原理、業務需求分析、技術實現方案等知識的講解
,采用Excel畫圖或者寫詳細比較的方式進行講解與分析,
細致入微、形象地透徹剖析理論知識,幫助學員更好的理解、記憶與復習鞏固。

課程十五、大數據高薪面試剖析

本階段通過對歷來大數據公司企業真實面試題的剖析,講解,讓學員真正的一個菜鳥轉型為具有1年以上的大數據開發工作經驗的專業人士,也是講師多年來大數據
企業開發的經驗之談。

1)大數據項目
2)企業大數據項目的類型
3)技術架構(如何使用各框架處理數據)
4)沖刺高薪面試
5)面試簡歷編寫(把握重點要點)
6)面試中的技巧

7)常見面試題講解
8)如何快速融入企業進行工作(對于大數據公司來說非常關鍵)
9)學員答疑
10)針對普遍問題進行公共解答
11)一對一的交流

階段二、大數據、云計算 - 機器學習

課程十六、機器學習及實踐

本課程先基于PyMC語言以及一系列常用的Python數據分析框架,如NumPy、SciPy和Matplotlib,通過概率編程的方式,講解了貝葉斯推斷的原理和實現方法。
該方法常常可以在避免引入大量數學分析的前提下,有效地解決問題。課程中使用的案例往往是工作中遇到的實際問題,有趣并且實用。通過對本課程的學習,學員
可以對分類、回歸等算法有較為深入的了解,以Python編程語言為基礎,在不涉及大量數學模型與復雜編程知識的前提下,講師逐步帶領學員熟悉并且掌握當下最流行的機器學習算法,如回歸、決策樹、SVM等,并通過代碼實例來 展示所討論的算法的實際應用。

1)Mahout、Spark MLlib概述
2)機器學習概述
3)線性回歸及Mahout、SparkMLlib案例
4)Logistic回歸、softmax分類及Mahout、SparkMLlib案例
5)KNN及Mahout、SparkMllib案例
6)SVM及Mahout、SparkMllib案例
7)決策樹及Mahout、SparkMllib案例

8)隨機森林及Mahout、SparkMllib案例
9)GBDT及Mahout、SparkMllib案例
10)KMeans及Mahout、SparkMllib案例
11)貝葉斯及Mahout、SparkMllib案例
12)集成學習
13)特征處理及模型優化

課程十七、推薦系統

本課程重點講解開發推薦系統的方法,尤其是許多經典算法,重點探討如何衡量推薦系統的有效性。課程內容分為基本概念和進展兩部分:前者涉及協同推薦、基于
內容的推薦、基于知識的推薦、混合推薦方法,推薦系統的解釋、評估推薦系統和實例分析;后者包括針對推薦系統的攻擊、在線消費決策、推薦系統和下一代互聯網以及普適環境中的推薦。課程中包含大量的圖、表和示例,有助于學員理解和把握相關知識等。

1)協同過濾推薦
2)基于內容的推薦
3)基于知識的推薦
4)混合推薦方法

5)推薦系統的解釋 
6)評估推薦系統
7)案例研究

課程十八、分布式搜索引擎Elasticsearch開發(選修)

聯網+、大數據、網絡爬蟲、搜索引擎等等這些概念,如今可謂炙手可熱,本課程就是以公司項目經驗為基礎,為大家帶來市面上比較流行的分布式搜索引擎之一的ElasicSearch,深入淺出的帶領大家了解并掌握該技術的綜合應用,從而為大家添加一份競爭的資本。
本課程旨在帶領大家進入搜索引擎領域,從無到有,深入淺出的講解了什么是搜索引擎,搜索引擎的作用以及ElasticSearch在實際工作中的作用等

1)Elasticsearch概念
2)Elasticsearch安裝和插件介紹
3)Elasticsearch基本使用和簡單查詢
4)Elasticsearch的Java客戶端使用

5)Elasticsearch索引和Mapping
6)Elasticsearch搜索深入
7)Elasticsearch與Spring集成
8)Elasticsearch實戰

課程十九、SparkMLlib機器學習

基于Spark框架及ML庫為核心,主要包含:Spark數據操作、矩陣向量、線性回歸、邏輯回歸、保序回歸、樸素貝葉斯、決策樹、隨機森林、SVM支持向量機、GBDT、特征工程等技術模塊;
三個課程項目:金融反欺詐、美劇推薦系統、CTR廣告預估。

階段三、大數據、云計算 - Java企業級核心應用(選修)

課程二十、深入Java性能調優

國內關于Java性能調優的課程非常少,如此全面深入介紹Java性能調優,北風算是,Special講師,十余年Java方面開發工作經驗,資深軟件開發系統架構師,
本套課程系多年工作經驗與心得的總結,課程有著很高的含金量和實用價值,本課程專注于java應用程序的優化方法,技巧和思想,深入剖析軟件設計層面、代碼層面、JVM虛擬機層面的優化方法,理論結合實際,使用豐富的示例幫助學員理解理論知識。

課程二十一、JAVA企業級開放必備高級技術(Weblogic Tomcat集群 Apach集群)

Java自面世后就非常流行,發展迅速,對C++語言形成有力沖擊。在全球云計算和移動互聯網的產業環境下,Java更具備了顯著優勢和廣闊前景,那么滋生的基于
java項目也越來越多,對java運行環境的要求也越來越高,很多java的程序員只知道對業務的擴展而不知道對java本身的運行環境的調試,例如虛擬機調優,服務器集群等,所以也滋生本門課程的產生。

階段四、大數據、云計算 - 分布式集群、PB級別網站性能優化(選修)

課程二十二、大數據高并發系統架構實戰方案(LVS負載均衡、Nginx、共享存儲、海量數據、隊列緩存 )

隨著互聯網的發展,高并發、大數據量的網站要求越來越高。而這些高要求都是基礎的技術和細節組合而成的。本課程就從實際案例出發給大家原景重現高并發架構
常用技術點及詳細演練。通過該課程的學習,普通的技術人員就可以快速搭建起千萬級的高并發大數據網站平臺,課程涉及內容包括:LVS實現負載均衡、Nginx高級
配置實戰、共享存儲實現動態內容靜態化加速實戰、緩存平臺安裝配置使用、mysql主從復制安裝配置實戰等。

課程二十三、大數據高并發服務器實戰教程

隨著Web技術的普及,Internet上的各類網站第天都在雪崩式增長。但這些網站大多在性能上沒做過多考慮。當然,它們情況不同。有的是Web技術本身的原因(主
要是程序代碼問題),還有就是由于Web服務器未進行優化。不管是哪種情況,一但用戶量在短時間內激增,網站就會明顯變慢,甚至拒絕放訪問。要想有效地解決
這些問題,就只有依靠不同的優化技術。本課程就是主要用于來解決大型網站性能問題,能夠承受大數據、高并發。主要涉及 技術有:nginx、tomcat、memcached、redis緩存、負載均衡等高級開發技術

課程二十四、項目實戰:PB級通用電商網站性能優化解決方案

本部分通過一個通用電商訂單支付模塊,外加淘寶支付接口的實現(可用于實際項目開發),剖析并分析過程中可能遇到的各種性能瓶頸及相關的解決方案與優化技
巧。最終目標,讓有具有PHP基礎或Java基礎的學員迅速掌握Linux下的開發知識,并對涉及到nginx、tomcat、memcached、redis緩存、負載均衡等高級開發技術有一個全面的了解

階段五、Python基礎與數據分析(選修)

課程二十五、Python基礎與數據分析

本課程主要講解Python基礎以及Pyhton數據分析,包括語句、函數、表達式以及模塊化 開發、類與對象等,帶領大家快速掌握Python,為后續處理數據以及分析服務打下良好基礎。

1)Python基礎
2)Python控制語句與函數
3)Lambda表達式、裝飾器和Python模塊化開發

4)Python類與對象
5)Python數據庫操作+正則表達式
6)Python數據分析

階段六、大數據、云計算 - 數據挖掘、分析&機器學習(選修)

課程二十六、玩轉大數據:深入淺出大數據挖掘技術(Apriori算法、Tanagra工具、決策樹)

本課程名為深入淺出數據挖掘技術。所謂“深入”,指得是從數據挖掘的原理與經典算法入手。其一是要了解算法,知道什么場景應當應用什么樣的方法;其二是學
習算法的經典思想,可以將它應用到其他的實際項目之中;其三是理解算法,讓數據挖掘的算法能夠應用到您的項目開發之中去。所謂“淺出”,指得是將數據挖掘
算法的應用落實到實際的應用中。課程會通過三個不同的方面來講解算法的應用:一是微軟公司的SQL Server與Excel等工具實現的數據挖掘;二是著名開源算法
的數據挖掘,如Weka、KNIMA、Tanagra等開源工具;三是利用C#語言做演示來完成數據挖掘算法的實現。根據實際的引用場景,數據挖掘技術通常分為分類
器、關聯分析、聚類算法等三大類別。本課程主要介紹這三大算法的經典思想以及部分著名的實現形式,并結合一
些商業分析工具、開源工具或編程等方式來講解具體的應用方法

課程二十七、Lucene4.X實戰類baidu搜索的大型文檔海量搜索系統

本課程由淺入深的介紹了Lucene4的發展歷史,開發環境搭建,分析lucene4的中文分詞原理,深入講了lucenne4的系統架構,分析lucene4索引實現原理及性能優
化,了解關于lucene4的搜索算法優化及利用java結合lucene4實現類百度文庫的全文檢索功能等相對高端實用的內容,市面上一般很難找到同類具有相同深度與廣度的視頻,集原理、基礎、案例與實戰與一身,不可多得的一部高端視頻教程。

課程二十八、快速上手數據挖掘之solr搜索引擎高級教程(Solr集群、KI分詞、項目實戰)

本教程從最基礎的solr語法開始講解,選擇了最新最流行的開源搜索引擎服務框架solr5.3.1,利用Tomcat8搭建了solr的集群服務;本教程可以幫助學員快速上手
solr的開發和二次開發,包括在hadoop集群的是利用,海量數據的索引和實時檢索,通過 了解、學習、安裝、配置、集成等步驟引導學員如何將solr集成到項目中。

課程二十九、項目實戰:SPSS Modeler數據挖掘項目實戰培訓

SS Modeler是業界極為著名的數據挖掘軟件,其前身為SPSS Clementine。SPSS Modeler內置豐富的數據挖掘模型,以其強大的挖掘功能和友好的操作習慣,深
受用戶的喜愛和好評,成為眾多知名企業在數據挖掘項目上的軟件產品選擇。本課程以SPSS Modeler為應用軟件,以數據挖掘項目生命周期為線索,以實際數據挖掘項目為例,講解了從項目商業理解開始,到最后軟件實現的全過程。

課程三十、數據層交換和高性能并發處理(開源ETL大數據治理工具)

ETL是數據的抽取清洗轉換加載的過程,是數據進入數據倉庫進行大數據分析的載入過程,目前流行的數據進入倉庫的過程有兩種形式,一種是進入數據庫后再進行
清洗和轉換,另外一條路線是首先進行清洗轉換再進入數據庫,我們的ETL屬于后者。 大數據的利器大家可能普遍說是hadoop,但是大家要知道如果我們不做預先
的清洗和轉換處理,我們進入hadoop后僅通過mapreduce進行數據清洗轉換再進行分析,垃圾數據會導致我們的磁盤占用量會相當大,這樣無形中提升了我們的
硬件成本(硬盤大,內存小處理速度會很慢,內存大cpu性能低速度也會受影響),因此雖然hadoop理論上解決了爛機器拼起來解決大問題的問題,但是事實上如
果我們有更好的節點速度必然是會普遍提升的,因此ETL在大數據環境下仍然是必不可少的數據交換工具。

課程三十一、深入淺出Hadoop Mahout數據挖掘實戰(算法分析、項目實戰、中文分詞技術)

Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。課程包括:Mahout數據挖掘工具 及Hadoop實現推薦系統的綜合實戰,涉及到MapReduce、Pig和Mahout的綜合實戰

課程三十二、大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資)

近年來,金融領域的量化分析越來越受到理論界與實務界的重視,量化分析的技術也取得了較大的進展,成為備受關注的一個熱點領域。所謂金融量化,就是將金融
分析理論與計算機編程技術相結合,更為有效的利用現代計算技術實現準確的金融資產定價以及交易機會的發現。量化分析目前已經涉及到金融領域的方方面面,包
括基礎和衍生金融資產定價、風險管理、量化投資等。隨著大數據技術的發展,量化分析還逐步與大數據結合在一起,對海量金融數據實現有效和快速的運算與處
理。在量化金融的時代,選用一種合適的編程語言對于金融模型的實現是至關重要的。在這方面,Python語言體現出了不一般的優勢,特別是它擁有大量的金融計
算庫,并且可以提供與C++,java等語言的接口以實現高效率的分析,成為金融領域快速開發和應用的一種關鍵語言,由于它是開源的,降低了金融計算的成本,
而且還通過廣泛的社交網絡提供大量的應用實例,極大的縮短了金融量化分析的學習路徑。本課程在量化分析與Python語言快速發展的背景下介紹二者之間的關聯,使學員能夠快速掌握如何利用Python語言進行金融數據量化分析的基本方法。

課程三十三、項目實戰:云計算處理大數據深度、智能挖掘技術+地震數據挖掘分析

本課程介紹了基于云計算的大數據處理技術,重點介紹了一款高效的、實時分析處理海量數據的強有力工具——數據立方。數據立方是針對大數據處理的分布式數
據庫,能夠可靠地對大數據進行實時處理,具有即時響應多用戶并發請求的能力,通過對當前主流的大數據處理系統進行深入剖析,闡述了數據立方產生的背景,介
紹了數據立方的整體架構以及安裝和詳細開發流程,并給出了4個完整的數據立方 綜合應用實例。所有實例都經過驗證并附有詳細的步驟說明,無論是對于云計算的
初學者還是想進一步深入學習大數據處理技術的研發人員、研究人員都有很好的參 考價值。

階段七、大數據、云計算運維&云計算技術篇(選修)

課程三十四、Zookeeper從入門到精通(開發詳解,案例實戰,Web界面監控)

ZooKeeper是Hadoop的開源子項目(Google Chubby的開源實現),它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、命名服務、分
布式同步、組服務等。Zookeeper的Fast Fail 和 Leader選舉特性大大增強了分布式集群的穩定和健壯性,并且解決了Master/Slave模式的單點故障重大隱患,這
是越來越多的分布式產品如HBase、Storm(流計算)、S4(流計算)等強依賴Zookeeper的原因。Zookeeper在分布式集群(Hadoop生態圈)中的地位越來越
突出,對分布式應用的開發也提供了極大便利,這是迫切需要深入學習Zookeeper的原因。本課程主要內容包括Zookeeper深入、客戶端開發(Java編程,案例開
發)、日常運維、Web界面監控,“一條龍”的實戰平臺分享給大家。

課程三十五、云計算Docker從零基礎到專家實戰教程

Docker是一種開源的應用容器引擎,使用Docker可以快速地實現虛擬化,并且實現虛擬化的性能相對于其他技術來說較高。并且隨著云計算的普及以及對虛擬化技
術的大量需求,使得云計算人才供不應求,所以一些大型企業對Docker專業技術人才需求較大。本教程從最基礎的Dokcer原理開始講起,深入淺出,并且全套課程
均結合實例實戰進行講解,讓學員可以不僅能了解原理,更能夠實際地去使用這門技術。

課程三十六、項目實戰:云計算Docker全面項目實戰(Maven+Jenkins、日志管理ELK、WordPress博客)

2013年,云計算領域從此多了一個名詞“Docker”。以輕量著稱,更好的去解決應用打包和部署。之前我們一直在構建Iaas,但通過Iaas去實現統一功 能還是相當
復雜得,并且維護復雜。將特殊性封裝到鏡像中實現幾乎一致得部署方法,它就是“Docker”,以容器為技術核心,實現了應用的標準化。企業可 以快速生成研
發、測試環境,并且可以做到快速部署。實現了從產品研發環境到部署環境的一致化。Docker讓研發更加專注于代碼的編寫,并且以“鏡像”作 為交付。極大的縮
短了產品的交付周期和實施周期。

課程三十七、深入淺出OpenStack云計算平臺管理

OpenStack是 一個由Rackspace發起、全球開發者共同參與的開源項目,旨在打造易于部署、功能豐富且易于擴展的云計算平臺。OpenStack企圖成為數據中心 的
操作系統,即云操作系統。從項目發起之初,OpenStack就幾乎贏得了所有IT巨頭的關注,在各種OpenStack技術會議上人們激情澎湃,幾乎所有人都成為
OpenStack的信徒。 這個課程重點放在openstack的部署和網絡部分。課程強調實際的動手操作,使用vmware模擬實際的物理平臺,讓大家可以自己動手去實際
搭建和學習openstack。課程內容包括云計算的基本知識,虛擬網絡基礎,openstack部署和應用,openstack網絡詳解等。

階段八、大數據分析、數據可視化(選修)

課程三十八、Tableau商業智能與可視化應用實戰

本課程基于Tableau 10.3最新版本研發,詳細介紹了Tableau的數據連接與編輯、圖形編輯與展示功能,包括數據連接與管理、基礎與高級圖形分析、地圖分析、高級數據操作、基礎統計分析、如何與R集成進行高級分析、分析圖表整合以及分析成果共享等主要內容。同時,課程以豐富的實際案例貫穿始終,對各類方法、技術進行了詳細說明,方便讀者快速掌握數據分析方法。

1)什么是數據可視化? 
2)如何用圖表講故事
3)Tableau發展歷程 
4)Tableau家族產品 
5)Tableau產品優勢 
6)Tableau Desktop安裝配置 
7)Tableau的導航與菜單 
8)Tableau設計流程最佳實踐 
9)Tableau數據類型與文件 
10)Tableau數據源初探 
11)數據源深入

12)工作表
13)Tableau中的函數與計算
14)Tableau高級分析與項目實戰
15)Tableau中的排序與篩選器
16)Tableau中的參數
17)Tableau圖表分析
18)Tableau地圖繪制與圖像
19)Tableau 儀表盤和故事
20)項目一_教育網站指標評估
21)項目二_網站用戶行為分析
22)項目三_零售行業進銷存分析

課程三十九、Echarts從入門到上手實戰

通過本門課程的學習,能夠讓我們的學員對數據可視化技術有一個全面、系統、深入的了解,最終達到能夠利用Echarts圖表結合后端數據進行前端可視化報表展示的目的,再結合我們課程給出的項目實戰綜合演練,從而達到熟練使用Echarts的程度,為將來我們的學員面試大數據開發工程師,大數據分析師等工作崗位打下了一個良好的基礎,為大大的加分項!

1)數據可視化概述
2)什么是數據可視化?
3)經典可視化案例
4)大數據可視化的價值
5)數據可視化工具、案例、書籍
6)Echarts概述
7)Echarts特性介紹
8)如何快速上手開發一個Echarts可視化圖表
9)如何閱讀Echarts官方文檔
10)Echarts學習必備基礎知識

11)Echarts3.x與Echarts2.x的區別
12)Echarts基礎架構與常見名詞術語
13)Echarts標準開發模板
14)十大常見圖表_小結
15)Echarts圖表高級
16)北上廣最佳前10航行路線圖
17)豆瓣最新熱映電影排名分析
18)圖表適用場景
19)數據可視化方法
20)數據可視化誤區

課程四十、D3.js從入門到上手實戰

近年來,數據可視化越來越流行,在信息爆炸式增長的今天,圖片或者圖表無疑是比文字更好的傳遞信息的方式。D3的出現,為我們做數據可視化提供了更強有力的保障。

1)D3簡介
2)D3開發環境的安裝與調試
3)D3選擇集與數據
4)D3比例尺和坐標
5)繪制

6)動畫
7)交互
8)導入和導出
9)布局
10)案例應用

課程四十一、Vue.js快速上手

Vue.js是一套構建用戶界面的輕量級MVVM框架,與其他重量級框架不同的是, Vue.js 的核心庫只關注視圖層,并且非常容易學習,很容易與其它前端技術或已有的項目整合。 本課程主要分兩部分講解:1.掌握Vue.js設計規范的語法; 2.通過一些實際的前端案例來強化同學們對該技術的靈活運用。

1)Vue.js簡介和MVC、MVP以及MVVM架構
2)Vue.js介紹、開發工具的介紹以及HelloWorld程序演示
3)Vue.js的構造器和擴展
4)Vue實例的屬性
5)Vue實例生命周期
6)計算屬性及案例
7)方法調用
8)觀察屬性
9)文本、HTML插值
10)屬性插值和表達式
11)指令的格式
12)條件指令
13)v-show指令
14)v-bind指令
15)列表渲染
16)過濾器
17)事件處理

18)事件修飾符
19)表單處理
20)自定義組件
21)過渡效果
22)動畫效果
23)過渡和動畫的回調函數
24)路由技術
25)混合
26)Render函數
27)單文件工程
28)單元測試
29)服務器端渲染
30)生產環境部署
31)動態評分案例
32)圖片輪播案例
33)OLTP系統的管理界面
34)聊天室案例

課程四十二、虛擬可視化

可視化是2016年一個被IT廠商們談論得非常頻繁的詞匯:網絡可視化、流量可視化、運維可視化等等解決方案不一而足。然而,可視化究竟可以深入到何種程度?可視化的范圍邊界在哪?虛擬現實的加入,無疑為可視化又增添了別樣的色彩。讓我們共同來探索虛擬可視化的世界……

1)虛擬現實(VR)概述
2)Unity3D游戲引擎簡介及安裝
3)Unity3D編輯器窗口介紹
4)GameObject與Component的關系
5)MonoBehaviour腳本周期
6)初識GoogleVR

7)GoogleVR SDK重要組件介紹
8)虛擬現實UI制作
9)虛擬現實用戶與UI交互
10)虛擬現實用戶與場景物體交互
11)案例:虛擬現實數據可視化

階段九、人工智能大數據企業項目實戰(選修)

課程四十三、Hadoop3.0新特性、新魅力【直播】

Hadoop 2.0是基于JDK 1.7開發的,而JDK 1.7在2015年4月已停止更新,這直接迫使Hadoop社區基于JDK 1.8重新發布一個新的Hadoop版本,而這正是hadoop
3.0。Hadoop 3.0的alpha版預計今年夏天發布,GA版本11月或12月發布。 Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基于cgroup的內存和磁盤IO隔離、YARN container resizing等。從Apache hadoop項目組爆出的最新消息,hadoop3.x以后將會調整方案架構,將Mapreduce基于內存+io+磁盤,共同處理數據。

1)Hadoop3.0如何精簡內核
2)Hadoop3.0如何防止不同版本jar包沖突
3)Shell腳本重構
4)擦除編碼
5)Tasknative優化

6)MapReduce內存參數自動推斷
7)基于cgroup的內存隔離和IO Disk隔離
8)用curator實現RM leader選舉
9)Timelineserver next generation

課程四十四、項目實戰:基于大數據技術推薦系統實戰

隨著電子商務規模的不斷擴大,顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關的信息和產品過程無疑會使淹沒在信息過載問題中的消費者不斷流失。為了解決這些問題,個性化推薦系統應運而生。個性化推薦系統在提高用戶體驗的同時,可以大大增加用戶購買量,據統計,亞馬遜的 30%收入來自于他
的推薦引擎。近幾年,國內互聯網公司也非常重視推薦系統建設,包括阿里巴巴,京東,騰訊等。本課程以商業實戰項目作為驅動來學習大數據技術在推薦系統項目
中的應用。使得學員能夠親身體會大數據項目的使用場景和開發場景及其所產生的商業價值,零距離接觸企業實戰型項目,學以致用,不在停留在大數據的概念環節而是進入大數據技術實戰項目開發的階段。

1)推薦系統與大數據的關系
2)認識推薦系統
3)推薦系統設計
4)大數據lambda架構
5)用戶畫像系統

6)推薦算法
7)Mahout推薦算法實戰
8)Spark推薦算法實戰
9)推薦系統與Lambda架構等

課程四十五、項目實戰:基于Storm流計算天貓雙十一作戰室項目實戰

Storm是什么? 為什么學習Storm? Storm是Twitter開源的分布式實時大數據處理框架,被業界稱為實時版Hadoop。 隨著越來越多的場景對Hadoop的MapReduce高延遲無法容忍,比如網站統計、推薦系統、預警系統、金融系統(高頻交易、股票)等等, 大數據實時處理解決方案(流計算)的應用日趨廣泛,目前
已是分布式技術領域最新爆發點,而Storm更是流計算技術中的佼佼者和主流。按照storm作者的說法,Storm對于實時計算的意義類似于Hadoop對于批處理的意
義。Hadoop提供了map、reduce原語,使我們的批處理程序變得簡單和高效。同樣,Storm也為實時計算提供了一些簡單高效的原語,而且Storm的Trident是基于Storm原語更高級的抽象框架,類似于基于Hadoop的Pig框架, 讓開發更加便利和高效。本課程會深入、全面的講解Storm,并穿插企業場景實戰講述Storm的運用。 淘寶雙11的大屏幕實時監控效果沖擊了整個IT界,業界為之驚嘆的同時更是引起對該技術的探索。學完本課程你可以自己開發升級版的“淘寶雙11”,還等什么?

1)Storm架構原理詳解
2)Zookeeper集群部署和測試
3)Storm集群搭建及測試
4)Wroker、Executer、Task
5)滾動窗口 Tumbling Window的實戰案例

6)滑動窗口 Sliding Window的實戰案例
7)Kafka集群搭建
8)項目-地區銷售額
9)Trident
10)省份銷售TopN等

課程四十六、項目實戰:基于人工智能項目實戰

課程首先概述講解人工智能應用與挑戰,由計算機視覺中圖像分類任務開始講解人工智能的常規套路。對于復雜的神經網絡,將其展開成多個小模塊進行逐一攻破,
再挑戰整體神經網絡架構。對于人工智能模型形象解讀卷積神經網絡原理,詳解其中涉及的每一個參數,對卷積網絡架構展開分析與評估,對于現階段火爆的對抗生
成網絡以及強化學習給出形象解讀,并配合項目實戰實際演示效果。 基于框架實戰,選擇兩款人工智能最火框架,Caffe與Tensorflow,首先講解其基本使用方
法,并結合案例演示如何應用框架構造神經網絡模型并完成案例任務。 選擇經典人工智能項目實戰,使用人工智能框架從零開始完成人臉檢測,驗證碼識別,人臉關鍵點定位,垃圾郵件分類,圖像風格轉換,AI自己玩游戲等。對于每一個項目實戰,從數據預處理開始一步步構建網絡模型并展開分析與評估。 課程提供所涉及的所有數據,代碼以及PPT,方便大家快速動手進行項目實踐!

1)人工智能概述與挑戰
2)神經網絡圖像分類
3)驗證碼識別
4)Caffe詳解
5)人臉檢測
6)人臉關鍵點定位

7)Tensorflow詳解
8)垃圾郵件文本分類
9)圖像風格轉換
10)DQN網絡讓AI自己玩游戲
11)對抗生成網絡
12)GAN網絡實例和DCGAN網絡實戰等

課程四十七、【項目直播】醫療保險大數據分析與統計推斷項目實戰【Hadoop篇】

項目(醫療保險大數據分析與統計推斷項目實戰【Hadoop篇】)主要分為七個部分,分別是:第一部分:業務系統(廣東省新型合作醫療保險管理系統)的業務邏輯分析、數據前期清洗和數據分析目標指標的設定等,業務系統核心業務模塊有:參合信息管理、門診補償管理、住院補償管理、降銷補償管理、定點機構管理、保險基金管理、費用項目管理和疾病病種管理等; 第二部分:Linux、Hadoop分布式集群搭建方面的內容,大數據前沿知識介紹、Linux及Vmware安裝和使用、Linux/Vmware文件系統操作、Hadoop的單機、偽分布、完全分布式模式的安裝配置等; 第三部分:Hadoop分布式集群進階方面課程,Hadoop2.x體系結構及Hadoop3.0新特性、 HDFS原理,HDFS Shell操作、YARN的基本構成和工作原理、MapReduce并行計算框架、基本的MapReduce算法實現和Hadoop集群上部署和執行MR Job等; 第四部分:大數據導入與存儲方面的課程,關系型數據庫基礎知識、hive的基本語法、hive的架構及設計原理、hive安裝部署與案例、Sqoop安裝及使用和Sqoop與關系型數據庫進行交互等; 第五部分:Hbase理論及實戰方面的課程,Hbase簡介、安裝及配置、Hbase的數據存儲與數據模型、Hbase Shell、Hbase 訪問接口和Hbase數據備份與恢復方法等; 第六部分:醫療保險數據分析與統計推斷方面的課程,背景與分析推斷目標、數據抽取、數據探索分析、數據預處理等; 第七部分:數據分析與統計推斷結果的展示(大數據可視化)方面的課程,主要是使用Tableau、D3.js、Highcharts和ECharts等可視化工具和技術 把最終的分析結果,以優美的圖表展示給客戶。

1)業務系統介紹
2)Hadoop入門
3)Hadoop部署進階
4)大數據導入與存儲

5)Hbase理論及實戰
6)保險數據分析與統計推斷
7)數據分析與統計推斷結果的展示(大數據可視化)

課程四十八、AI大數據互聯網電影智能推薦(第一季)

隨著科技的發展,現在視頻的來源和類型多樣性,互聯網視頻內容充斥著整個網絡,如果僅僅是通過翻頁的方法來尋找自己想看的視頻必然會感到疲勞,現在急需一種能智能推薦的工具,推薦系統通過分析用戶對視頻的評分分析,對用戶的興趣進行建模,從而預測用戶的興趣并給用戶進行推薦。
Python是一種面向對象的解釋型計算機程序設計語言,Python具有豐富和強大的庫。它常被昵稱為膠水語言,而大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,企業面臨海量數據的到來,大多選擇把數據從本地遷移至云端,云端將成為最大的非結構化數據存儲場所。本項目主要以客戶咨詢為載體,分析客戶的群體,分布,旨在挖掘客戶的內在需求,幫助企業實現更有價值的營銷。

一、教務管理系統業務介紹

1)教務管理系統框架講解
2)系統業務邏輯介紹

二、大數據需求分析

1)明確數據需求
2)大數據分析過程
3)分析難點和解決方案
4)大數據相關技術選型

三、構建分布式大數據框架

1)Hadoop分布式集群配置
2)ZooKeeper高可用
3)SQOOP數據轉移
4)ETL數據清洗
5)HIVE數據分析
6)HBase數據存儲

四、基于教務管理系統大數據分析

1)業務數據分析指標設定
2)操作MapReduce分而治之
3)使用Hive進行數據整合抽離
4)使用HBase存儲非結構話數據

五、大數據可視化

1)可視化技術選型
2)Echarts代碼展示炫酷視圖
3)使用Tableau進行數據可視化展示

課程四十九、電商大數據情感分析與AI推斷實戰項目(第一季)

本項目從開發的角度以大數據、PHP技術棧為基礎,使用真實商用表結構和脫敏數據,分三步構建商用系統、真實大數據環境、進行推斷分析以及呈現結果。
項目課程的完整性、商業性,可以使學者盡可能完整地體會真實的商業需求和業務邏輯。完整的項目過程,使PHP技術棧的同學得以窺見和學到一個完整商業平臺項目的搭建方法;真實大數據環境的搭建,使呈現、建立大數據的工具應用技術概念儲備;基于大數據平臺的分析需求的實現、呈現,將完整的一次大數據技術棧到分析結果的中線,平鋪直述,為想要學習大數據并有開發基礎的同學點亮新的能力。

一、實踐項目研發

1)開發環境的安裝配置
2)表與數據
3)LARAVEL的快速開發實踐
4)批量創建模型
5)萬能控制器與表配置
6)統一視圖的創建

二、數據分析需求設立

1)定義數據需求
2)分析計算過程
3)分析難點和解決方案
4)大數據技術選型

三、大數據平臺搭建

1)分布式環境的模擬建立
2)網絡環境的調通
3)身份驗證與集群控制
4)Hadoop環境搭建和要點說明
5)HIVE數據分析
6)MapReduce與Yarn的搭建和說明

四、大數據分析腳本編寫

1)MapReduce腳本編寫
2)拆解數據需求
3)Map邏輯詳寫
4)Reduce邏輯詳寫
5)結果整理與輸出

五、結果可視化

1)可視化需求和技術選型
2)展示頁面的快速鋪設
3)可視化JS上手
4)使用可視化JS展示結果

課程五十、AI法律咨詢大數據分析與服務智能推薦實戰項目(第一季)

本項目結合目前流行的大數據框架,在原有成熟業務的前提下,進行大數據分析處理,真實還原企業應用,讓學員身臨其境的感受企業大數據開發的整個流程。
項目的業務系統底層主要采用JAVA架構,大數據分析主要采用Hadoop框架,其中包括Kettle實現ETL、SQOOP、Hive、Kibana、HBASE、Spark以及人工智能算法等框架技術;采用真實大數據集群環境的搭建,讓學員切身感受企業項目的從0到1的過程。

一、系統業務介紹

1)底層業務實現框架講解
2)功能模塊講解

二、系統架構設計

1)總體架構分析
2)數據流向
3)各技術選型承載作用
4)部署方案

三、詳盡實現

1)原始數據處理
2)ETL數據導入
3)MR數據計算
4)Hive數據分析

四、數據可視化

1)采用Highcharts插件展示客戶偏好曲線圖
2)使用Tableau進行數據分析可視化展示

五、項目優化

1)ZooKeeper實現HA
2)集群監控的整體聯調

課程五十一、AI大數據基站定位智能推薦商圈分析項目實戰(第一季)

隨著當今個人手機終端的普及、出行人群中手機擁有率和使用率已達到相當高的比例,根據手機信號在真實地理空間的覆蓋情況,將手機用戶時間序列的手機定位數據,映射至現實地理位置空間位置,即可完整、客觀地還原出手機用戶的現實活動軌跡,從而挖掘出人口空間分布與活動聯系特征信息。
商圈是現代市場中企業市場活動的空間,同時也是商品和服務享用者的區域。商圈劃分為目的之一是研究潛在顧客分布,以制定適宜的商業對策。
本項目以實戰為基礎結合大數據技術Hadoop、.Net技術全棧為基礎,采用真實商業數據,分不同環節構建商用系統、真實大數據環境、進行推斷分析及呈現數據。

一、分析系統業務邏輯講解

1)大數據基站定位智能推薦商圈分析系統介紹
2)數據前期清洗和數據分析目標指標的設定等

二、大數據導入與存儲

1)關系型數據庫基礎知識
2)hive的基本語法
3)hive的架構及設計原理
4)hive安裝部署與案例等
5)Sqoop安裝及使用
6)Sqoop與關系型數據庫進行交互等
7)動手實踐

三、Hbase理論及實戰

1)Hbase簡介、安裝及配置
2)Hbase的數據存儲與數據模型
3)Hbase Shell
4)Hbase 訪問接口
5)Hbase數據備份與恢復方法等
6)動手實踐(數據轉儲與備份)

四、基站數據分析與統計推斷

1)背景與分析推斷目標
2)分析方法與過程推斷
3)動手實踐(分析既定指標數據)

五、數據分析與統計推斷結果的展示(大數據可視化)

1)使用Tableau展示數據分析結果
2)使用HighCharts、ECharts展示數據分析結果

階段十、百度云實戰體系

課程五十二、深入理解百度云計算基礎產品/基于百度云彈性計算服務實現基礎架構解決方案

全面介紹BCC(CDS 、EIP)、BLB、RDS、BOS、VPC等百度云彈性計算服務,介紹百度云的安全防護方案,深入介紹傳統架構下如何通過百度云彈性計算服務快速構建更穩定、安全的應用; 認證培訓專家將通過深入淺出,理論和實踐相結合的課程幫助學員深入掌握百度云彈性計算服務。

1)1)快速體驗百度云服務器BCC的功能全貌
2)基于BCC的云磁盤CDS的操作與管理
3)3)基于BCC的磁盤快照、自定義鏡像的操作與管理
4)基于自定義鏡像快速生成BCC的實驗
5)基于磁盤快照實現數據備份與恢復的最佳實踐
6)基于百度云安全組完成定義IP+端口的入站和出站訪問策略
7)快速體驗百度云私有網絡VPC的功能全貌
8)基于百度云VPC+VPN快速搭建Stie-to-Stie的混合云架構
9)在百度云VPC網絡下實現NAT地址映射的實踐
10)快速體驗百度云數據庫RDS的功能全貌

11)云數據庫RDS的備份與恢復操作體驗
12)熟悉數據傳輸服務DTS的使用
13)快速體驗百度云負載均衡BLB的功能全貌
14)快速體驗百度云存儲BOS的功能全貌
15)快速體驗百度云數據庫RDS的功能全貌
16)快速體驗百度云內容分發網絡CDN
17)基于BLB、BCC、RDS、BOS和CDN快速部署Discuz論壇實現彈性架構綜合實驗
18)快速體驗百度云安全BSS和DDOS防護服務
19)快速體驗百度云監控BCM

課程五十三、基于百度云的遷移上云實戰

基于百度云彈性計算服務的基礎產品,實現傳統IT架構遷移到百度云上的實戰,為客戶業務上云提升能力,提升客戶上云前的信心,上云中和上云后的技術能力。以真實的客戶案例,結合設計好的動手實驗課提升實戰經驗,介紹了業務上云的過程、方法、工具以及案例等。

1)基于BCC快速部署LNMP基礎環境
2)基于BCC快速部署LAMP基礎環境
3)基于BCC快速部署MySQL數據庫
4)基于BCC快速部署MS SQL數據庫服務
5)基于BCC快速部署Tomcat基礎環境

6)云數據庫RDS結合數據傳輸服務DTS實現數據遷移上云的最佳實踐
7)基于BOS桌面實現BOS的可視化管理
8)基于BOS FS實現BOS服務掛載到本地文件系統
9)基于BOS-Util實現BOS的批量文件操作的演示
10)基于BOS CLI實現BOS文件的單機操作

課程五十四、在百度云平臺上進行開發

全面介紹使用百度云產品進行應用開發,理解百度云主要產品特性,包括BCC、BOS、RDS、SCS在應用開發中的使用,結合實際應用開發案例全面的介紹整個開發流程和百度云產品使用方法,以提升學員開發技能和了解百度云產品開發特點,根據一天或者兩天的課程,提供多個實際動手實驗,認證講師指導實驗,真正做到學以致用,為學員實現上云開發保駕護航。

1)基于百度云OpenAPI實現簡化版控制臺的綜合實驗

2)基于百度云BOS OpenAPI實現簡化版的百度網盤

課程五十五、百度云“天算 · 智能大數據平臺”介紹/實戰

天算是百度云提供的大數據和人工智能平臺,提供了完備的大數據托管服務、智能API以及眾多業務場景模板,幫助用戶實現智能業務,引領未來。本課程力求對百度大數據平臺進行整體、全面的介紹,包括天算平臺與解決方案介紹、主要產品(百度MapReduce BMR、百度機器學習、百度Kafka、百度OLAP引擎Palo等)的介紹、客戶案例分享等。

1)在百度云上使用MapReduce--基于BMR實現“WordCount”
2)在百度云上使用Spark--基于BMR實現日志數據PV\UV統計
3)在百度云上使用Hive--基于BMR實現商品銷售情況統計
4)在百度云上使用HBase--基于BMR實現日志數據PV\UV統計
5)在百度云上使用Kafka--基于百度Kafka實現日志數據收集

6)在百度云上使用Kafka--基于百度Kafka實現日志數據收集
7)安裝Java SDK并使用SDK操作百度云MolaDB,包括實例操作、表操作和數據操作
8)使用百度云BigSQL實現PB量級以上的半結構化數據即席查詢
9)使用百度云Sqoop完成數據的導入和導出--將RDS上的數據導入Hive,HDFS的數據導出至關系型數據庫RDS中

課程五十六、百度云“天工 · 智能物聯網”與“天像· 智能多媒體”服務平臺介紹與案例分析

百度天工物聯平臺是“一站式、全托管”的物聯網服務平臺,依托百度云基礎產品與服務,提供全棧物聯網核心服務,幫助開發者快速搭建、部署物聯網應用。通過全面介紹天工的IoT Hub、IoT Parser、Rule Engine、IoT Device、BML、BMR、OCR和語音識別等產品與服務,解析天工典型的產品架構方案,應用到工業4.0、車聯網、能源、物流和智能硬件等各行業解決方案。

1)基于百度云LSS快速搭建音視頻直播平臺最佳實踐
2)基于百度云VOD快速搭建音視頻點播平臺最佳實踐
3)體驗百度云音視頻轉碼MCT的轉碼計算服務

4)基于百度云文檔服務DOC體驗文檔存儲、轉碼、分發播放一站式服務體驗
5)基于百度云物接入IoT Hub實現智能設備與百度云端之間建立安全的雙向連接
6)體驗百度云的物管理IoT Device端到端配置實踐

階段十一、區塊鏈

區塊鏈(Blockchain)是分布式數據存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式。所謂共識機制是區塊鏈系統中實現不同節點之間建立信任、獲取權益的數學算法。
區塊鏈是比特幣的底層技術,像一個數據庫賬本,記載所有的交易記錄。這項技術也因其安全、便捷的特性逐漸得到了銀行與金融業的關注。

一、課程介紹

1)區塊鏈的發展
2)課程安排

3)學習目標

二、區塊鏈的技術架構

1)數據層 創世區塊 交易記錄 私鑰,公鑰和錢包地址
2)數據層 & 通訊層 記賬原理 Merkle 樹和簡單支付驗證(SPV) P2P通訊 數據通信和驗證
3)共識層
4)激勵層 拜占庭將軍問題與POW Pos DPos PBFT 挖礦 交易費 圖靈完備和非完備

5)合約層 比特幣腳本 以太坊智能合約 fabic智能合約 RPC遠程調用
6)應用層
7)總結 接口調用 DAPP的使用 應用場景的部署 重要概念和原理

三、環境搭建

1)以太坊 以太坊介紹 以太坊開發過程 圖形界面客戶端使用 供應鏈的應用 保險領域的應用 DAO的介紹和應用
2)以太坊 以太坊本地開發環境的搭建 以太坊分布式集群環境的搭建

3)hyperledger項目fabric介 fabric介紹 fabric本地開發環境搭建 fabric分布式集群環境搭建

四、案例和DEMO

1)案例講解 支付和清結算 公益行業的應用 供應鏈的應用 保險領域的應用 DAO的介紹和應用
2)Demo介紹 發幣和交易Demo

3)Demo介紹 數據資產的確權和追溯

階段十二、阿里云認證

課程五十七、云計算 - 網站建設:部署與發布

阿里云網站建設認證課程教你如何掌握將一個本地已經設計好的靜態網站發布到Internet公共互聯網,綁定域名,完成工信部的ICP備案。

課程五十八、云計算 - 網站建設:簡單動態網站搭建

阿里云簡單動態網站搭建課程教你掌握如何快速搭建一個WordPress動態網站,并會對網站進行個性化定制,以滿足不同的場景需求。

課程六十、云計算 - 云服務器管理維護

阿里云服務器運維管理課程教你掌握快速開通一臺云服務器,并通過管理控制臺方便地進行服務器的管理、服務器配置的變更和升級、數據的備份,并保證其可以正常運轉并按業務需求隨時進行配置的變更。

課程六十、云計算 - 云數據庫管理與數據遷移

阿里云云數據庫管理與數據遷移認證課程掌握云數據庫的概念,如何在云端創建數據庫、將自建數據庫遷移至云數據庫MySQL版、數據導入導出,以及云數據庫運維的常用操作。

課程六十一、云計算 - 云存儲:對象存儲管理與安全

阿里云云儲存認證課程教你掌握安全、高可靠的云存儲的使用,以及在云端存儲下載文件,處理圖片,以及如何保護數據的安全。

課程六十二、云計算 - 超大流量網站的負載均衡

掌握如何為網站實現負載均衡,以輕松應對超大流量和高負載。

課程六十三、大數據 - MOOC網站日志分析

本課程可以幫助學員掌握如何收集用戶訪問日志,如何對訪問日志進行分析,如何利用大數據計算服務對數據進行處理,如何以圖表化的形式展示分析后的數據。

課程六十四、大數據 - 搭建企業級數據分析平臺

模擬電商場景,搭建企業級的數據分析平臺,用來分析商品數據、銷售數據以及用戶行為等。

課程六十五、大數據 - 基于LBS的熱點店鋪搜索

本課程可以幫助學員掌握如何在分布式計算框架下開發一個類似于手機地圖查找周邊熱點(POI)的功能,掌握GeoHash編碼原理,以及在地理位置中的應用,并能將其應用在其他基于LBS的定位場景中。
課程中完整的演示了整個開發步驟,學員在學完此課程之后,掌握其原理,可以在各種分布式計算框架下完成此功能的開發,比如MapReduce、Spark。

課程六十六、大數據 - 基于機器學習PAI實現精細化營銷

本課程通過一個簡單案例了解、掌握企業營銷中常見的、也是必需的精準營銷數據處理過程,了解機器學習PAI的具體應用,指導學員掌握大數據時代營銷的利器---通過機器學習實現營銷。

課程六十七、大數據 - 基于機器學習的客戶流失預警分析

本課程講解了客戶流失的分析方法、流程,同時詳細介紹了機器學習中常用的分類算法、集成學習模型等通用技能,并使用阿里云機器學習PAI實現流失預警分析。可以幫助企業快速、準確識別流失客戶,輔助制定策略進行客戶關懷,達到挽留客戶的目的。

課程六十八、大數據 - 使用DataV制作實時銷售數據可視化大屏

幫助非專業工程師通過圖形化的界面輕松搭建專業水準的實時可視化數據大屏,以滿足業務展示、業務監控、風險預警等多種業務的展示需求。

課程六十九、大數據 - 使用MaxCompute進行數據質量核查

通過本案例,學員可了解影響數據質量的因素,出現數據質量問題的類型,掌握通過MaxCompute(DateIDE)設計數據質量監控的方法,最終獨立解決常見的數據質量監控需求。

課程七十、大數據 - 使用Quick BI制作圖形化報表

阿里云Quick BI制作圖形化報表認證課程教你掌握將電商運營過程中的數據進行圖表化展現,掌握通過Quick BI將數據制作成各種圖形化報表的方法,同時還將掌握搭建企業級報表門戶的方法。

課程七十一、大數據 - 使用時間序列分解模型預測商品銷量

使用時間序列分解模型預測商品銷量教你掌握商品銷量預測方法、時間序列分解以及熟悉相關產品的操作演示和項目介紹。

課程七十二、云安全 - 云平臺使用安全

阿里云云平臺使用安全認證課程教你了解由傳統IT到云計算架構的變遷過程、當前信息安全的現狀和形勢,以及在云計算時代不同系統架構中應該從哪些方面利用云平臺的優勢使用安全風險快速降低90%。

課程七十三、云安全 - 云上服務器安全

阿里云云上服務器安全認證課程教你了解在互聯網上提供計算功能的服務器主要面臨哪些安全風險,并針對這些風險提供了切實可行的、免費的防護方案。

課程七十四、云安全 - 云上網絡安全

了解網絡安全的原理和解決辦法,以及應對DDoS攻擊的方法和防護措施,確保云上網絡的安全。

課程七十五、云安全 - 云上數據安全

了解云上數據的安全隱患,掌握數據備份、數據加密、數據傳輸安全的解決方法。

課程七十六、云安全 - 云上應用安全

了解常見的應用安全風險,SQL注入原理及防護,網站防篡改的解決方案等,確保云上應用的安全。

課程七十七、云安全 - 云上安全管理

了解云上的安全監控方法,學會使用監控大屏來監控安全風險,并能夠自定義報警規則,確保隨時掌握云上應用的安全情況。

階段十三、職業素養

本課程主要為廣大畢業生或者工作經驗較少的學員而設立,主要是為了在職業素養方面給大家提供輔導,為更加順利走向職場而提供幫助。

為什么有些同學在技能方面過關,卻還是給予別人一種書生氣的感覺?
為什么簡歷已經通過了,卻還是沒有通過HR的面試?
為什么入職后,與同事的溝通總是存在問題?
為什么每天的時間都不夠用,無法兼顧生活學習和工作?
為什么學習一段時間后,對工作對職場沒有方向感?
為什么遇到事情,別人總是能夠保持良好心態游刃有余,而我總是問題百出?

COT課程正是引領大家一起來探索其中的奧秘和方法,讓大家一起在學習過程中不斷深思和進步,讓大家的職場路越走越順暢!

1)團隊協作

2)心態管理

3)目標管理

4)時間管理

5)學習管理

6)溝通能力

7)求職目標

8)項目管理

立即報名學習 免費領取學習資料

  • 東南大學數學系博士后

    多年數據挖掘算法類開發經驗 從事人工智能等相關領域工作 統計科學研究課題科研項目20多項 發表統計科學相關論文30多篇
  • 多年大數據 / AI項目開發經驗

    資深算法工程師
    從事基礎數學、機器學習研究三年
    金融工程和機器學習交叉學科研究三年
    發表論文20余篇其中核心以上期刊14篇
  • 東南大學碩士 / 5年大數據AI項目開發經驗

    東南大學碩士
    技術研究數據科學家
    AI技術經理、高級算法工程師
  • 多年軟件開發從業經驗

    美團深度學習研究專家
    機器學習人工智能資深專家
    北風大數據人工智能金牌講師
  • 多年前端開發及軟件教育從業經驗

    中國建設銀行大數據部高級顧問
    數據挖掘專家/人工智能資深專家
    北風人工智能首席講師
  • 5年軟件開發從業經驗,3年項目開發經驗

    前驢媽媽大數據高級架構師
    大數據人工智能資深專家
    北風大數據人工智能首席講師
  • 政府數據模型分析師、5年以上工作經驗

    國防科學技術大學碩士 數據分析
    數據挖掘專家
    算法模型分析方向AI資深講師
  • 醫療大數據分析師 / 醫療行業R開發工程師

    遼寧大學統計學碩士
    推薦算法、挖掘、模型AI資深專家
    北風數據分析、數據挖掘金牌講師

申請與名師約會


北風網——中國IT互聯網教育領先品牌
  • 上海市高新技術企業
  • 中國在線教育十強
  • 中國品牌價值在線教育機構
  • 2015年度實力教育品牌
kk娱乐平台注册链接