第九周 深圳市模具廠應用 大數據 hadoop spark
帶著很對疑問,到了書城18樓,
1、centos 如何開啟 8888|888|88|8080|80|22|21等等端口
2、建立一個能使用的大數據集群最好需要多少臺服務器, 而且都是 centos 7.5 的嗎?
3、區(qū)塊鏈 和 我們學習的大數據中的 BlocK 有無聯系, 64MB 一個 塊, 還是128M一個塊。
復習上周
發(fā)送心跳, 告訴 ZooKeeper , 這個是有問題才動手的軟件, 再由ZooKeePer 分配KafKA
producr 生產者產生數據, 記錄放入 Kafka . Topic 的創(chuàng)建, 寫入多少條, 都由 ZooKeeper 管理。
消費者, 也是有
KAFKA作為一個集群, 宕機后, 主節(jié)點宕機后無法消費, 由ZooKeeper負責重新選舉。
zookeeper 安裝 三種模式
/bin 目錄下有很多腳本 ,
Myid 是不一樣的, 每臺機都要安裝 ZooKEEPER , 不同的 ID
2888 仲裁通訊
3888 群首選舉
每臺服務器上都要啟動一下, 每臺機都需要啟動
再看看 偽集群模式, 如果只有一臺機器, 也可以配置 zoo1.cfg ........ 僅僅是端口改為不一樣了 2181 3181 4181
啟動, 一臺機器, 也要啟動三次
不同端口模擬不同集群
一個領導者和多個跟隨者的。
fluke 和 spark 都差不多, 原理還是結構spark , rdd dij
復習完成, 繼續(xù)SPARK 的學習。
SPARK核心編程模型
Spark 數據運算核心機制:
RDD概述:
RDD: 彈性分布式數據集
RDD是 SPARK中重要的數據結構。
什么是 RDD ,
顧名思義,從字面理解RDD就是 Resillient Distributed Dataset,即彈性分布式數據集。
它是Spark提供的核心抽象。
RDD在抽象上來講是一種抽象的分布式的數據集。它是被分區(qū)的,每個分區(qū)分布在集群中的不同的節(jié)點上。從而可以讓數據進行并行的計算
它主要特點就是彈性和容錯性。
彈性:RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤
容錯性:RDD可以自動從節(jié)點失敗中恢復過來。即如果某個節(jié)點上的RDD partition,因為節(jié)點故障,導致數據丟了,那么RDD會自動通過自己的數據來源重新計算該partition。
RDD來源:通常是Hadoop的HDFS,Hive 表等等;也可以通過Linux的本地文件;應用程序中的數組;jdbc(mysql 等);也可以是kafka、flume數據采集工具、中間件等轉化而來的RDD。
總體都在RAM中運行的, 現在看看 CACHE ,
不斷的轉化, 就是得到 DMG圖, TSK 何在一起就是 TSK site , 最終得到 TSK scuhle
下節(jié)課, 講解 spark 讀取 kafka 數據進行講解