八戒影院午夜福利_亚洲最新中文字幕成人_免费无限观看深夜视频_麻豆91久久婷婷五月_男女猛烈xx00动态图高清_精品一级毛片视频_亚洲综合播放_欧美一级黄色内射_无码人妻一区二区三区免费看_亚洲系列欧美系列手机在线

<del id="agggk"></del>

<fieldset id="agggk"></fieldset>

第九周深圳市模具廠應用大數據 hadoop spark

2019-10-27 17:00:03

帶著很對疑問，到了書城18樓，

1、centos 如何開啟 8888|888|88|8080|80|22|21等等端口

2、建立一個能使用的大數據集群最好需要多少臺服務器，而且都是 centos 7.5 的嗎？

3、區(qū)塊鏈和我們學習的大數據中的 BlocK 有無聯系， 64MB 一個塊，還是128M一個塊。

復習上周

發(fā)送心跳，告訴 ZooKeeper , 這個是有問題才動手的軟件，再由ＺｏｏＫｅｅＰｅｒ　分配KafKA

producr 生產者產生數據，記錄放入 Kafka . Topic 的創(chuàng)建，寫入多少條，都由 ZooKeeper 管理。

消費者，也是有

KAFKA作為一個集群，宕機后，主節(jié)點宕機后無法消費，由ZooKeeper負責重新選舉。

zookeeper 安裝三種模式

/bin 目錄下有很多腳本，

Myid 是不一樣的，每臺機都要安裝 ZooKEEPER , 不同的 ID

2888 仲裁通訊

3888 群首選舉

每臺服務器上都要啟動一下，每臺機都需要啟動

再看看偽集群模式，如果只有一臺機器，也可以配置 zoo1.cfg ........ 僅僅是端口改為不一樣了 2181 3181 4181

啟動，一臺機器，也要啟動三次

不同端口模擬不同集群

一個領導者和多個跟隨者的。

fluke 和 spark 都差不多，原理還是結構spark ， rdd dij

復習完成，繼續(xù)SPARK 的學習。

SPARK核心編程模型

Spark 數據運算核心機制：

RDD概述：

RDD：彈性分布式數據集

RDD是 SPARK中重要的數據結構。

什么是 RDD ，

顧名思義，從字面理解RDD就是 Resillient Distributed Dataset，即彈性分布式數據集。

它是Spark提供的核心抽象。

RDD在抽象上來講是一種抽象的分布式的數據集。它是被分區(qū)的，每個分區(qū)分布在集群中的不同的節(jié)點上。從而可以讓數據進行并行的計算

它主要特點就是彈性和容錯性。

彈性：RDD的數據默認情況下存放在內存中的，但是在內存資源不足時，Spark會自動將RDD數據寫入磁盤

容錯性：RDD可以自動從節(jié)點失敗中恢復過來。即如果某個節(jié)點上的RDD partition，因為節(jié)點故障，導致數據丟了，那么RDD會自動通過自己的數據來源重新計算該partition。

RDD來源：通常是Hadoop的HDFS，Hive 表等等；也可以通過Linux的本地文件；應用程序中的數組；jdbc（mysql 等）；也可以是kafka、flume數據采集工具、中間件等轉化而來的RDD。

總體都在RAM中運行的，現在看看 CACHE ，

不斷的轉化，就是得到 DMG圖， TSK 何在一起就是 TSK site , 最終得到 TSK scuhle

下節(jié)課，講解 spark 讀取 kafka 數據進行講解

<ul id="egygy"></ul>

<fieldset id="egygy"><menu id="egygy"></menu></fieldset><strike id="egygy"><input id="egygy"></input></strike>