從原理到應(yīng)用,從原理到應(yīng)用-ESG跨境

從原理到應(yīng)用,從原理到應(yīng)用

來源網(wǎng)絡(luò)
來源網(wǎng)絡(luò)
2022-07-05
點(diǎn)贊icon 0
查看icon 630

從原理到應(yīng)用,從原理到應(yīng)用從原理到應(yīng)用本次演講的主題是谷歌云數(shù)據(jù)流:從概念到實(shí)踐。數(shù)據(jù)流的概念在2014年6月的谷歌I/O大會(huì)上首次與開發(fā)者見面。同年12月,谷歌首次公布了Dataflow的Java SDK及其源代碼。2015年3月初,Dataflow正式上線。作為云服務(wù)產(chǎn)品,DataFlow出現(xiàn)在Google Clo......

從原理到應(yīng)用,從原理到應(yīng)用




從原理到應(yīng)用

本次演講的主題是谷歌云數(shù)據(jù)流:從概念到實(shí)踐。

數(shù)據(jù)流的概念在2014年6月的谷歌I/O大會(huì)上首次與開發(fā)者見面。同年12月,谷歌首次公布了Dataflow的Java SDK及其源代碼。2015年3月初,Dataflow正式上線。作為云服務(wù)產(chǎn)品,DataFlow出現(xiàn)在Google Cloud產(chǎn)品線中,并提供了Alpha版本的試用應(yīng)用。

在傳統(tǒng)的MapReduce大數(shù)據(jù)并行處理中,單個(gè)MapReduce節(jié)點(diǎn)無法滿足復(fù)雜的業(yè)務(wù)需求,因此大部分大數(shù)據(jù)處理都是通過MapReduce多節(jié)點(diǎn)流水線構(gòu)建的。這需要開發(fā)人員編寫額外的代碼來連接多個(gè)MapReduce節(jié)點(diǎn),管理每個(gè)節(jié)點(diǎn)的狀態(tài)以及它們之間的數(shù)據(jù)傳輸,并維護(hù)一個(gè)大型的服務(wù)器集群。此外,大數(shù)據(jù)的實(shí)時(shí)計(jì)算也給MapReduce帶來了巨大的挑戰(zhàn)。這是谷歌開發(fā)數(shù)據(jù)流的初衷。作為Google Cloud的產(chǎn)品,Dataflow可以與App Engine、Compute Engine、Google Storage、Google Datastore、Google Cloud SQL云存儲(chǔ)服務(wù)相結(jié)合,快速構(gòu)建一個(gè)相對(duì)完整的實(shí)時(shí)大數(shù)據(jù)并行處理系統(tǒng)。數(shù)據(jù)流簡化了系統(tǒng)開發(fā)的過程。開發(fā)者使用SDK在本地進(jìn)行開發(fā)、測(cè)試和調(diào)試,并將代碼提交給云服務(wù)進(jìn)行測(cè)試,隨時(shí)運(yùn)行。數(shù)據(jù)流會(huì)自動(dòng)優(yōu)化用戶的流處理系統(tǒng),并將其分配到多個(gè)計(jì)算節(jié)點(diǎn)上并發(fā)執(zhí)行。

用戶開發(fā)的大數(shù)據(jù)系統(tǒng)可以從Google提供的各種存儲(chǔ)服務(wù)和Pub/Sub服務(wù)中讀取和處理數(shù)據(jù),然后寫入指定的存儲(chǔ)服務(wù)或Pub/Sub服務(wù)中。由于谷歌的存儲(chǔ)服務(wù)采用成熟的行業(yè)標(biāo)準(zhǔn),用戶還可以將Hadoop、Spark等產(chǎn)品集成到Dataflow中。

底層數(shù)據(jù)依賴于兩種技術(shù):FlumeJava和MillWheel。類似于2003年MapReduce和BigTable的概念,谷歌研究院在2010年和2013年發(fā)表的兩篇論文分別介紹了FlumeJava和MillWheel。在此之前,這兩個(gè)項(xiàng)目在谷歌內(nèi)部都有一定程度的成功實(shí)踐。

FlumeJava發(fā)布后,很多媒體稱之為下一代MapReduce(個(gè)人覺得這個(gè)評(píng)價(jià)太高了)。FlumeJava是一個(gè)Java庫,為大數(shù)據(jù)的并行處理提供了更簡單的框架和工具,其底層算法模型是MapReduce。FlumeJava在更高層次上抽象了MapReduce管道的數(shù)據(jù)和流程,并提供了內(nèi)置的流程優(yōu)化策略。FlumeJava將數(shù)據(jù)模型抽象為PCollectionltTgt和PTableltk,Vgt兩個(gè)通用數(shù)據(jù)結(jié)構(gòu),其上定義了四個(gè)操作原語:parallelDo()、groupByKey()、combineValues()和flat()。同時(shí)在這四個(gè)操作原語的基礎(chǔ)上定義了count()、join()和top()等常用操作。與傳統(tǒng)MapReduce和專家優(yōu)化的MapReduce相比,F(xiàn)lumeJava在代碼行、方法和執(zhí)行時(shí)間上都優(yōu)于傳統(tǒng)MapReduce,與專家優(yōu)化的MapReduce不相上下。也說明了通過FlumeJava,普通開發(fā)者可以在更短的時(shí)間內(nèi)開發(fā)出一個(gè)專家MapReduce系統(tǒng)。

數(shù)據(jù)流的另一個(gè)底層技術(shù)是MillWheel,它提供了一個(gè)具有容錯(cuò)機(jī)制的實(shí)時(shí)數(shù)據(jù)處理模型。根據(jù)谷歌研究院公布的論文,MillWheel是一個(gè)沒有提供可編程框架的模型和算法,所以目前我們沒有機(jī)會(huì)了解它的代碼級(jí)實(shí)現(xiàn)。原則上,MillWheel內(nèi)置了容錯(cuò)機(jī)制,采用低水位線機(jī)制,避免網(wǎng)絡(luò)延遲等因素造成的數(shù)據(jù)流順序不一致。實(shí)時(shí)數(shù)據(jù)處理是近年來的一個(gè)熱點(diǎn)。市場(chǎng)上現(xiàn)有的產(chǎn)品包括Storm、Spark Streaming、雅虎S3、Samza等。與這四家的對(duì)比表明,MillWheel基本上是這幾款產(chǎn)品特性的集成。

了解FlumeJava和MillWheel的基本概念和原理,讓我們更容易理解數(shù)據(jù)流的運(yùn)行機(jī)制和特點(diǎn)。Dataflow可以簡單的看作是兩者的融合,但是我相信Google花了很多精力來優(yōu)化兩者的融合以及整個(gè)Google Cloud產(chǎn)品線。

上圖是數(shù)據(jù)流的示例代碼,已經(jīng)開發(fā)了一個(gè)眾所周知的字?jǐn)?shù)統(tǒng)計(jì)應(yīng)用程序。從代碼中可以看出,編寫一個(gè)基于數(shù)據(jù)流的并發(fā)大數(shù)據(jù)處理流水線更加容易和簡單。Dataflow提供的SDK可以方便地將更改后的代碼提交給云服務(wù)執(zhí)行,并通過開發(fā)者控制臺(tái)進(jìn)行監(jiān)控和管理。

總結(jié):Google Dataflow是為解決傳統(tǒng)MapReduce處理復(fù)雜業(yè)務(wù)流程的困難,滿足實(shí)時(shí)數(shù)據(jù)分析需求而開發(fā)的云服務(wù)。它為開發(fā)者提供了一個(gè)SDK、工具和云服務(wù),用于快速開發(fā)、測(cè)試、調(diào)試、生產(chǎn)運(yùn)營和監(jiān)控。它沒有創(chuàng)造性的理論或算法模型。因?yàn)槭荈lumeJava和MillWheel的集成,并且可以調(diào)用Google Cloud提供的存儲(chǔ)和Pub/Sub服務(wù),所以可以在批處理和實(shí)時(shí)計(jì)算之間無縫切換。目前的缺陷是版本還不穩(wěn)定;谷歌云本身提供的服務(wù)相對(duì)較少;發(fā)布時(shí)間還短,沒有成功的商業(yè)案例。但谷歌作為直接開啟大數(shù)據(jù)潮流的先行者,其提供的大數(shù)據(jù)平臺(tái)仍然值得我們研究和探索。

版權(quán)聲明:本文為博主原創(chuàng)文章,遵循CC 4.0 BYSA版權(quán)協(xié)議。轉(zhuǎn)載請(qǐng)附上原出處和本聲明的鏈接。

本文鏈接:https://blog.csdn.net/weixin 45932629/文章/詳情/103315968


文章推薦
從業(yè)務(wù)上云到構(gòu)建數(shù)智化駕駛艙
大品牌的ASO應(yīng)該怎么做,aso品牌
初入出海賽道,國貨出海賽道
成功案例  HK01 攜手 Branch 推動(dòng)自然互動(dòng)率并提升 App 安裝量,spend your life in your own way


特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國平臺(tái)交流群
加入
韓國平臺(tái)交流群
掃碼進(jìn)群
歐洲多平臺(tái)交流群
加入
歐洲多平臺(tái)交流群
掃碼進(jìn)群
美國賣家交流群
加入
美國賣家交流群
掃碼進(jìn)群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進(jìn)群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
ESG獨(dú)家招商-PHH GROUP賣家交流群
加入
ESG獨(dú)家招商-PHH GROUP賣家交流群
掃碼進(jìn)群
《TikTok官方運(yùn)營干貨合集》
《TikTok綜合運(yùn)營手冊(cè)》
《TikTok短視頻運(yùn)營手冊(cè)》
《TikTok直播運(yùn)營手冊(cè)》
《TikTok全球趨勢(shì)報(bào)告》
《韓國節(jié)日營銷指南》
《開店大全-全球合集》
《開店大全-主流平臺(tái)篇》
《開店大全-東南亞篇》
《CD平臺(tái)自注冊(cè)指南》
通過ESG入駐平臺(tái),您將解鎖
綠色通道,更高的入駐成功率
專業(yè)1v1客戶經(jīng)理服務(wù)
運(yùn)營實(shí)操指導(dǎo)
運(yùn)營提效資源福利
平臺(tái)官方專屬優(yōu)惠

立即登記,定期獲得更多資訊

訂閱
聯(lián)系顧問

平臺(tái)顧問

平臺(tái)顧問 平臺(tái)顧問

微信掃一掃
馬上聯(lián)系在線顧問

icon icon

小程序

微信小程序

ESG跨境小程序
手機(jī)入駐更便捷

icon icon

返回頂部

【免費(fèi)領(lǐng)取】全球跨境電商運(yùn)營干貨 關(guān)閉
進(jìn)行中
進(jìn)行中
【活動(dòng)報(bào)名】2024年歐洲多藍(lán)海平臺(tái)招商沙龍
官方親臨,拆解phh group/eMAG/worten三個(gè)平臺(tái)商機(jī)
立即報(bào)名
進(jìn)行中
進(jìn)行中
TikTok運(yùn)營必備干貨包
包含8個(gè)TikTok最新運(yùn)營指南(市場(chǎng)趨勢(shì)、運(yùn)營手冊(cè)、節(jié)日攻略等),官方出品,專業(yè)全面!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國電商節(jié)日營銷指南
10+韓國電商重要營銷節(jié)點(diǎn)詳細(xì)解讀;2024各節(jié)日熱度選品助力引爆訂單增長;8大節(jié)日營銷技巧輕松撬動(dòng)大促流量密碼。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——全球合集
涵括全球100+個(gè)電商平臺(tái)的核心信息,包括平臺(tái)精煉簡介、競(jìng)爭(zhēng)優(yōu)勢(shì)、熱銷品類、入駐要求以及入駐須知等關(guān)鍵內(nèi)容。
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——主流平臺(tái)篇
火爆全球的跨境電商平臺(tái)合集,平臺(tái)優(yōu)勢(shì)、開店選品、入駐條件盡在掌握
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——拉美篇
涵蓋9大熱門拉美電商平臺(tái),成熟的市場(chǎng)是跨境賣家的熱門選擇!
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——日韓篇
涵蓋10+日韓電商平臺(tái),入駐條件一看就懂,優(yōu)勢(shì)熱銷品應(yīng)有盡有
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——?dú)W洲篇
涵蓋20+歐洲電商平臺(tái),詳細(xì)解讀優(yōu)勢(shì)、入駐條件、熱銷品等
立即領(lǐng)取