影音先锋男人资源站_国产婷婷综合丁香亚洲欧洲_白狐视频传媒污软件下载_趁女同学午休揉她的屁股

Azure Data Lake Storage Gen 實(shí)戰(zhàn)體驗(yàn),如何使用azuredatastudio-ESG跨境

Azure Data Lake Storage Gen 實(shí)戰(zhàn)體驗(yàn),如何使用azuredatastudio

來(lái)源網(wǎng)絡(luò)
來(lái)源網(wǎng)絡(luò)
2022-07-05
點(diǎn)贊icon 0
查看icon 1250

Azure Data Lake Storage Gen 實(shí)戰(zhàn)體驗(yàn),如何使用azuredatastudioAzure Data Lake Storage Gen 實(shí)戰(zhàn)體驗(yàn)引言相較傳統(tǒng)的重量級(jí)OLAP數(shù)據(jù)倉(cāng)庫(kù),“數(shù)據(jù)湖”以其數(shù)據(jù)體量大、綜合成本低、支持非結(jié)構(gòu)化數(shù)據(jù)、查詢(xún)靈活多變等特點(diǎn),受到越來(lái)越多企業(yè)的青睞,逐漸成為了現(xiàn)代......

Azure Data Lake Storage Gen 實(shí)戰(zhàn)體驗(yàn),如何使用azuredatastudio





Azure Data Lake Storage Gen 實(shí)戰(zhàn)體驗(yàn)

引言

相較傳統(tǒng)的重量級(jí)OLAP數(shù)據(jù)倉(cāng)庫(kù),“數(shù)據(jù)湖”以其數(shù)據(jù)體量大、綜合成本低、支持非結(jié)構(gòu)化數(shù)據(jù)、查詢(xún)靈活多變等特點(diǎn),受到越來(lái)越多企業(yè)的青睞,逐漸成為了現(xiàn)代數(shù)據(jù)平臺(tái)的核心和架構(gòu)范式。

因此數(shù)據(jù)湖相關(guān)服務(wù)成為了云計(jì)算的發(fā)展重點(diǎn)之一。Azure平臺(tái)早年就曾發(fā)布第一代Data Lake Storage,隨后微軟將它與Azure Storage進(jìn)行了大力整合,于今年初正式對(duì)外發(fā)布了其第二代產(chǎn)品:Azure Data Lake Storage Gen2(下稱(chēng)ADLS Gen2)。ADLS Gen2的口號(hào)是“不妥協(xié)的數(shù)據(jù)湖平臺(tái),它結(jié)合了豐富的高級(jí)數(shù)據(jù)湖解決方案功能集以及 Azure Blob 存儲(chǔ)的經(jīng)濟(jì)性、全球規(guī)模和企業(yè)級(jí)安全性”。

全新一代的ADLS Gen2 實(shí)際體驗(yàn)如何?讓我們來(lái)深入研究一下,尤其是關(guān)注ADLS Gen2 作為存儲(chǔ)層掛載到大數(shù)據(jù)集群后的表現(xiàn)。

ADLS Gen2體驗(yàn):集群掛載

數(shù)據(jù)湖存儲(chǔ)主要適用于大數(shù)據(jù)處理的場(chǎng)景,所以我們選擇建立一個(gè)HDInsight大數(shù)據(jù)集群來(lái)進(jìn)行實(shí)驗(yàn),使用Spark來(lái)訪問(wèn)和操作數(shù)據(jù)湖中的數(shù)據(jù)。可以看到HDInsight已經(jīng)支持ADLS Gen2了:

接下來(lái)是比較關(guān)鍵的存儲(chǔ)配置環(huán)節(jié),我們指定使用一個(gè)新建的ADLS Gen2實(shí)例hdiclusterroot來(lái)作為整個(gè)集群的存儲(chǔ),文件系統(tǒng)名為hdfsroot,如圖所示:

(圖中我們還配置了Additional storage accounts,用于掛載傳統(tǒng)Blob,之后作性能對(duì)比時(shí)會(huì)用到。此處暫不展開(kāi)。)

很有意思的是上圖的下半部分,它允許我們指定一個(gè)Identity,這個(gè)Identity可以代表Spark集群的身份和訪問(wèn)權(quán)限。這非常關(guān)鍵,意味著集群的身份能夠完美地與ADLS Gen2的權(quán)限體系對(duì)應(yīng)起來(lái),在企業(yè)級(jí)的場(chǎng)景中能夠很好地落地對(duì)于大數(shù)據(jù)資源訪問(wèn)的管控。

這里選擇了專(zhuān)門(mén)建立的一個(gè)sparkclusteridentity作為集群的身份。我們事先為它賦予了hdiclusterroot這個(gè)存儲(chǔ)賬號(hào)的storage blob data owner權(quán)限,以便該identity能夠?qū)?shù)據(jù)湖中的數(shù)據(jù)進(jìn)行任意操作:

完成其他配置后按下創(chuàng)建按鈕,Azure會(huì)一鍵生成Spark集群,大約十來(lái)分鐘后整個(gè)集群就進(jìn)入可用狀態(tài)了:

我們迫不及待地SSH登錄進(jìn)集群,查看其默認(rèn)掛載的文件系統(tǒng)。嘗試使用hadoop fs ls列出根目錄下的文件信息:

sshuser@hn0cloudp:~$ hadoop fs ls /

Found 18 items

drwxrxrx sshuser sshuser     0 20190826 03:10 /HdiNotebooks

drwxrxrx sshuser sshuser     0 20190826 03:29 /HdiSamples

drwxrx sshuser sshuser     0 20190826 02:54 /ams

drwxrx sshuser sshuser     0 20190826 02:54 /amshbase

drwxrwxwt sshuser sshuser     0 20190826 02:54 /applogs

drwxrx sshuser sshuser     0 20190906 07:41 /apps

drwxrxx sshuser sshuser     0 20190826 02:54 /atshistory

drwxrxrx sshuser sshuser     0 20190826 03:25 /customscriptactionlogs

drwxrxrx sshuser sshuser     0 20190826 03:19 /example

drwxrx sshuser sshuser     0 20190826 02:54 /hbase

drwxrxx sshuser sshuser     0 20190906 07:41 /hdp

drwxrx sshuser sshuser     0 20190826 02:54 /hive

drwxrx sshuser sshuser     0 20190826 02:54 /mapred

drwxrwxwt sshuser sshuser     0 20190826 03:19 /mapreducestaging

drwxrwxwt sshuser sshuser     0 20190826 02:54 /mrhistory

drwxrwxwt sshuser sshuser     0 20190826 03:19 /tezstaging

drwxrx sshuser sshuser     0 20190826 02:54 /tmp

drwxrwxwt sshuser sshuser     0 20190909 02:31 /user

將文件列表和ADLS Gen2比對(duì),可以看到這里的“根目錄”事實(shí)上就完全對(duì)應(yīng)著hdiclusterroot這個(gè)數(shù)據(jù)湖實(shí)例下hdfsroot文件系統(tǒng)中的數(shù)據(jù),這說(shuō)明集群實(shí)現(xiàn)了該數(shù)據(jù)湖文件系統(tǒng)的掛載:

那么,這樣的遠(yuǎn)程掛載是如何實(shí)現(xiàn)的呢?打開(kāi)集群的coresite.xml 配置文件,答案在fs.defaultFS配置節(jié)中:

property  namefs.defaultFS/name  valueabfs://hdfsroot@hdiclusterroot.dfs.core.windows.net/value  finaltrue/final/property

原來(lái),與通常使用hdfs不同,集群的fs.defaultFS在創(chuàng)建時(shí)就被設(shè)置為了以abfs為開(kāi)頭的特定url,該url正是指向我們的數(shù)據(jù)湖存儲(chǔ)。這個(gè)ABFS驅(qū)動(dòng)(Azure Blob File System)是微軟專(zhuān)門(mén)為Data Lake Storage Gen2開(kāi)發(fā),全面實(shí)現(xiàn)了Hadoop的FileSystem接口,為Hadoop體系和ADLS Gen2架起了溝通橋梁。

為證明數(shù)據(jù)湖文件系統(tǒng)能夠正常工作,我們來(lái)運(yùn)行一個(gè)經(jīng)典的WordCount程序。筆者使用AzCopy往數(shù)據(jù)湖中上傳了一本小說(shuō)《雙城記》 (ATaleOfTwoCities.txt),然后到HDInsight集群自帶的Jupyter Notebook里通過(guò)Scala腳本運(yùn)用Spark來(lái)進(jìn)行詞頻統(tǒng)計(jì):

Great! 我們的Spark on ADLS Gen2實(shí)驗(yàn)完美運(yùn)行,過(guò)程如絲般順滑。

小結(jié)

Azure Data Lake Storage Gen2是微軟Azure全新一代的大數(shù)據(jù)存儲(chǔ)產(chǎn)品,專(zhuān)為企業(yè)級(jí)數(shù)據(jù)湖類(lèi)應(yīng)用所構(gòu)建。它繼承了Azure Blob Storage易于使用、成本低廉的特點(diǎn),同時(shí)又加入了目錄層次結(jié)構(gòu)、細(xì)粒度權(quán)限控制等企業(yè)級(jí)特性。

本文主要實(shí)踐了大數(shù)據(jù)集群掛載ADLS Gen2作為主存儲(chǔ)的場(chǎng)景,在證明ADLS Gen2具備良好Hadoop生態(tài)兼容性的同時(shí),也體驗(yàn)了與傳統(tǒng)HDFS不同的存儲(chǔ)計(jì)算分離架構(gòu)。該種架構(gòu)由于可獨(dú)立擴(kuò)展計(jì)算和存儲(chǔ)部分,非常適合云端特點(diǎn),正受到越來(lái)越多的歡迎。


文章推薦
ASO優(yōu)化在APP Store中應(yīng)該怎么做搜索優(yōu)化,app怎么定制aso優(yōu)化
Google UAC系列如何衡量出價(jià)水平是否合理呢,googleuac預(yù)算
Azure面向制造業(yè)的解決方案,azure公司
App出海,app出海聯(lián)運(yùn)


特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問(wèn)題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國(guó)平臺(tái)交流群
加入
韓國(guó)平臺(tái)交流群
掃碼進(jìn)群
歐洲多平臺(tái)交流群
加入
歐洲多平臺(tái)交流群
掃碼進(jìn)群
美國(guó)賣(mài)家交流群
加入
美國(guó)賣(mài)家交流群
掃碼進(jìn)群
ESG跨境專(zhuān)屬福利分享群
加入
ESG跨境專(zhuān)屬福利分享群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
亞馬遜跨境增長(zhǎng)交流群
加入
亞馬遜跨境增長(zhǎng)交流群
掃碼進(jìn)群
亞馬遜跨境增長(zhǎng)交流群
加入
亞馬遜跨境增長(zhǎng)交流群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
ESG獨(dú)家招商-PHH GROUP賣(mài)家交流群
加入
ESG獨(dú)家招商-PHH GROUP賣(mài)家交流群
掃碼進(jìn)群
2025跨境電商營(yíng)銷(xiāo)日歷
《2024年全球消費(fèi)趨勢(shì)白皮書(shū)——美國(guó)篇》
《2024TikTok出海達(dá)人營(yíng)銷(xiāo)白皮書(shū)》
《Coupang自注冊(cè)指南》
《eMAG知識(shí)百科》
《TikTok官方運(yùn)營(yíng)干貨合集》
《韓國(guó)節(jié)日營(yíng)銷(xiāo)指南》
《開(kāi)店大全-全球合集》
《TikTok綜合運(yùn)營(yíng)手冊(cè)》
《TikTok短視頻運(yùn)營(yíng)手冊(cè)》
通過(guò)ESG入駐平臺(tái),您將解鎖
綠色通道,更高的入駐成功率
專(zhuān)業(yè)1v1客戶(hù)經(jīng)理服務(wù)
運(yùn)營(yíng)實(shí)操指導(dǎo)
運(yùn)營(yíng)提效資源福利
平臺(tái)官方專(zhuān)屬優(yōu)惠

立即登記,定期獲得更多資訊

訂閱
聯(lián)系顧問(wèn)

平臺(tái)顧問(wèn)

平臺(tái)顧問(wèn) 平臺(tái)顧問(wèn)

微信掃一掃
馬上聯(lián)系在線顧問(wèn)

icon icon

小程序

微信小程序

ESG跨境小程序
手機(jī)入駐更便捷

icon icon

返回頂部

【免費(fèi)領(lǐng)取】全球跨境電商運(yùn)營(yíng)干貨 關(guān)閉
進(jìn)行中
進(jìn)行中
2025跨境電商營(yíng)銷(xiāo)日歷
包括傳統(tǒng)中、外重要節(jié)日及重點(diǎn)電商營(yíng)銷(xiāo)節(jié)點(diǎn)還對(duì)營(yíng)銷(xiāo)關(guān)鍵市場(chǎng)、選品輔以說(shuō)明,讓你的365天安排的明明白白!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
【平臺(tái)干貨】eMAG知識(shí)百科
涵蓋從開(kāi)店到大賣(mài)6個(gè)板塊:開(kāi)店、運(yùn)營(yíng)、廣告、選品、上架、物流
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
TikTok運(yùn)營(yíng)必備干貨包
包含8個(gè)TikTok最新運(yùn)營(yíng)指南(市場(chǎng)趨勢(shì)、運(yùn)營(yíng)手冊(cè)、節(jié)日攻略等),官方出品,專(zhuān)業(yè)全面!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國(guó)coupang平臺(tái)自注冊(cè)指南
韓國(guó)Coupang電商平臺(tái)從注冊(cè)準(zhǔn)備、提交申請(qǐng)到完成注冊(cè),開(kāi)店全流程詳細(xì)指引。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——全球合集
涵括全球100+個(gè)電商平臺(tái)的核心信息,包括平臺(tái)精煉簡(jiǎn)介、競(jìng)爭(zhēng)優(yōu)勢(shì)、熱銷(xiāo)品類(lèi)、入駐要求以及入駐須知等關(guān)鍵內(nèi)容。
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國(guó)電商節(jié)日營(yíng)銷(xiāo)指南
10+韓國(guó)電商重要營(yíng)銷(xiāo)節(jié)點(diǎn)詳細(xì)解讀;2024各節(jié)日熱度選品助力引爆訂單增長(zhǎng);8大節(jié)日營(yíng)銷(xiāo)技巧輕松撬動(dòng)大促流量密碼。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺(tái)詳解——?dú)W洲篇
涵蓋20+歐洲電商平臺(tái),詳細(xì)解讀優(yōu)勢(shì)、入駐條件、熱銷(xiāo)品等
立即領(lǐng)取