影音先锋男人资源站_国产婷婷综合丁香亚洲欧洲_白狐视频传媒污软件下载_趁女同学午休揉她的屁股

Azure Databricks大數據構建營 掐指一算,azure 大數據-ESG跨境

Azure Databricks大數據構建營 掐指一算,azure 大數據

來源網絡
來源網絡
2022-04-29
點贊icon 0
查看icon 787

Azure Databricks大數據構建營 掐指一算,azure 大數據Azure Databricks大數據構建營 掐指一算數據分析,這恐怕是任何大數據系統最核心的功能和目標,畢竟只有經過妥善的分析并得出結論,才能從所積累的海量數據中獲得業務價值。那么,我們基于Azure Databricks構建的大數據系統,......

Azure Databricks大數據構建營 掐指一算,azure 大數據





Azure Databricks大數據構建營 掐指一算

數據分析,這恐怕是任何大數據系統最核心的功能和目標,畢竟只有經過妥善的分析并得出結論,才能從所積累的海量數據中獲得業務價值。那么,我們基于Azure Databricks構建的大數據系統,除了像之前介紹過的那樣處理實時數據流之外,在海量離線數據的分析和計算方面,又具備哪些優勢?本篇將帶領你見分曉。

本次《Azure Databricks大數據構建營》系列文章,將主要圍繞Azure Databricks以及其它配套服務,通過一系列實戰教程告訴大家如何基于Azure云打造完全運行在云端的閉環大數據平臺。

內容涵蓋:Azure Databricks的基礎知識,以及如何借助Azure Databricks實現流計算(Structure Streaming)、批處理(Spark SQL)、安全訪問控制以及機器學習能力等。

本系列的第一篇文章概括介紹了有關Azure Databricks的基礎知識,錯過的童鞋可以點擊這里回看;第二篇文章介紹了如何基于Azure Databricks開發實時告警系統,可以點擊這里回看。而本篇,主要將介紹如何對離線數據進行分析和計算,進而獲得業務所需的各類見解。

背景介紹

一般來說,離線數據的分析都會運行OLAP SQL查詢,因而下文將主要圍繞SparkSQL,一個可以通過Spark來進行SQL分析的可實時、可離線計算框架展開介紹。下文場景基于集成Azure Datalake Gen2并啟用Databricks Delta Lake作為外部存儲實現計算存儲分離,通過SparkSQL分析新冠肺炎實時統計數據。而相關資源依然會沿用之前兩篇文章的Demo所創建的資源組。

Delta Lake是一種可以提高數據湖可靠性的開源存儲層,由Databricks開發并開源。Delta Lake提供了ACID事務和可縮放的元數據處理,并可統一流處理和批數據處理。Delta Lake在現有Data Lake的頂層運行,并可與Apache Spark API完全兼容。

具體而言,Delta Lake提供了:

Spark上的ACID事務:可序列化的隔離級別可避免讀者看到不一致的數據。

可縮放的元數據處理:利用Spark的分布式處理能力,輕松處理包含數十億文件的PB級表的所有元數據。

流式處理和批處理統一:Delta Lake中的表是批處理表,也是流式處理源和接收器。流式處理數據引入、批處理歷史回填、交互式查詢功能都是現成的。

架構強制:自動處理架構變體,以防在引入過程中插入錯誤的記錄。

按時間順序查看:數據版本控制支持回滾、完整的歷史審核線索和可重現的機器學習試驗。

更新插入和刪除:支持合并、更新和刪除操作,以啟用復雜用例,如更改數據捕獲、漸變維度(SCD)操作、流式處理更新插入等。

總的來說,Delta Lake不僅能在需要事務符合ACID特性的場景提供支持,還針對性能也做了相當大的代碼優化,本文的實現也是基于Delta Lake,需要注意數據格式需要轉換成delta。

正常情況下,Azure Datalake Gen2與Delta Lake的集成需要在Spark中增加配置項spark.delta.logStore.class=org.apache.spark.sql.delta.storage.AzureLogStore,并且集群需要在lib庫中支持hadoopazuredatalake/hadoopazure/wildflyopenssl JAR,具體過程可以見這里。所以這時PaaS的優勢就顯示出來了:Azure Databricks在集群創建好的同時就已經在集群上啟用了該庫,直接調用即可。Azure Datalake Gen2的創建過程本文不再贅述,具體見官方文檔。

本文將介紹兩種常見的集成方式,如下圖所示,并做幾點說明:

cmd2:非掛載方式

cmd2中通過Scala代碼演示Azure Databricks集成Azure Datalake Gen2的認證配置項,通過創建擁有IAM角色「Storage Blob Data Contributor」的服務主體來做認證,驗證通過后就可直接調用Datalake里的文件了,注意相關變量需要替換。

cmd3:掛載方式

cmd3中通過Python代碼演示Azure Databricks如何掛載Azure Datalake Gen2,身份驗證過程和cmd2的方式一樣。這種方式的好處是直接可以把遠端的Azure Datalake掛載到Azure Databricks上,就好像在使用本地磁盤一樣使用Datalake,本文更推薦并且采用該模式,同時注意相關變量需要替換。

另外,本文的環境位于Azure中國區,所以相關域名都是https://login.partner.microsoftonline.cn,如果位于全球Azure中,那么相關域名將會是https://login.microsoftonline.com。

其實從最佳實踐角度來說,本文并不是實現的最好方式,因為在Notebook里的認證信息全部都是明文出現。最好的方式應該集成Azure密鑰保管庫來隱藏密碼,該方式不再本文贅述,有興趣的同學自行研究吧,附上鏈接供參考。

引入數據源并運行SparkSQL

前面提到,本文所采用的示例數據是和新冠肺炎實時統計數據相關,講到這里有必要介紹一個微軟提供的開放數據集Repo,其中包含各種場景下的csv/json/parquet格式的原始和脫敏數據,本文所用的新冠肺炎數據也是在這里獲取的。

選擇CSV格式數據作為數據源,下載好之后上傳到Azure DataLake,在Container data下面再創建一個Source文件夾作為存放原始數據的目錄徑。

原始數據確定好之后,就可以通過Notebook來做SparkSQL分析了。本文用到的示例Notebook已經上傳到了這里,幾個重要配置簡單說明下:

COVIDDF:COVIDDF為定義的DataFrame,通過spark.read.format(“csv”)格式并指定掛載路徑引入數據;

COVIDDF.write.mode(“append”).format(“delta”):通過Append追加方式寫入目標表中,注意這里的格式delta,也就是前面提到的需要做格式轉換,寫入的表也需要指定路徑,并會在Azure Dalalake中生成相應的文件;

ChinaCOVID及ChinaCOVID1:經過上面的建表過程后就可以運行SparkSQL來做SQL查詢了。

總結

一個通過集成Azure Datalake Gen2作為外部存儲并采用Delta Lake格式進行SparkSQL分析的示例就完成了,本文基本上使用了PySpark來實現,其實除此之外通過SQL或者Scala也是一樣可以實現的,有興趣的同學可以自己再深入研究下吧。

有關如何通過SparkSQL實現數據的離線分析和計算,就是這樣了。隨后的內容中,我們還將繼續介紹如何實現安全訪問控制和機器學習能力。通過這些真實場景中的最佳實踐分享,也能幫助大家更清楚地認識到Azure Databricks的價值。敬請期待!


文章推薦
半導體設備進口深圳清關物流,上海半導體機械設備進口清關物流
Azure存儲管理工具——AzCopy,azure存儲架構
B2B業務在使用PayPal時的“雷區”(二),paypal新用戶為什么不能收款
Android如何在華為應用市場發布應用,華為手機應用體積越來越大


特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。

搜索 放大鏡
韓國平臺交流群
加入
韓國平臺交流群
掃碼進群
歐洲多平臺交流群
加入
歐洲多平臺交流群
掃碼進群
美國賣家交流群
加入
美國賣家交流群
掃碼進群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
ESG獨家招商-PHH GROUP賣家交流群
加入
ESG獨家招商-PHH GROUP賣家交流群
掃碼進群
2025跨境電商營銷日歷
《2024年全球消費趨勢白皮書——美國篇》
《2024TikTok出海達人營銷白皮書》
《Coupang自注冊指南》
《eMAG知識百科》
《TikTok官方運營干貨合集》
《韓國節日營銷指南》
《開店大全-全球合集》
《TikTok綜合運營手冊》
《TikTok短視頻運營手冊》
通過ESG入駐平臺,您將解鎖
綠色通道,更高的入駐成功率
專業1v1客戶經理服務
運營實操指導
運營提效資源福利
平臺官方專屬優惠

立即登記,定期獲得更多資訊

訂閱
聯系顧問

平臺顧問

平臺顧問 平臺顧問

微信掃一掃
馬上聯系在線顧問

icon icon

小程序

微信小程序

ESG跨境小程序
手機入駐更便捷

icon icon

返回頂部