AWS 宣布推出 AWS Glue DataBrew
西雅圖--今天,Amazon.com, Inc. (NASDAQ:AMZN) 旗下公司 Amazon Web Services, Inc. (AWS) 宣布全面推出 AWS Glue DataBrew,這是一種新的可視化數據準備工具,可為客戶提供支持無需編寫代碼即可清理和規范化數據。自 2016 年以來,數據工程師一直使用 AWS Glue 來創建、運行和監控提取、轉換和加載 (ETL) 作業。 AWS Glue 提供基于代碼和可視化界面,并為客戶顯著簡化了在云中提取、編排和加載數據的過程。數據分析師和數據科學家想要一種更簡單的方法來清理和轉換這些數據,這就是 DataBrew 提供的服務,該服務允許直接從 AWS 數據湖、數據倉庫和數據庫進行數據探索和實驗,而無需編寫代碼。 AWS Glue DataBrew 為客戶提供超過 250 種預構建的轉換,以自動執行數據準備任務(例如過濾異常、標準化格式和更正無效值),否則這些任務需要數天或數周才能編寫手動編碼的轉換。準備好數據后,客戶可以立即開始使用 AWS 和第三方分析和機器學習服務來查詢數據和訓練機器學習模型。使用 AWS Glue DataBrew 沒有前期承諾或成本,客戶只需為在數據集上創建和運行轉換付費。要開始使用,請訪問 。
“數據湖是我們分析戰略的關鍵部分。我們面臨的挑戰之一是無法在將數據攝取到我們的數據湖之前輕松探索數據”
為分析和機器學習準備數據涉及幾個必要且耗時的任務,包括數據提取、清理、規范化、加載以及大規模 ETL 工作流的編排。為了大規模提取、編排和加載數據,精通 SQL 或 Python 或 Scala 等編程語言的數據工程師和 ETL 開發人員可以使用 AWS Glue。 ETL 開發人員通常更喜歡現代 ETL 工具中常見的可視化界面,而不是編寫 SQL、Python 或 Scala,因此 AWS 最近推出了 AWS Glue Studio,這是一種新的可視化界面,可幫助編寫、運行和監控 ETL 作業,而無需編寫任何代碼。一旦數據被可靠地移動,底層數據仍然需要由在業務線中運作并了解數據上下文的數據分析師和數據科學家進行清理和規范化。為了對數據進行清理和規范化,數據分析師和數據科學家要么在 Excel 或 Jupyter Notebooks 中處理小批量數據,這些數據無法容納大型數據集,要么依靠稀缺的數據工程師和 ETL 開發人員編寫自定義代碼來執行清潔和規范化轉換。為了發現數據中的異常,技術高超的數據工程師和 ETL 開發人員會花費數天或數周時間編寫自定義工作流,以從不同來源提取數據,然后對數據進行多次旋轉、轉置和切片,然后才能與數據分析師進行迭代或數據科學家來識別和修復數據質量問題。在開發了這些轉換之后,數據工程師和 ETL 開發人員仍然需要安排自定義工作流持續運行,以便可以自動清理和規范新傳入的數據。每次數據分析師或數據科學家想要更改或添加轉換時,數據工程師和 ETL 開發人員都需要重新提取、加載、清理、規范化和編排數據準備任務。這個迭代過程可能需要數周到數月才能完成;因此,客戶花費了多達 80% 的時間來清理和規范化數據,而不是實際分析數據并從中提取價值。
AWS Glue DataBrew 是 AWS Glue 的可視化數據準備工具,它允許數據分析師和數據科學家使用交互式、點擊式可視化界面清理和轉換數據,而無需編寫任何代碼。借助 AWS Glue DataBrew,最終用戶可以直接從其 Amazon Simple Storage Service (S3) 數據湖、Amazon Redshift 數據倉庫以及 Amazon Aurora 和 Amazon Relational Database Service (RDS) 數據庫輕松訪問和直觀地探索整個組織中的任何數據量。客戶可以從 250 多種內置函數中進行選擇,以組合、旋轉和轉置數據,而無需編寫代碼。 AWS Glue DataBrew 建議執行數據清理和規范化步驟,例如過濾異常、將數據規范化為標準日期和時間值、生成用于分析的聚合以及更正無效、錯誤分類或重復的數據。對于復雜的任務,例如將單詞轉換為公共基礎詞或詞根(例如將“yearly”和“yearlong”轉換為“year”),AWS Glue DataBrew 還提供使用自然語言處理 (NLP) 等高級機器學習技術的轉換。然后,用戶可以將這些清理和規范化步驟保存到工作流(稱為配方)中,并自動將它們應用于未來的傳入數據。如果需要對工作流程進行更改,數據分析師和數據科學家只需更新配方中的清理和規范化步驟,它們就會在新數據到達時自動應用于新數據。 AWS Glue DataBrew 將準備好的數據發布到 Amazon S3,這使客戶可以輕松地立即將其用于分析和機器學習。 AWS Glue DataBrew 是無服務器且完全托管的,因此客戶無需配置、預置或管理任何計算資源。
“AWS 客戶正在以前所未有的速度使用數據進行分析和機器學習。但是,這些客戶經常告訴我們,他們的團隊在與數據準備相關的無差別、重復和平凡的任務上花費了太多時間,”AWS 數據庫和分析副總裁 Raju Gulabani 說。 “客戶喜歡 AWS Glue 等基于代碼的數據準備服務的可擴展性和靈活性,但他們也可以從允許業務用戶、數據分析師和數據科學家在不編寫代碼的情況下獨立地可視化探索和試驗數據中受益。 AWS Glue DataBrew 具有易于使用的可視化界面,可幫助所有技術級別的數據分析師和數據科學家理解、組合、清理和轉換數據?!?/p>
AWS Glue DataBrew 現已在美國東部(弗吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、歐洲(愛爾蘭)、歐洲(法蘭克福)、亞太地區(悉尼)和亞太地區(東京)全面推出,即將在其他地區推出。
總部位于東京的 NTT DOCOMO 是日本最大的移動服務提供商,為超過 8000 萬客戶提供服務。 NTT DOCOMO 營銷平臺規劃部總經理 Takashi Ito 表示:“我們的分析師分析和查詢各種結構化和非結構化數據,以便更好地了解使用模式。” “AWS Glue DataBrew 提供了一個可視化界面,使我們的技術和非技術用戶能夠快速輕松地分析數據。其先進的數據剖析功能有助于我們更好地了解我們的數據并監控數據質量。 AWS Glue DataBrew 和其他 AWS 分析服務使我們能夠簡化工作流程并提高生產力。”
bp 是全球最大的綜合能源公司之一。 “數據湖是我們分析戰略的關鍵部分。我們面臨的挑戰之一是無法在將數據攝取到我們的數據湖之前輕松探索數據,”bp 數據與分析平臺架構總監 John Maio 說。 “AWS Glue DataBrew 具有復雜的數據分析功能和一組豐富的內置轉換。這使我們的數據工程師能夠輕松地在可視界面中探索新數據集并進行修改,以優化攝取并允許分析師為他們的分析解決方案塑造數據。我們將 AWS Glue DataBrew 視為幫助我們更好地管理數據平臺和提高數據管道效率的一種方式?!?/p>英威達是科赫工業的子公司,是世界上最大的化學中間體、聚合物和纖維綜合生產商之一。 “數據對于優化我們的制造流程至關重要。我們面臨的挑戰之一是確保我們擁有一個干凈的數據湖,可以作為我們分析和機器學習應用程序的真實來源,”英威達分析和云計算負責人 Tanner Gonzalez 說。 “攝取到我們數據湖中的數據通常包含重復值、不正確的格式和其他缺陷,這些缺陷使其難以以原始形式使用。 Amazon AWS Glue DataBrew 將允許我們的數據分析師直觀地檢查大型數據集、清理和豐富數據以及執行高級轉換。 AWS Glue DataBrew 將使我們的分析師和數據科學家能夠執行高級數據工程活動,讓他們可以自由探索數據并減少獲得新見解的時間?!?/p>
關于亞馬遜網絡服務
14 年來,Amazon Web Services 一直是世界上最全面、應用最廣泛的云平臺。 AWS 為計算、存儲、數據庫、網絡、分析、機器人、機器學習和人工智能 (AI)、物聯網 (IoT)、移動、安全、混合、虛擬和增強現實(VR 和 AR)提供超過 175 項功能齊全的服務)、媒體和應用程序開發、部署和管理,來自 24 個地理區域內的 77 個可用區 (AZ),并已宣布計劃在印度、印度尼西亞、日本、西班牙和瑞士再增加 15 個可用區和 5 個 AWS 區域。數以百萬計的客戶(包括發展最快的初創公司、最大的企業和領先的政府機構)信任 AWS 來支持他們的基礎設施、變得更加敏捷并降低成本。
關于亞馬遜
亞馬遜遵循四項原則:以客戶為中心而非以競爭對手為中心、對發明的熱情、對卓越運營的承諾以及長期思考??蛻粼u論、一鍵購物、個性化推薦、Prime、亞馬遜物流、AWS、Kindle Direct Publishing、Kindle、Fire 平板電腦、Fire TV、亞馬遜 Echo 和 Alexa 是亞馬遜率先推出的一些產品和服務。
特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。
平臺顧問
微信掃一掃
馬上聯系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部