2023年11月29日 星期三

探索Lake House:Databricks新功能帶來的變革


全世界最厲害的頭腦、最捉摸不透的管理動向、不知何去何從的地球命運,都在【世界公民電子報】。 【Sports觀點報】提供知名運動評論家的精彩體育賽事評論文章,讓你輕鬆瞭解比賽及體育界相關訊息。
★ 無法正常瀏覽內容,請按這裡線上閱讀
新聞  健康  udn部落格  
2023/11/30 第757期  |  訂閱/退訂  |  看歷史報份
  科技新知 探索Lake House:Databricks新功能帶來的變革
MLOps的產業先導者和發展潛力探討
具製造約束的可變寬度網格成型通道形狀優化方法-應用於靈活軋延成型製程
如何選擇數位工具?又該如何下一步?淺談批發零售產業的數位轉型

探索Lake House:Databricks新功能帶來的變革
FIND研究員:莊鈞諺

何謂Lake House概念?

Lakehouse結合了資料湖和資料倉儲的優勢,使資料團隊能迅速運用數據而無需跨多個系統查詢。這不僅確保數據科學、機器學習和商業分析專案擁有最新、完整的數據,還巧妙地克服了資料湖和資料倉儲之間的差異,提供了結構化數據和原始資料的最佳解決方案,從而解決了傳統二級資料架構中的問題。

Databricks Lakehouse的出現,將資料湖的彈性、成本效益及大規模的特性與資料倉儲的ACID交易和數據控管完美結合,實現了商業智慧(BI)和機器學習(ML)的全面應用。其核心在於保留資料於可大規模調整的雲端物件儲存體中,同時使用開放原始碼的資料標準,確保使用者能夠隨時隨地使用資料。

Lakehouse於實際場景中的應用優勢

在許多企業應用中,Lakehouse能夠迅速處理和結合多種異質和複雜的資料。例如,在下面這個實作示範中,我從不同格式的資料來源:交易資料(csv)、GA logs (parquet)和PageSpeed Insights (json)三種資料來源中,結合了資料湖的優勢,處理了複雜的套嵌格式,最終產生了一個日常營運報表,先簡單介紹一下要整合的資料,包括以下三種:

交易資料:以csv格式儲存的資料,屬於一般的表格型資料,記錄了日常的交易活動,捕捉每一筆交易的細節,如購買日期、數量和價格等。

GA4 log資料:GA4 log資料主要用於分析網站的使用者互動和行為,從而幫助企業了解其網站性能和使用者偏好。資料是從BigQuery中導出的,並由於其包含套嵌的數據結構,選擇以Parquet格式儲存在儲存體。Parquet格式不僅確保資料的壓縮效率,還保持了其階層結構的完整性。

PageSpeed Insight資料:是透過API撈取的資料,以JSON格式呈現。PageSpeed Insight提供了網頁的性能評估,專門測量頁面的加載速度和使用者體驗。它的主要目的是幫助網站開發者優化他們的網站,確保使用者獲得流暢和高效的瀏覽體驗。

將異質的資料上傳到Databricks平台(圖片來源:筆者帳號截圖)

圖1.將異質的資料上傳到Databricks平台

圖片來源:本文作者操作截圖

首先,從三個不同的資料來源中提取資料,並將其存儲為Delta表格。選擇使用Delta格式的主要優勢在於它具有ACID交易功能、高效的資料壓縮以及更快速的查詢性能。當資料成功存儲為Delta表後,可以輕鬆地使用spark.read.table方法來讀取這些資料,並將其轉換成Spark DataFrame的格式,便於資料整合。經過這些步驟後,成功地將三個異質來源的資料整合成一份完整的單日報告,充分展現了Delta Lake在簡化複雜資料工作流程上的強大能力。

圖2.將三種資料整合成一個報表

圖片來源:本文作者操作截圖

Data+AI Summit 2023:Lakehouse的全新里程碑

在最近的Data+AI Summit 2023上,Databricks發表了一系列引人注目的Lakehouse增強功能。首先,「Lakehouse Federation」的出現讓組織在不同的數據平台,如MySQL、Amazon Redshift、Snowflake等上,能夠建立一個開放、高效且安全的資料網狀結構,實現資料無論位於何處都能被輕鬆查詢、管理和監管的目的。

接著,「Governance for AI」使得資料和AI資源在同一平台下統一管理,包括從資料、特徵到模型的查看、版本控制和跟踪。「Volumes in Unity Catalog」打破了只管理表格式數據的局限,允許使用者方便地管理如圖片和視頻等非表格式的數據。最後,「Lakehouse Monitoring」和「Lakehouse Observability」透過AI技術,為數據治理帶來前所未有的監視和診斷工具,助力組織主動識別並解決數據和AI模型中的問題。

Lakehouse將主宰資料架構 確保價值最大化

Lakehouse融合了資料湖和資料倉儲的最佳特性,為資料管理和分析帶來了高效且有革命性的進展。透過Databricks在Data+AI Summit 2023上所展示的新功能,Lakehouse進一步強化了其跨平台、AI治理和非表格式數據的管理能力。上述進展預示了Lakehouse將在未來持續主宰資料架構,並確保數據的靈活應用和價值最大化。

參考資料:

首圖來源:Turned on monitoring screen photo – Free Analysis Image on Unsplash

什麼是Databricks Lakehouse?

What is a Data Lakehouse?

2023 State of Data + AI | Databricks

What's new with Unity Catalog at Data and AI Summit 2023 | Databricks Blog

What's New with Data Sharing and Collaboration on the Lakehoue | Databricks Blog

Lakehouse AI: A Data-Centric Approach to Building Generative AI Applications | Databricks Blog

 
MLOps的產業先導者和發展潛力探討
FIND研究員:李啟榮

MLOps是一種以AI機器學習機制結合DevOps流程的策略,但因為MLOps以AI為核心,雖然需要相對較高的技術、資金等進入門檻,卻可以在應用落地後發揮可觀的產值和成長潛力。藉由導入MLOps,除了能在技術上以AI加速DevOps的作業效率和更新頻率,也能藉由導入AI相關技術在DevOps在不同領域和情境,為不同領域的客群發揮關鍵價值。

AI全球產值年增率大幅提升至21.3%

依據國際諮詢機構Gartner統計,AI軟體的全球產值,從2021年的515億美元提升到2022年的625億美元,年增長率從14.1%提升到21.3%。

另外,在2022年Gartner針對資訊長(CIO)的調查中,其中有48%的CIO表示有計畫導入(或正式導入)AI和機器學習科技。

如此可見,機器學習勢必在企業界和市場上佔有一席之地,也有望成為MLOps的要角。

MLOps受到IT國際龍頭業者青睞

另依據IDC指出,在MLOps的領域中,由於最關鍵的資料集和AI模型的技術需求相對較高,具有全面發展MLOps能力,現今僅有一些代表性、標竿性的龍頭,例如IBM、微軟在領先梯隊;而具有較豐沛雲端資源,但在AI方面開始起步的AWS、谷歌、阿里巴巴等,就在微軟腳步後方的「主力參與者」梯隊,可見MLOps對IT龍頭具有值得投入的吸引力,並以豐沛雲端資源為基礎,來發展可支持MLOps的AI模型和資料集。

圖 1:MLOps領域領先梯隊

資料來源: (Lange, Kuppuswamy, & Schubmehl, 2022)

未來展望/挑戰

現階段的MLOps,雖以大型IT龍頭為領頭羊,並以豐沛的軟硬體資源,提供大數據基底資料集、AI模型架構;但未來隨著AI模型和演算法的開源需求提升,可望降低MLOps的入門門檻,讓中小規模的MLOps有機會蓬勃發展,健全工具鏈和技術能量,滿足MLOps日漸普及化的需求。

封面圖片經圖庫123RF授權使用

參考資料來源

1.Lange, K., Kuppuswamy, R., & Schubmehl, D. (2022). IDC MarketScape: Worldwide Machine Learning Operations Platform 2022 Vendor Assessment. Retrieved from IDC: https://www.sas.com/content/dam/SAS/documents/analyst-reports-papers/en/idc-marketscape-machine-learning-operations-platforms-113233.pdf

2.Rimol, M. (2021, November 22). Gartner Forecasts Worldwide Artificial Intelligence Software Market to Reach $62 Billion in 2022. Retrieved from Gartner: https://www.gartner.com/en/newsroom/press-releases/2021-11-22-gartner-forecasts-worldwide-artificial-intelligence-software-market-to-reach-62-billion-in-2022

 
具製造約束的可變寬度網格成型通道形狀優化方法-應用於靈活軋延成型製程
FIND研究員:謝旻�� 隨著汽車製造業發展趨勢走向少量多樣的發展,且為因應氣候變遷,而對於汽車的金屬材料有著更輕量且高強度的需求,這些方法與傳統沖壓相比具有新的製造約束,而也改變了金屬零組件的成型形狀。澳洲-迪肯大學(Deakin University),的Jie Gong等五人 ...
 
如何選擇數位工具?又該如何下一步?淺談批發零售產業的數位轉型
FIND研究員:廣永強 根據「2022年中小企業白皮書」資料顯示,2021年台灣的中小企業家數已超過159萬家,占全體企業家數的98%以上;就業人數920萬人,占全國就業人數80%以上;銷售額超過26兆元,占比超過50%;以上數據皆顯示出中小企業對台灣經濟的重要性 ...
 
美堤河濱公園圓仔花特色花海 怎麼拍怎麼美!
2023台北年末花海,美堤河濱公園打頭陣,閃亮登場!號稱4萬盆草花,在基隆河碼頭旁潑灑出錦繡大地,猶如水畔彩虹,這頭香,一定要搶!

時尚與聯合國抗飢計畫 有何共同點?
大約10年前,女星荷莉.貝瑞訪問了尼加拉瓜的吉諾特加區。在這趟訪問的影片中,貝瑞看著整齊的一排排孩子魚貫進入他們的鄉村學校,在那裡他們將獲得當天唯一的均衡膳食。她擔任「戰勝飢餓」的特使,這是設計師麥可.寇斯跟聯合國世界糧食計畫署合作的一項倡議,要為全世界發展中區域學校提供膳食。
 
本電子報著作權均屬「聯合線上公司」或授權「聯合線上公司」使用之合法權利人所有,
禁止未經授權轉載或節錄。若對電子報內容有任何疑問或要求轉載授權,請【
聯絡我們】。
  免費電子報 | 著作權聲明 | 隱私權聲明 | 聯絡我們

沒有留言:

張貼留言

您或許對這些文章有興趣: