Workshops‎ > ‎

20131120 - Hadoop TW Workshop

Workshop名稱:Google Cloud Platform Workshop

主辦單位:Hadoop.TW

協辦單位:Google, MiTAC

日期:2013/11/20 PM 7:00-9:30

開場:Jazz, Jesse

演講:

  • Bee Loon Tan: Introduction to Google Cloud Platform

  • Karthik Rajasekharan: MapReduce on Google Cloud Platform

  • Karthik Rajasekharan: BigQuery on Google Cloud Platform

Workshop的由來

Hadoop.TW是台灣地區著名的技術社群之一,由國網中心Jazz所創辦,群集對Hadoop這門技術有興趣的各方好手,彼此討論與交換Hadoop相關的技術資訊。本次有幸與Google Cloud Platform APAC區代表Bee相遇,並且邀請Google團隊來分享在大量資料上的Google Solution,而Workshop的場地與後續的活動規劃則由台灣區Google Cloud Platform代理商MiTAC提供。



Introduction to Google Cloud Platform (Bee)

Bee是APAC地區Google Cloud Platform負責人,帶領著Karthik服務APAC區雲端服務曲球之用戶。很高興這次能夠邀請到Bee負責Introduction to Google Cloud Platform這個Session。在Bee的演講當中,主要帶出Google在雲端服務的演進歷程,Google以搜尋起家,不斷致力於提供更完善的雲端服務,更將基礎建設都建置於安全認證與綠能認證的機房當中,今年度,Google開啟Cloud Platform計畫,要將Google等級的速度、安全、穩定、服務營運帶給大眾,深入Google Cloud Platform包含了以提供運算能力為主的:App Engine, Compute Engine,以提供儲存能力的Datastore,CloudSQL,Cloud Storage,以及提供應用程式服務的BIGQuery… 眾多的雲端服務,目的是要帶給使用者完整的解決方案!




Karthik是Google的APAC區技術負責人,具有豐富的學歷與經歷,更是位資料領域的專家,與Bee及神通搭配,服務台灣地區Google Cloud Platform需求用戶,本次Workshop由Karthik主講MapReduce on Google Cloud Platform與BigQuery on Google Cloud Platform兩主題。


MapReduce on Google Cloud Platform (Karthik)



Karthik在與現場的技術人員互動中,首先帶入了Google在大量資料運算演進中的貢獻,從GFS、MapReduce、Big Table、Dremel到Spanner、Colossus等的概念的釋出,Google在雲端的領域在在都掀起IT界的風潮。GFS帶出了Hadoop的HDFS概念,並透過MapReduce的理論設計出現在的Hadoop運作原理,讓處理巨量資料成為可能。2008年的Dremel技術文章一出,更讓Apache採用此概念實作了Drill,讓即時的資料分析概念漸漸成形。現在,Google更將這些服務精進,以BigQuery的方式提供給全世界的使用者能夠直接使用該服務,一次解決資料儲存與分析的問題,更可以與其他的Google服務結合,達到更多樣的應用。

Google Cloud Platform服務大量資料的整體架構中,Hadoop服務亦佔有一席重要之地,Compute Engine的開放,讓Hadoop的架構可以透過簡單的程式撰寫來動態建置一個巨大的Hadoop Cluster,初步分析得到有價值的資料,進而搭配BigQuery得到更據價值之資料。

演講中,Karthik介紹Hadoop在GCP上的應用,連續展示幾個殺手級的應用。首先是一次開立100台主機的動作,100台主機在一分多鐘完全開立完成並可服務,透過與Google Cloud API的搭配,使用者可以完全不用擔心主機數量問題。在與Hadoop搭配的應用上,Karthik展示透過Google Compute Engine主機開立後自動部屬Haddop Cluster,並可以自動部屬範例程式至Hadoop Cluster進行運算動作,這些展示,都可以搭配Google CloudStorage來達到更快速且便利。最後Karthik展示Hive與Pig等高階Hadoop工具的自動部屬,讓您可以隨時擁有互動性的Hadoop介面,讓資料的萃取更加方便。


BigQuery on Google Cloud Platform (Karthik)




接下來是從Hadoop在Google Cloud Platform上的應用情境進入BigQuery的主題,此時探討的是更加便利的巨量資料處理情境,BigQuery以Google Search的概念(類似Hadoop的架構),結合Google大量的運算資源與穩定且快速的網路頻寬,針對使用者儲存的大量資料,可進行SQL like語法的查詢動作。數以億計的資料筆數、數TB的資料大小,都可以在數十秒到數秒之間回應,使用者不用再去建置大型資料庫、資料倉儲、OLAP分析工具等來分析資料,也不用等待數小時的時間才能得到回應... 情境的展示部分,Karthik透過簡單的Wikipedia資料集,該資料集有313億筆資料,35GB的資料大小,簡單的count(*)在2.2秒得到回應,再深入的查詢包含hadoop關鍵字的標題,也輕易的在5秒左右查詢出結果... 簡單的展示,讓現場的技術人員深知未來是資料分析的世界,如何在資料海中找出有用的資料,速度將會是決勝的關鍵。


總結

非常感謝Google團隊與Hadoop社群舉辦本次的Workshop活動,在本次的Workshop當中,Google團隊以深入淺出的方式帶領現場的與會人員能夠通盤了解巨量資料的演進與Google針對巨量資料分析的工具與方法,讓Google團隊的經驗與技術能夠傳承給台灣地區的頂尖技術人員們,在場人員一致感謝Google團隊在資訊領域的貢獻,也誠真的希望Google團隊將來能夠持續分享給我們最新的雲端資訊。


Comments