校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > 云深度學習平臺架構與實踐的必經之路

云深度學習平臺架構與實踐的必經之路

熱門標簽:電銷機器人 錄音 地圖標注怎么知道對錯 南通手機外呼系統一般多少錢 樺甸代理外呼系統 濮陽百度地圖標注公司入駐 智能電銷機器人源碼下載 店鋪怎么進行地圖標注注冊 南昌ai外呼系統中心 南京語音電銷機器人價格
 

715被《福布斯》雜志譽為大數據運動的里程碑的全球頂級大數據會議Strata Data Conference在京召開。第四范式先知平臺架構師陳迪豪受邀出席大會,并分享云深度學習平臺的架構與實踐經驗。

作為第四范式先知平臺架構師,陳迪豪活躍于Open stack、Kubernetes、TensorFlow等開源社區,實現了Cloud Machine Learning 云深度學習平臺,對如何進行云深度學習平臺架構有著深厚積累。本次演講中,他介紹了什么是云深度學習?在經過實踐后,應該如何重新定義云深度學習?以及第四范式在這方面的應用和實踐。以下文章按照現場演講實錄整理。

定義云深度學習平臺

什么是云深度學習?隨著機器學習的發展,單機運行的機器學習任務存在缺少資源隔離、無法動態伸縮等問題,因此要用到基于云計算的基礎架構辦事。云機器學習平臺并不是一個全新的概念,Google、微軟、亞馬遜等都有相應的辦事,這里列舉幾個比較典型的例子。

第一個是Google Cloud Machine Learning Engine,它底層托管在Google Cloud上,上層封裝了Training、Prediction、Model Service等機器學習應用的抽象,再上層支持了Google官方的TensorFlow開源框架。亞馬遜也推出了Amzon machine learning平臺,它基于AWS的Iaas架構,在Iaas上提供兩種差別的辦事,別離是可以運行MXNet等框架的EC2虛擬機辦事,以及各種圖象、語音、自然語言處理的SaaS API。此外,微軟提供了Azure Machine Learning Studio辦事,底層也是基于本身可伸縮、可拓展的Microsoft Azure Cloud辦事,上層提供了拖拽式的更易用的Studio工具,再上面支持微軟官方的CNTK等框架,除此之外微軟還有各種感知辦事、圖象處理等SaaS API,這些辦事都是跑在Scalable的云基礎平臺上面。

以上這些都是業界比較成熟的云深度學習平臺,而在真實的企業環境中,我們為什么還需要實現Cloud Machine Learning辦事呢?首先國外的基礎設施并不必然是國內企業可以直接使用的,而如果只是當地安置了TensorFlow,那也只能在裸機上進行訓練,當地默認沒有資源隔離,如果同時跑兩個訓練任務就需要本身去解決資源沖突的問題。因為沒有資源隔離,所以也做不了資源共享,即使你有多節點的計算集群資源,也需要人工的約定才能保證任務不會沖突,無法充分利用資源共享帶來的便當。此外,開源的機器學習框架沒有集群級另外編排功能,例如你想用分布式TensorFlow時,需要手動在多臺辦事器上啟動進程,沒有自動的Failover和Scalling。因此,很多企業已經有機器學習的業務,但因為缺少Cloud Machine Learning平臺,仍會有安排、辦理、集群調度等問題。

那么如何實現Cloud Machine Learning平臺呢?我們對云深度學習辦事做了一個分層,第一層是平臺層,類似于Google cloud、Azure、AWS這樣的IaaS層,企業內部也可以使用一些開源的方案,如容器編排工具Kubernetes或者虛擬機辦理工具OpenStack。有了這層之后,我們還需要支持機器學習相關的功能,例如Training、Prediction、模型上線、模型迭代更新等,我們在Machine Learning Layer層對這些功能進行抽象,實現了對應的API接口。最上面是模型應用層,就可以基于一些開源的機器學習類庫,如TensorFlow、MXNet等。

整個Cloud Machine learning運行在可伸縮的云辦事上,包行了模型開發、模型訓練,以及模型辦事等功能,形成一個完整的機器學習工作流。但這并不是一個閉環,我們在實踐中發現,線上的機器學習模型是有時效性的,例如新聞保舉模型就需要及時更新熱點新聞的樣本特征,這時就需要把閉環打通,把線上的預測結果加入到線下的訓練任務里,然后通過在線學習或者模型升級,實現完整的機器學習閉環,這些都是單機版的機器學習平臺所不能實現的。

打造云深度學習平臺主要包羅以下幾個組件:首先是客戶端拜候的API Service,作為辦事提供方,我們需要提供尺度的RESTful API辦事,后端可以對接一個Kubernetes集群、OpenStack集群、甚至是自研的資源辦理系統。客戶端請求到API辦事后,平臺需要解析機器學習任務的參數,通過Kubernetes或者OpenStack來創建任務,調度到后端真正執行運算的集群資源中。如果是訓練任務,可以通過起一個訓練任務的Container,里面預裝了TensorFlow或MXNet運行環境,通過這幾層抽象就可以將單機版的TensorFlow訓練任務提交到由Kubernetes辦理的計算集群中運行。在模型訓練結束后,系統可以導出模型對應的文件,通過請求云深度學習平臺的API辦事,最終翻譯成Kubernetes可以理解的資源配置請求,在集群中啟動TensorFlow Serving等辦事。除此之外,,在Google Cloud-ML最新的API里多了一個Prediction功能,預測時既可以啟動在線Service,也可以啟動離線的Prediction的任務,平臺只需要創建對應的Prediction的容器來做Inference和生存預測結果即可 。通過這種簡單的封裝,就可以實現類似Google Cloud-ML的基礎架構了。

標簽:鄂州 興安盟 黑龍江 文山 盤錦 焦作 懷化 江門

巨人網絡通訊聲明:本文標題《云深度學習平臺架構與實踐的必經之路》,本文關鍵詞  云,深度,學習,平臺,架構,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《云深度學習平臺架構與實踐的必經之路》相關的同類信息!
  • 本頁收集關于云深度學習平臺架構與實踐的必經之路的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 原平市| 子长县| 兰考县| 枣阳市| 文成县| 祁连县| 石嘴山市| 莒南县| 成安县| 凤凰县| 京山县| 桐庐县| 潢川县| 正镶白旗| 彭阳县| 富顺县| 香河县| 周宁县| 府谷县| 房产| 思南县| 叙永县| 陕西省| 金门县| 东海县| 抚远县| 莱州市| 稻城县| 醴陵市| 手机| 岗巴县| 仙桃市| 鄂托克旗| 澎湖县| 墨脱县| 尚义县| 新昌县| 疏附县| 日土县| 巩义市| 崇仁县|