亚洲精品中字中出无码,呱呱爆料网每日爆料,精品影院,《人奶魔劫》完整版,成全视频在线观看免费观看

crm系統

免費試用400-821-5041


機器學習的七個最佳實踐

時間: 2020-03-15來源: Salesforce知識

機器學習

Netflix著名的算法挑戰賽,向預測用戶對電影評分的較佳算法頒發了100萬美元的獎金。但是您知道獲勝算法從未實現到功能模型中嗎?

 

Netflix報道說,該算法取得的成果似乎并不能證明將其引入生產環境所需的工程工作是合理的。這是機器學習的一大問題。

 

在您的公司,您可以創建任何人都見過的非常優雅的機器學習模型,即使您從不部署和操作它也沒有關系。但這并非易事,這就是為什么我們向您展示機器學習的七個最佳實踐的原因。

 

本文內容整理于對近期參與數據和分析峰會的數據挖掘和分析產品管理總監Charlie Berger的采訪。

 

將模型付諸實踐的時間可能比您想象的要長。TDWI的一份報告發現,28%的受訪者花了三到五個月的時間才將他們的模型投入使用。幾乎有15%的人需要超過9個月的時間。

機器學習

那么,您如何做才能開始更快地部署機器學習呢?在這里列出了我們的建議:

 

1.別忘了開始行動

在以下幾點中,我們將為您提供一系列不同的方法,以確保以更佳方式使用您的機器學習模型。但是我們從更重要的一點開始。

 

事實是,在機器學習的這個階段,許多人根本就沒有開始。發生這種情況的原因有很多。技術很復雜,也許買不到,或者人們只是難以把每件事都做好。所以這是Charlie的建議:“即使您知道不得不每月重建一次模型,也要開始使用。因為你從中學到的東西是無價的。”

 

2.從業務問題陳述開始,建立正確的成功指標

從業務問題入手是常見的機器學習更佳實踐。但它之所以常見,恰恰是因為它是如此重要,但許多人卻不把它放在首位。

 

想一想這句話:“如果我有一個小時來解決一個問題,我會花55分鐘思考這個問題,5分鐘思考解決方案。”

 

現在,請確保將其應用到機器學習場景中。下面,我們列出了定義不明確的問題陳述以及以更具體的方式定義問題的方式示例。

機器學習

想想你對盈利能力的定義是什么。例如,我們近期與一家全國性的快餐連鎖店進行了洽談,他們希望增加軟飲料的銷量。在這種情況下,我們必須仔細考慮定義交易的含義。該交易是單人餐,還是一家人的六人餐?這很重要,因為它會影響您顯示結果的方式。您必須考慮如何解決該問題并將其付諸實施。

 

除了建立成功指標之外,您還需要建立正確的指標。指標將幫助您建立進度,但是改進指標真的能改善終端用戶體驗嗎?例如,您的傳統度量指標可能包含精度和平方誤差。但是,如果您試圖創建一個衡量航空公司價格優化的模型,那么您的每次購買成本和總體購買成本沒有增加就沒關系。

 

3.不要移動數據–移動算法
預測建模的致命弱點是這是一個兩步過程。首先,您通常基于樣本數據構建模型,這些數據的數量從數百到數百萬不等。然后,一旦建立了預測模型,數據科學家就必須應用它。然而,這些數據中的大部分都駐留在某個數據庫中。

 

假設您要獲得美國所有人的數據。美國有3億6千萬人口,這些數據存放在哪里?可能在某個地方的數據庫中。

 

您的預測模型位于何處?

通常的情況是人們會把他們所有的數據從數據庫中取出來,這樣他們就可以用他們的模型來運行方程。然后,他們必須將結果重新導入數據庫以進行預測。這個過程需要花費數小時,甚至數天的時間,從而降低了您所構建的模型的效率。

 

但是,從數據庫中擴展方程具有顯著的優勢。通過數據庫內核運行方程式需要花費幾秒鐘,而導出數據需要花費數小時。然后,數據庫也可以完成所有數學運算并在數據庫中構建它。對于數據科學家和數據庫管理員來說,這意味著一個世界。

 

通過將數據保留在數據庫和Hadoop或對象存儲中,您可以在數據庫中構建模型和評分,并使用具有數據并行調用的R包。這樣,您就可以消除數據重復并分離分析服務器(不移動數據),并且可以在數小時內對模型進行評分,嵌入數據準備,構建模型和準備數據。

 

4.整合正確的數據
正如James Taylor和Neil Raden在Smart Enough System一書中所寫,對您擁有的所有東西進行分類并確定哪些數據是重要的是處理問題的錯誤方法。正確的方法是從解決方案開始,明確定義問題,并繪制出構成調查和模型所需的數據。

 

然后,是時候與其他團隊合作了。

 

機器學習

這是您可能開始陷入困境的地方。因此,我們將參考第1點,即“別忘了真正開始行動。”同時,整合正確的數據對您的成功非常重要。

 

為使您找出用于填充調查和模型的正確數據,您需要與業務領域,信息技術和數據分析師這三個主要領域的人員進行交談。


業務領域-這些都是了解業務的人:
• 市場營銷和銷售
• 客戶服務
• 運營


信息技術-有權訪問數據的人:
• 數據庫管理員


數據分析師-了解業務的人:
•  統計員
•  數據挖掘者
•  數據科學家


您需要積極參與。沒有它,您將收到類似的評論:
• 這些線索都不好
• 數據過時了
• 該模型不夠精確
• 您為什么不使用這些數據?

 

5.創建新的派生變量
您可能會想,我已經掌握了所有這些數據。我還需要什么?

 

但是創建新的派生變量可以幫助您獲得更多有見地的信息。例如,您可能正在嘗試預測第二天報紙和雜志的銷量。以下是你已經知道的信息:

• 實體店或售貨亭
• 賣彩票?
• 本次抽獎金額

 

當然,您可以根據該信息做出猜測。但是,如果您能夠首先比較當前彩票獎賞金額與典型獎賞金額,然后將該派生變量與您已經擁有的變量進行比較,您將得到一個更準確的答案。

 

6.在發布之前考慮問題并進行測試
理想情況下,一開始您應該能夠使用兩個或多個模型進行A / B測試。你不僅知道你怎么做是對的,而且當你知道你做的是對的時候,你會更有信心。

 

但是,除了進行全面測試之外,當事情出錯時,你也應該有一個適當的計劃。例如,您的指標開始下降。有幾件事會涉及到這一點。您將需要某種形式的警報,以確保可以盡快調查此事。當副總裁進入您的辦公室想知道發生了什么時,您將不得不向可能沒有工程背景的人解釋發生了什么。

 

當然,在發布之前,您需要計劃一些問題。遵守法規是其中之一。例如,假設你申請汽車貸款卻被拒絕了。根據GDPR的新規定,您有權知道原因。當然,機器學習的問題之一是它看起來像一個黑匣子,甚至工程師/數據科學家也無法說出為什么做出某些決定。但是,某些公司將通過確保您的算法能提供預測細節來為您提供幫助。

 

7.在企業范圍內部署和自動化
部署后,不要局限于數據分析師或數據科學家。

 

我們的意思是,始終要思考如何在整個企業中發布預測和可行的見解。重要的是了解數據在哪里以及何時可用,才使數據有價值;而不是它存在的事實。您不想成為坐在象牙塔中的人,發布一些零星的見解。您想要無處不在,每個人都需要更多的見解-簡而言之,你想要確保自己是不可或缺的,是極其有價值的。

 

鑒于我們所有人都只有這么多時間,因此如果可以自動化的話,這是較簡單的,創建儀表板。將這些見解納入企業應用程序。看看您是否可以成為客戶接觸點的一部分,就像一臺自動提款機能識別出客戶定期在每個周五晚上提取100美元,在每個發薪日之后提取500美元。

 

結論
這是機器學習更佳實踐的核心要素。你需要良好的數據,否則將一事無成。您需要將其放在數據庫或對象存儲之類的地方。您需要深入了解數據以及知道如何處理數據,無論是創建新的派生變量還是使用它們的正確算法。然后,您需要實際使用它們從中獲得深入的見解,通過信息傳播它們。

 

其中較困難的部分是啟動您的機器學習項目。我們希望通過這篇文章可以幫助您邁向成功。

 

編譯自:7 Machine Learning Best Practices 作者: Sherry Tiao (ORACLE)