CLOUD MACHINE LEARNING ENGINE簡介(第1部分)

最近,“大數據”這個詞已經變得流行,“數據科學家是21世紀最潮流的職業”等等。數據科學的重點是分析數據和提取有用的信息。

在WEB世界中,針對給定的搜索詞返回適當的結果,根據用戶的行動歷史估計諸如年齡和性別的屬性,顯示適當的廣告,並確定垃圾郵件,數據科學方法應用於各個地方。當然,google是這個行業的領頭,擁有應用數據科學的優秀技術,更令人印象深刻的是,它的一部分作為API釋出給用戶。此次推出的CLOUD MACHINE LEARNING ENGINE就是其中之一。

雖然數據科學涉及各種領域,如統計,機器學習,模式識別和數據庫,但CLOUD MACHINE LEARNING ENGINE是一種基於機器學習提供CLOUD MACHINE LEARNING ENGINE。在本文中,我們將其分為第1部分,第2部分和第3部分,第1部分將概述機器學習和CLOUD MACHINE LEARNING ENGINE,第2部分和第3部分將說明如何實際使用它們。

第2部分和第3部分的文章在這裡

CLOUD MACHINE LEARNING ENGINE 簡介(第1部分)
CLOUD MACHINE LEARNING ENGINE 簡介(第2部分)
CLOUD MACHINE LEARNING ENGINE 簡介(第3部分)

什麼是機器學習

在我們進入CLOUD MACHINE LEARNING ENGINE之前,讓我們簡要介紹一下機器學習。機器學習是人工智能的研究領域之一,可以說它是一個從給定數據中學習並自動獲取知識和規則的系統。

例如,考慮一個確定給定電子郵件是否為垃圾郵件的系統。如果你試圖在不使用機器學習的情況下實現這一點,你必須編寫一條規則,例如“如果包含N個或更多的單詞,我會將其判斷為垃圾郵件”,靜態地在程序上進行判斷它的作用。這樣,實現多功能性和高判斷準確性是不現實的,如果垃圾郵件的趨勢發生變化,人們就必須重新分析數據並重寫程序。

當使用機器學習時,系統動態地獲取允許正確確定數據的規則,使用實際稱為垃圾郵件/非垃圾郵件的郵件的數據組(學習數據)作為輸入。你可以建立一個歧視系統。判斷準確性取決於訓練數據的數量和質量以及問題的複雜性,但在許多情況下,據說數十到數百個訓練數據可以提供足夠的準確性。此外,當數據趨勢發生變化時,如果您使用新數據重新學習,則沒有問題。

CLOUD MACHINE LEARNING ENGINE

摘要

prediction是英文,意思是“預測”,通過使用CLOUD MACHINE LEARNING ENGINE可以輕鬆實現機器學習的各種預測。CLOUD MACHINE LEARNING ENGINE提供的功能是一種稱為監督學習的機器學習。在監督學習中,您首先使用您知道答案的數據集來學習和創建模型。然後使用該模型對未知數據進行預測。

例如,上述垃圾郵件歧視也是監督學習的一個例子。在這種情況下,準備適量的實際垃圾郵件和非電子郵件,將每封電子郵件表示為一對“標籤指示垃圾郵件”和“電子郵件正文”,然後設置我們將使用和學習。在進行預測時,輸出預測結果(無論是否為垃圾郵件),並將郵件正文作為輸入值。

上面的範例是分類(預測類別)的例子,但您也可以使用CLOUD MACHINE LEARNING ENGINE來預測數字。

學習數據的結構

用於學習的數據結構可以被認為是表的結構。一行對應於每個數據(在上面提到的郵件中,一行是一封郵件)。其中一列是答案值(在上面的示例中,它是指示是否為垃圾郵件的標籤),另一列是功能值(在上面的示例中為郵件文本)。列數可以是任意數,只要它是兩個或更多,但所有行必須具有相同的列數。但是,您可以將值保留為空。此外,根據值,特徵值被分為3種類型的文本,分類和數字。

實際上,在使用CLOUD MACHINE LEARNING ENGINE進行學習時,有一種方法是在Google雲端存儲(GCS)上使用CSV文件作為學習數據,以及在向API請求中包含學習數據的方法。使用CSV文件作為訓練數據時,第一列中的答案值以及第二列和後續列將成為要素數量。我認為使用CSV的方法是最熟悉的,所以即使在本文介紹的示例中,我也會使用CSV文件作為訓練數據。

可用方法

CLOUD MACHINE LEARNING ENGINE提供了以下方法來操作附加到項目中的訓練模型。您還可以使用預測方法對已發布的模型(託管模型)執行預測。

analyze

分析通過學習建立的模型和使用的學習數據。

delete

刪除現有模型。

get

獲取現有模型的狀態。

insert

根據訓練數據構建模型。

list

獲取現有模型的列表。

predict

使用現有模型進行預測。

update

將新訓練數據添加到現有模型。

CLOUD MACHINE LEARNING ENGINE的利用方法

這一次,我將使用CLOUD MACHINE LEARNING ENGINE來簡要說明進行預測的過程。

1.準備學習數據

以CSV格式準備學習數據。至於格式,如上所述,標記第一列,第二列和後續列是特徵量。不要附加標題行。此外,文件大小限制為2.5GB。

2.創建GCP項目

準備GCP項目以使用API​​。您需要在Developer’s Console中創建項目並進行以下設置。

  • CLOUD MACHINE LEARNING ENGINE
  • 將學習數據上傳到Cloud Storage

3.創建預測模型

使用插入方法從訓練數據生成模型。請求參數需要GCP項目ID,學習數據路徑和要創建的模型ID。

4.執行預測

使用預測方法進行預測。請求參數需要GCP項目的ID,用於預測的模型的ID以及要預測的數據。

摘要

這樣就完成了CLOUD MACHINE LEARNING ENGINE的推出。回顧一下,CLOUD MACHINE LEARNING ENGINE使用受監督的機器學習算法提供預測功能。①通過準備學習數據,②GCP項目設置,③創建預測模型、④執行預測,您可以輕鬆實現機器學習預測。

第2部分和第3部分使用API​​客戶端庫引入更具體的API說明和示例程序。

第2部分和第3部分的文章在這裡

CLOUD MACHINE LEARNING ENGINE 簡介(第1部分)
CLOUD MACHINE LEARNING ENGINE 簡介(第2部分)
CLOUD MACHINE LEARNING ENGINE 簡介(第3部分)

Aaron Lee

超過6年的Google Cloud經驗,服務過上百家G Suite與GCP客戶,擔任多次研討會主講人與教育訓練講師,提供架構諮詢與技術支援,幫助各大企業上雲。

發佈留言