Apache PredictionIO：使用Spark輕松學習機器

admin · 發表于 2017-10-28 10:47:56

現在Apache指導下的一個開源項目使用模板系統來輕松地訓練和部署Spark-powered機器學習模型
Apache基金會向其名單添加了一個新的機器學習項目，Apache PredictionIO是由Salesforce的子公司最初設計的項目的開源版本。

什么PredictionIO用于機器學習和Spark

Apache PredictionIO構建在Spark和Hadoop之上，并通過使用可定制模板進行常規任務的數據的Spark功能預測。應用程序將數據發送到PredictionIO的事件服務器以訓練模型，然后根據模型查詢引擎的預測。

Spark，MLlib，HBase，Spray和Elasticsearch都與PredictionIO捆綁在一起，Apache提供支持Java，PHP，Python和Ruby的SDK。數據可以存儲在各種后端：JDBC，Elasticsearch，HBase，HDFS及其本地文件系統都是開箱即用的。后端是可插拔的，所以開發人員可以創建一個定制的后端連接器。

PredictionIO模板如何使Spark更容易預測

PredictionIO最顯著的優點是其創建機器學習引擎的模板系統。模板減少了設置系統以提供特定類型的預測所需的繁重的提升。它們描述了任務可能需要的任何第三方依賴關系，例如Apache Mahout機器學習應用程序框架。

一些現有的模板包括：

普遍推薦引擎。
文本分類。
生存分析（故障預測之間的時間）。
使用維基百科標識主題作為知識庫。
相似度分析
一些模板還與其他機器學習產品集成。例如，目前在PredictionIO畫廊中的兩個預測模板，用于流失率檢測和一般建議，使用H2O.ai的Sparkling Water增強功能。

PredictionIO還可以自動評估預測引擎，以確定與之一起使用的最佳超參數。開發人員需要選擇和設置如何做到這一點的指標，但這樣做的工作通常比在手動調整超參數方面要少得多。

作為服務運行時，PredictionIO可以單獨接受或作為批處理。只要批量預測作業中使用的算法都可串行化，批量預測將在Spark群集中自動并行化。（PredictionIO的默認算法是。）

哪里可以下載PredictionIO

PredictionIO的源代碼可在GitHub上找到。為方便起見，可以使用各種Docker圖像，以及Heroku構建包。

		自動登錄	找回密碼
密碼			立即注冊