|
Apache PredictionIO:使用Spark輕松學習機器
1.jpg (28.43 KB, 下載次數: 823)
下載附件
Apache PredictionIO
2017-10-28 10:47 上傳
現在Apache指導下的一個開源項目使用模板系統來輕松地訓練和部署Spark-powered機器學習模型
Apache基金會向其名單添加了一個新的機器學習項目,Apache PredictionIO是由Salesforce的子公司最初設計的項目的開源版本。
什么PredictionIO用于機器學習和Spark
Apache PredictionIO構建在Spark和Hadoop之上,并通過使用可定制模板進行常規任務的數據的Spark功能預測。應用程序將數據發送到PredictionIO的事件服務器以訓練模型,然后根據模型查詢引擎的預測。
Spark,MLlib,HBase,Spray和Elasticsearch都與PredictionIO捆綁在一起,Apache提供支持Java,PHP,Python和Ruby的SDK。數據可以存儲在各種后端:JDBC,Elasticsearch,HBase,HDFS及其本地文件系統都是開箱即用的。后端是可插拔的,所以開發人員可以創建一個定制的后端連接器。
PredictionIO模板如何使Spark更容易預測
PredictionIO最顯著的優點是其創建機器學習引擎的模板系統。模板減少了設置系統以提供特定類型的預測所需的繁重的提升。它們描述了任務可能需要的任何第三方依賴關系,例如Apache Mahout機器學習應用程序框架。
一些現有的模板包括:
普遍推薦引擎。
文本分類。
生存分析(故障預測之間的時間)。
使用維基百科標識主題作為知識庫。
相似度分析
一些模板還與其他機器學習產品集成。例如,目前在PredictionIO畫廊中的兩個預測模板,用于流失率檢測和一般建議,使用H2O.ai的Sparkling Water增強功能。
PredictionIO還可以自動評估預測引擎,以確定與之一起使用的最佳超參數。開發人員需要選擇和設置如何做到這一點的指標,但這樣做的工作通常比在手動調整超參數方面要少得多。
作為服務運行時,PredictionIO可以單獨接受或作為批處理。只要批量預測作業中使用的算法都可串行化,批量預測將在Spark群集中自動并行化。 (PredictionIO的默認算法是。)
哪里可以下載PredictionIO
PredictionIO的源代碼可在GitHub上找到。為方便起見,可以使用各種Docker圖像,以及Heroku構建包。
|
|