|
Apache PredictionIO:使用Spark輕松學(xué)習(xí)機(jī)器
1.jpg (28.43 KB, 下載次數(shù): 823)
下載附件
Apache PredictionIO
2017-10-28 10:47 上傳
現(xiàn)在Apache指導(dǎo)下的一個(gè)開源項(xiàng)目使用模板系統(tǒng)來輕松地訓(xùn)練和部署Spark-powered機(jī)器學(xué)習(xí)模型
Apache基金會(huì)向其名單添加了一個(gè)新的機(jī)器學(xué)習(xí)項(xiàng)目,Apache PredictionIO是由Salesforce的子公司最初設(shè)計(jì)的項(xiàng)目的開源版本。
什么PredictionIO用于機(jī)器學(xué)習(xí)和Spark
Apache PredictionIO構(gòu)建在Spark和Hadoop之上,并通過使用可定制模板進(jìn)行常規(guī)任務(wù)的數(shù)據(jù)的Spark功能預(yù)測(cè)。應(yīng)用程序?qū)?shù)據(jù)發(fā)送到PredictionIO的事件服務(wù)器以訓(xùn)練模型,然后根據(jù)模型查詢引擎的預(yù)測(cè)。
Spark,MLlib,HBase,Spray和Elasticsearch都與PredictionIO捆綁在一起,Apache提供支持Java,PHP,Python和Ruby的SDK。數(shù)據(jù)可以存儲(chǔ)在各種后端:JDBC,Elasticsearch,HBase,HDFS及其本地文件系統(tǒng)都是開箱即用的。后端是可插拔的,所以開發(fā)人員可以創(chuàng)建一個(gè)定制的后端連接器。
PredictionIO模板如何使Spark更容易預(yù)測(cè)
PredictionIO最顯著的優(yōu)點(diǎn)是其創(chuàng)建機(jī)器學(xué)習(xí)引擎的模板系統(tǒng)。模板減少了設(shè)置系統(tǒng)以提供特定類型的預(yù)測(cè)所需的繁重的提升。它們描述了任務(wù)可能需要的任何第三方依賴關(guān)系,例如Apache Mahout機(jī)器學(xué)習(xí)應(yīng)用程序框架。
一些現(xiàn)有的模板包括:
普遍推薦引擎。
文本分類。
生存分析(故障預(yù)測(cè)之間的時(shí)間)。
使用維基百科標(biāo)識(shí)主題作為知識(shí)庫。
相似度分析
一些模板還與其他機(jī)器學(xué)習(xí)產(chǎn)品集成。例如,目前在PredictionIO畫廊中的兩個(gè)預(yù)測(cè)模板,用于流失率檢測(cè)和一般建議,使用H2O.ai的Sparkling Water增強(qiáng)功能。
PredictionIO還可以自動(dòng)評(píng)估預(yù)測(cè)引擎,以確定與之一起使用的最佳超參數(shù)。開發(fā)人員需要選擇和設(shè)置如何做到這一點(diǎn)的指標(biāo),但這樣做的工作通常比在手動(dòng)調(diào)整超參數(shù)方面要少得多。
作為服務(wù)運(yùn)行時(shí),PredictionIO可以單獨(dú)接受或作為批處理。只要批量預(yù)測(cè)作業(yè)中使用的算法都可串行化,批量預(yù)測(cè)將在Spark群集中自動(dòng)并行化。 (PredictionIO的默認(rèn)算法是。)
哪里可以下載PredictionIO
PredictionIO的源代碼可在GitHub上找到。為方便起見,可以使用各種Docker圖像,以及Heroku構(gòu)建包。
|
|