|
Pentaho編排Apache火花工作補充道,灰鴿子使用教程,灰鴿子遠程控制軟件
Pentaho宣布本土Pentaho數據集成的集成(PDI)和Apache火花,使火花的編制工作。
1.jpg (75.46 KB, 下載次數: 1258)
下載附件
2015-5-15 09:45 上傳
Pentaho實驗室在過去的幾年中,Pentaho業務分析專家的研究機構,制定各種大數據映射用例組織投產的努力提供大數據的藍圖,如果你將一個大數據堆棧。最近,Pentaho實驗室與Apache火花,奉行相同的路徑,今天宣布本機Pentaho數據集成的集成(PDI)和Apache火花,這將使火花的編制工作。
我不是對技術持懷疑的態度,但我懷疑很多的炒作。還有一些人說一些火花,是非常不現實的。
PDI本質上是一個便攜式的ETL、數據機可以部署為一個獨立的Pentaho集群或在一個Hadoop集群通過MapReduce或紗線。周二的聲明補充道火花,使更快的大數據ETL處理。ETL設計師可以設計、測試和調優在PDI ETL工作使用圖形設計環境,然后在引發規模運行它們。
[相關:本地數據分析涉及到MongoDB]
Apache火花是一個集群計算框架設計之上的Hadoop分布式文件系統(HDFS)Hadoop MapReduce的地方。
支持內存集群計算,火花可以實現性能比Hadoop MapReduce快100倍的內存或磁盤上的快10倍。
火花可以是一個優秀的計算數據處理工作流引擎,高級分析、流處理和業務智能/視覺分析。
但火花還年輕——它只有v1.0發布12個月前,它仍然是非常棘手的,遠程控制軟件。
首先,Pentaho聯合創始人兼首席技術官詹姆斯·迪克森說,火花的用例在野外生產的幾乎都是數據科學的用例。
“這就是它——一個單用戶數據的科學工具,”迪克森說。“這不是為流設計,但引發流。這不是專為SQL,但是有火花SQL”。
內存管理與火花是特別困難的,他說:灰鴿子教程,灰鴿子使用教程。
“火花的用戶,你將知道你的數據量是否會適合記憶,”他說。“有四個不同的記憶模式,你必須選擇正確的一個。”
(相關:10熱hadoop初創公司看)
如果你添加多個用戶,它變得更加復雜。然后你需要了解每個人的內存占用,同時希望利用火花。
也就是說,火花SQL是數量級的速度比蜂巢,迪克森說,甚至有重大的承諾而黑斑羚。
“有一個巨大的承諾,”他說。“我不懷疑的技術,但我懷疑很多的炒作。還有一些人說一些火花,是非常不現實的。”
迪克森指出,Pentaho實驗室一直在嘗試可能引發用例基于大數據的藍圖和規模企業市場機會引發過去兩年。Hadoop市場,Pentaho用例合并在過去的幾年中三大類:數據倉庫優化,精簡數據源到數據煉油廠和混合操作數據源和大數據來源來獲取客戶的360度視圖。
“第一Hadoop的5至7年的時間,我們沒有這些模式,”他說。“現在又摻入了火花,我們又回到了原地。(作為一個行業)我們不確定這項技術可以用于什么,它應該是做什么用的。”
但這就是Pentaho實驗室的原因存在,迪克森說。現在,Pentaho數據集成為Apache火花有Pentaho實驗室。Pentaho計劃通常可以在2015年6月。 |
|