|
USENIX研究者控制Hadoop的性能 遠程控制軟件,灰鴿子下載
建模Hadoop就業(yè)會很棘手,因為所有的運動部件,研究人員說
現(xiàn)在大數(shù)據(jù)技術(shù)(如Apache Hadoop正進入企業(yè),系統(tǒng)工程師必須開始構(gòu)建模型,可以估計這些分布式數(shù)據(jù)處理系統(tǒng)可以做多少工作,他們可以多快完成工作。
擁有大數(shù)據(jù)工作負載的準確模型意味著組織這些工作可以更好的計劃和分配資源,并能自信地斷言,當這項工作的結(jié)果可以交付給客戶。
估計大數(shù)據(jù)的工作,然而,是一件棘手的事情,和過程不能完全依賴傳統(tǒng)的建模工具,根據(jù)研究人員在USENIX年會在自主計算,本周在費城舉行。
“這是幾乎不可能是準確的,因為你是處理不確定的系統(tǒng),”露西Cherkasova說,惠普實驗室的研究員。
她解釋說,Hadoop系統(tǒng)是不確定的,因為他們有一個廣泛的變量因素導致需要多長時間來完成工作。
一般的Hadoop系統(tǒng)可能有多達190個參數(shù)設置為了開始運行,并且每個Hadoop多少計算工作可能有不同的要求,帶寬、內(nèi)存或其他資源。
Cherkasova一直致力于模型和相關(guān)工具,評估大型數(shù)據(jù)處理工作將花多長時間運行Hadoop或其他大型數(shù)據(jù)處理系統(tǒng),在一個項目叫做詠嘆調(diào)(MapReduce自動推理和分配資源環(huán)境)。 灰鴿子使用教程
詠嘆調(diào)旨在回答這個問題,“我應該多少資源分配給這個工作,如果我想要處理這些數(shù)據(jù)的最后期限,“Cherkasova說。
有人可能會認為,如果你的數(shù)量增加一倍的資源Hadoop工作,完成工作所需的時間將會減少一半。“并非如此”Hadoop,Cherkasova說。
工作概要文件可以改變以非線性方式取決于所使用的服務器數(shù)量。66年Hadoop集群性能瓶頸節(jié)點不同于1000年的瓶頸在Hadoop集群節(jié)點,她說。
性能可以根據(jù)不同類型的工作。開展的一些研究Cherkasova涉及學習什么大小的虛擬機將Hadoop最適合的工作。 |
|