摘要:聚類是機器學習領域的一個重要研究方向,在過去幾十年間,針對不同類型中小規(guī)模數(shù)據(jù)集聚類算法的研究取得了很大的進展,許多行之有效的算法先后問世.然而,這些算法在處理大規(guī)模數(shù)據(jù)集時,計算復雜度較高,處理高維數(shù)據(jù)的能力較弱,難以獲得令人滿意的效果.隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的采集和存儲變得相對容易和便捷,但數(shù)據(jù)量也與日俱增,因此,針對各種實際應用的聚類問題應運而生,使得專門針對大規(guī)模數(shù)據(jù)集的聚類算法研究成為當前機器學習領域的重要任務之一.本文以大規(guī)模數(shù)據(jù)集的可計算性為切入點,對目前串行和并行計算環(huán)境下專門用于處理大規(guī)模數(shù)據(jù)集的聚類算法進行綜述和分析,重點評述了串行計算環(huán)境下基于樣例選擇、增量學習、特征子集和特征轉換的聚類算法以及并行計算環(huán)境下基于MapReduce、Spark和Storm框架的聚類算法,給出了有關未來大規(guī)模數(shù)據(jù)集聚類算法設計思路與應用前景的思考和討論,包括基于數(shù)據(jù)并行和訓練過程自動化的聚類算法設計策略及關于社交網(wǎng)絡大數(shù)據(jù)聚類算法的若干理解.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社