一種基于Hadoop的海量矢量數(shù)據(jù)劃分方法及系統(tǒng)
本發(fā)明涉及一種基于Hadoop的海量矢量數(shù)據(jù)劃分方法及系統(tǒng)。該方法包括:基于Hilbert空間填充曲線對空間數(shù)據(jù)集中的空間要素進行空間編碼;通過Map函數(shù)和Reduce函數(shù)實現(xiàn)空間要素的鍵值化,并生成空間數(shù)據(jù)樣本信息集;根據(jù)所述空間數(shù)據(jù)樣本信息集生成空間數(shù)據(jù)劃分矩陣;根據(jù)所述空間數(shù)據(jù)劃分矩陣將各個空間要素劃分入對應(yīng)的存儲數(shù)據(jù)塊中,同時將相鄰數(shù)據(jù)塊分發(fā)至同一集群節(jié)點上。本發(fā)明系統(tǒng)將Hilbert空間填充曲線引入到數(shù)據(jù)抽樣和劃分規(guī)則中,充分考慮空間數(shù)據(jù)相鄰對象的空間位置關(guān)系、空間對象的自身大小以及相同編碼塊的空間對象個數(shù)等影響要素,不僅保證了樣本信息集的空間分布特征,提高了海量矢量數(shù)據(jù)的空間索引效率;同時也保證了基于HDFS數(shù)據(jù)塊存儲的負載均衡。
中國農(nóng)業(yè)大學
2021-04-11