一種基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法
本發(fā)明公開了一種基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法,包括步驟 1)將文本數(shù)據(jù)流分割成固 定大小的文本片段并通過向量空間模型表示成矩陣;2)使用壓縮感知理論對(duì)文本數(shù)據(jù)流進(jìn)行空間降維 抽樣;3)計(jì)算降維后每個(gè)文本的信息熵;4)基于文本的信息熵通過對(duì)數(shù)傾斜時(shí)間(LTT)模型得到抽 樣文本。本發(fā)明面向互聯(lián)網(wǎng)海量的、不斷增加的文本流,通過更少的存儲(chǔ)消耗來實(shí)現(xiàn)更快的文本流抽樣 和存儲(chǔ),在大大降低抽樣文本流規(guī)模的情況下,能夠以全局視角獲得整個(gè)文本流中最有價(jià)
武漢大學(xué)
2021-04-14