互聯網文本內容主題 概念漂移檢測系統, 通過分析數據集中的 所有文檔數據的潛在 語義關系,提取出它 們之間的潛在語義主 題標示,通過評估參 數的方法,將生成的 主題時序關系用數據 的形式表示出來,并 以此為依據主動發現 待預測數據集中主題 的轉變與轉化現象, 并提供給用戶這一主 題轉移過程。
能夠將生成的主題時 序關系用數據的形式 表示出來,方便用戶 查看; 可以動態調整評估參 數,以實現對不同數 據集的自適應性分析; 可以將評估參數值與 發生概念漂移的主題 中心相關聯,主動探 測出主題發生變化的 過程。
點。基于這些特點, 流數據的處理和分析 面臨巨大的挑戰,是 當前數據挖掘領域研 究的熱點。 分類是數據挖掘領域 的重要課題,當前流 數據分類問題面臨的 主要挑戰之一就是概 念漂移問題,即數據 中學習的概念(從屬 性到類別的映射)是 隨時變化的。 通過對互聯網中文本 內容的主題概念漂移 進行檢測,對于正確 分類互聯網文本等方 面具有重要的意義。