一種WEB挖掘系統的構造方法
一種Web挖掘系統的構造方法,其由中央處理器、存儲器組成的數字計算機,所述的數字計算機與網絡聯接;所述的存儲器存儲有真實數據庫和基礎知識庫,以及啟發型協調器和維護型協調器;其通過特征抽取及特征變換,Web內容挖掘過程,模型質量評價,信息呈現及信息導航,雙庫協同機制等步驟;在Web挖掘方面其使得知識庫能夠動態的參與數據庫的發掘過程,用戶的先驗知識及知識庫中的固有知識可以產生“定向發掘”,以提高認知自主性和避免海量搜索的產生;在知識庫的維護方面:其可在數據發掘過程中實時地修改和維護知識庫中的內容,包括重復與冗余性檢驗、矛盾處理等。◆項目的應用范圍及經濟效益分析 在該系統中采用了一類創新性的用于復雜類型數據挖掘的結構模型——發現特征子空間模型 DFSSM,含蓋了常用的向量空間模型VSM。 該系統包含了 Web文本挖掘、客戶訪問模式挖掘和智能搜索引擎。其中在Web文本分類和Web文本聚類等方面,采用了我們提出的新算法。國際著名無形資產評估機構“香港國際無形資產評估事務所”品過此專利無形資產價值72萬美元。 基于內在機理的知識發現理論KDTIM是我們獨立提出的原創性理論,基于該理論我們設計 該 并實現了具 有自主知識產權的大型軟件系統——集成化組合構件式知識發現軟件系統 ICCKDSS,而 Web挖掘系統是其 三個核心 部分之一。該系統具有通用性強、性能良好、使用方便、人機界面友好等特點,可以在不同的網絡平臺上進行快速移植和推廣。一種 Web挖掘系統的構造方法(已獲國家發明專利授權,申請號:03104960.5),是在現有的Web挖掘技術的基礎上融入知識發現內在機理之一:雙庫協同機制,即構建數據庫(文本庫、日志庫與結構信息庫)與基礎知識庫的內在聯系“通道”,使得知識庫能夠動態的參與數據庫的發掘過程,用戶的先驗知識及知識庫中的固有知識通過此機制可以產生“定向發掘”,以提高認知自主性和避免海量搜索的產生;在知識庫的維護方面,通過雙庫協同機制可在數據發掘過程中實時地修改和維護知識庫中的內容,包括重復與冗余性檢驗、矛盾處理等。從而用基礎知識庫去制約與驅動 Web挖掘系統的整個挖掘流程,改變Web挖掘系統固有的運行機制,在結構與功能上形成了相對于 Web挖掘系統而言的一個開放的、優化的擴體。總體上講,將Web挖掘視為一個開放系統,在Web挖掘進程與基礎知識庫的廣泛聯系中,改進與優化了Web挖掘的結構、過程與運行機制。 本系統已成功地應用到現代遠程教育網信息挖掘中,得到用戶好評并通過國家軟件評測中心的鑒定測評。它還可以廣泛地應用到智能決策(預測)支持系統、 CRM系統、ERP系統、門戶網站、電子商務和電子政務等領域中。該系統具有很大的應用推廣價值和廣闊的市場前景。
北京科技大學
2021-04-11