多屬性文本自適應系統(tǒng)主要實現(xiàn)對每個未知屬性的通信實體進行屬性標注的功能。 主要分為兩個過程, 即訓練過程和預測過 程。 在訓練過程中,系統(tǒng) 根據(jù)用戶提供的已經(jīng) 具有屬性的數(shù)據(jù)集、 用戶選擇的分類算法 所對應的參數(shù)進行訓 練,得到訓練模型。 在預測過程中,系統(tǒng) 根據(jù)用戶選擇的訓練 模型對未知屬性的數(shù) 據(jù)集中的每個實體進 行屬性標注,并得到 標注過屬性的數(shù)據(jù)集 。(注:在訓練過程 中,用戶可以使用在 訓練數(shù)據(jù)集上進行交 叉驗證的方法獲得在 固定參數(shù)和分類算法 下模型對未知樣本預 測的性能的大致估計 。)
包括訓練和預測兩個 過程,實現(xiàn)對不同數(shù) 據(jù)集的自適應性屬性 標注; 特征選擇功能,可以 在訓練模型時,選擇 出對區(qū)分數(shù)據(jù)類別更 有用的特征詞,這樣 ,可以降低實體所對 應屬性的維度,從而 ,減少占用的內(nèi)容空 間,提高計算效率; 交叉驗證功能,幫助 我們在訓練階段,就 可以了解參數(shù)和算法 的選擇,對屬性標注 時準確性的影響; 生成報告功能,可以 在訓練階段的交叉驗 證結(jié)束后,產(chǎn)生一個 訓練階段的報告,幫 助用戶更好地記錄實 驗數(shù)據(jù)、參數(shù)、時間 和準確性等信息; 評估功能,比較模型 標注結(jié)果與樣本真實 標簽的一致性、差異 性,以評價一個模型 的好壞。
隨著互聯(lián)網(wǎng)的迅速發(fā) 展,Web頁面上的信 息量呈指數(shù)級急劇增 長,如何快速、準確 地從海量數(shù)據(jù)中抽取 出用戶真正需要的信 息已經(jīng)成為互聯(lián)網(wǎng)對 科研工作者提出的嚴 峻挑戰(zhàn)。 屬性標注能夠?qū)⒕W(wǎng)頁 非結(jié)構(gòu)化文本內(nèi)容轉(zhuǎn) 化為結(jié)構(gòu)化的屬性數(shù) 據(jù),方便用戶查詢和 進一步分析使用;其 作為信息抽取的關(guān)鍵 一步,對提高信息抽 取的性能方面也具有 重要意義。