本發明公開了一種基于結構和內容二級過濾的 Web 數據相似性檢測方法,在傳統的通用相似性檢測 方法的基礎上,發掘出 Web 數據結構和內容分布的特點,對檢測的文檔集進行兩級過濾;兩級過濾中的 第一級過濾是結構相似性過濾,對每個Web文檔建模為Tag樹結構,從而剔除在結構上不相似的文檔集, 并對剩余的文檔進行關鍵內容抽取,將其表示成元組向量的形式,將關鍵信息連接起來生成字符串集; 兩級過濾中的第二級過濾則對第一級過濾后生成的字符串集進行 Trie