一種深度多維度流量語義分析方法,使用有監督的深度學習模型來訓練網絡獲取url頁面的特征向量,并綜合考慮用戶之間的語義關系來實現流量分析;對于網站日志的預處理,采用mapreduce篩選掉不符合條件的日志數據,其中包括爬蟲日志數據和其他網站的數據;對于構建出來的瀏覽路徑,設置閾值為n,篩選掉長度小于n的路徑;對于網站url頁面的文本處理,采用詞向量的分布式表示方法得到url頁面的向量,利用url頁面嵌套來描述用戶瀏覽行為的語義信息;采用聚類方法對用戶的瀏覽路徑進行聚類,通過聚類來分析用戶的分布情況和用戶群之間的差異,聚類使用t?SNE降維來達到直觀的向量空間聚類效果。
掃碼關注,查看更多科技成果