Web挖掘
Web挖掘的目標是從Web的超鏈接、網頁內容和使用日志中探尋有用的信息。依據Web挖掘任務,可以划分為三種主要類型:Web結構挖掘、Web內容挖掘和Web使用挖掘。Web結構挖掘簡單的說就是從表征Web結構的超鏈接中找尋有用的知識。例如:從這些鏈接中可以找到重要的網頁,也可以發掘具有共同興趣的用戶社區。Web內容挖掘從網頁中抽取有用的信息知識庫。例如:根據網頁的主題,可以自動進行聚類和分類,例如可以抽取網頁中的商品描述、論壇回帖等,這些信息可以作為進一步分析來挖掘用戶的態度。Web使用挖掘從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。例如點擊流數據的預處理,以便用來挖掘合適的信息。
Web數據挖掘與數據挖掘十分相似,區別通常只是數據收集。對於Web而言,數據收集是一項十分重要的任務,尤其是在Web結構挖掘和內容挖掘的時候,需要爬取大量的網頁。一旦數據收集完畢,既可以進行通常數據處理的三項工作,數據預處理、Web數據挖掘和數據后處理。
基於一些Web數據挖掘的准備,需要具備關聯規則和序列模式、監督學習、無監督學習和部分監督學習的知識。
1 信息檢索和Web搜索
信息檢索(Information Retrieval,IR)是搜索的根基,其目的是幫助用戶從大規模的文本文檔中找到所需信息的研究領域。在用戶給出一個能夠描述信息需求的查詢后,信息檢索系統就會從這些文檔中找出和該請求相關的文檔集,這也正是搜索引擎的工作原理。IR系統的基本架構如圖1-1所示。
圖1-1 IR系統的基本架構
在圖1-1中,用戶通過查詢操作模塊發送一個查詢到檢索系統。檢索模塊使用文檔索引找到包含這些查詢詞的文檔,並且計算這些文檔的相關度分數,然后根據分數給這些文檔排序。進過排序的文檔返回給用戶。同時,文檔數據集為了有效的檢索已經建立了索引。
用戶查詢的形式分為:關鍵詞查詢、布爾查詢、短語查詢、臨近查詢、全文搜索、自然語言查詢。
查詢操作需要對查詢問題做預處理之后再將查詢發送給檢索系統,例如需要把自然語言問題轉化成可執行的查詢問題。索引器模塊是為了更有效的查詢而建立的。在搜索引擎以及大多數的IR系統中會使用到倒排索引。這種索引簡單而且有效。檢索系統會為每個索引文件計算與查詢的相關度分數。文檔會根據它們的相關度分數排序來進行反饋。
1.1 信息檢索模型
信息檢索模型將決定文檔和查詢的表示以及文檔與用戶查詢相關度的定義。
信息檢索模型通常分為三類:基於內容的信息檢索模型,結構化模型和瀏覽型數學模型。其中
(1)基於內容的信息檢索模型有:
集合論模型:布爾模型、模糊集合模型、擴展布爾模型
代數模型:向量空間模型、廣義向量空間模型、潛在的語義標引模型、神經網絡模型
概率模型:經典點概率論模型、推理網絡模型、置信網絡模型
(2)結構化模型:非重疊鏈表模型、臨近節點模型
(3)瀏覽型數學模型:平面、結構導航、超文本
常用的信息檢索模型包括布爾模型,向量模型和概率模型。這三種模型在表示文檔和查詢上有所不同,但是他們都是使用相同的框架。IR模型可以表示為一個四元組
其中D是一個文檔集合,Q是一個查詢集合,F是一個對文檔和查詢建模的框架,是一個排序函數。
-
文檔集合
設,為了滿足檢索匹配所要求的快速與便利,文檔
通常由從文檔中抽取的能夠表達內容的特征項(如索引項/檢索項/關鍵詞)來表示。設
為系統索引項集合,則
,
表示索引詞
在文檔
中的重要性(即權重)。
-
查詢集合
用戶查詢集合是指用戶需求的各種狀態,包括潛在的真實需求,意識到或感知到的需求,表達出的需求和用戶查詢。用戶查詢一般采用與文檔類似的形式化表示。– q= (Wq1 , Wq2 , …,Wqn )
ps:
– wij→文檔dj中的關鍵詞j的權重,
– wqj→查詢式q中的關鍵詞j的權重
-
文檔與查詢建模的框架
用以構建文檔、查詢以及它們之間關系的模型。
-
排序函數
它給查詢和文檔
之間的相關度賦予一個排序值。
1.2 布爾模型
布爾模型(Boolean Model)目前仍然應用於商業模型中,典型系統為:Lucene。為了方便計算文檔d和查詢q之間的相關度,布爾模型一般將查詢q的布爾表達式轉換成析取范式(DNF)。
布爾模型簡單而容易理解,但是由於二值判斷的標准,無法體現文檔之間的細微差別。
1.3 向量空間模型
向量空間模型(Vector Space Model,VSM)是信息檢索技術研究的基礎。代表系統為SMART(System for the Manipulation and Retrieval of Text)。向量空間模型以相似度為基礎,常用的相似度計算方法包括內積、余弦向量度量法、Jaccard系數法。
向量空間反映出了不同關鍵詞在文檔中的重要性;可以根據結果文檔對於查詢串的相關度通過Cosine Ranking等公式對結果文檔進行排序;可以控制輸出結果的數量。但是向量空間模型認為關鍵詞之間是相互獨立的,這一假設不符合自然語言的實際情況。
1.4 概率模型
概率模型亦稱為二值獨立檢索模型。給定一個用戶查詢,存在一個文檔集合,該集合只包含與查詢完全相關的文檔而不包含與他不相關的文檔,稱該集合為理想結果集合。該集合具有怎樣的屬性,基於相關反饋的原理,需要一個逐步求精的過程。將信息獲取看做一個過程,用戶提交一個查詢,系統提供給用戶它所認為的相關結果列表;用戶考察這個集合后給出一些輔助信息,系統再進一步根據輔助信息得到一個新的相關結果列表,以此繼續。如果每次結果列表中的元素總是按照和查詢相關的概率遞減排序的話,則系統效果最好。概率模型一貝葉斯定理為基礎。
概率模型有嚴格的數學理論基礎,以相關反饋原理為基礎,但是開始時需要把文檔分為相關和不相關兩個集合,一般來說比較難;同時這種模型沒有考慮到關鍵詞在文檔中的概率。
參考文獻:
[1] https://wenku.baidu.com/view/d7cc11c7aa00b52acfc7ca01.html
[2] https://wenku.baidu.com/view/8b7075dbad51f01dc281f11c.html