人工智能技術導論——機器學習與知識發現


一、機器學習概述

1、機器學習的概念

  心理學中對學習的解釋是: 學習是指(人或動物)依靠經驗的獲得而使行為持久變化的過程。人工智能和機器學習領域的幾位著名學者也對學習提出了各自的說法。 如Simon認為:如果一個系統能夠通過執行某種過程而改進它的性能, 這就是學習。Minsky認為: 學習是在人們頭腦中(心理內部)進行有用的變化。Tom M. Mitchell在《機器學習》一書中對學習的定義是: 對於某類任務T和性能度P, 如果一個計算機程序在T上以P衡量的性能隨着經驗E而自我完善, 那么, 我們稱這個計算機程序從經驗E中學習。

2 機器學習的原理
  從以上對於學習的解釋可以看出:
  (1) 學習與經驗有關。
  (2) 學習可以改善系統性能。
  (3) 學習是一個有反饋的信息處理與控制過程。因為經驗是在系統與環境的交互過程中產生的,而經驗中應該包含系統輸入、響應和效果等信息。因此經驗的積累、性能的完善正是通過重復這一過程而實現的。
於是,我們將機器學習原理圖示如下:

這里的輸入信息是指系統在完成某任務時, 接收到的環境信息; 響應信息是指對輸入信息做出的回應;執行是指根據響應信息實施相應的動作或行為。

按圖9-1, 機器學習的流程就是:

① 對於輸入信息, 系統根據目標和經驗做出決策予以響應, 即執行相應動作;

② 對目標的實現或任務的完成情況進行評估;

③ 將本次的輸入、響應和評價作為經驗予以存儲記錄。可以看出, 第一次決策時系統中還無任何經驗, 但從第二次決策開始, 經驗便開始積累。

這樣, 隨着經驗的豐富, 系統的性能自然就會不斷改善和提高。

       圖9-1所示的學習方式現在一般稱為記憶學習。例如, Samuel的跳棋程序就采用這種記憶學習方法。還有,基於范例的學習也可以看作是這種記憶學習的一個特例。記憶學習實際上也是人類和動物的一種基本學習方式。然而, 這種依靠經驗來提高性能的記憶學習存在嚴重不足。其一,由於經驗積累是一個緩慢過程,   所以系統性能的改善也很緩慢; 其二,由於經驗畢竟不是規律, 故僅憑經驗對系統性能的改善是有限的, 有時甚至是靠不住的。
  所以, 學習方式需要延伸和發展。可想而知,如果能在積累的經驗中進一步發現規律, 然后利用所發現的規律即知識來指導系統行為,那么,系統的性能將會得到更大的改善和提高,於是, 我們有圖9-2所示的機器學習原理2。

       可以看出,這才是一個完整的學習過程。它可分為三個子過程, 即經驗積累過程、知識生成過程和知識運用過程。事實上,這種學習方式就是人類和動物的技能訓練或者更一般的適應性訓練過程, 如騎車、駕駛、體操、游泳等都是以這種方式學習的。所以, 圖9-2所示這種學習方式也適合於機器的技能訓練, 如機器人的駕車訓練。 
  但現在的機器學習研究一般都省去了上面的經驗積累過程, 而是一開始就把事先組織好的經驗數據(包括實驗數據和統計數據)直接作為學習系統的輸入, 然后對其歸納推導而得出知識, 再用所得知識去指導行為、改善性能, 其過程如圖9-3所示。在這里把組織好的經驗數據稱為訓練樣本或樣例, 把由樣例到知識的轉換過程稱為學習或訓練。

考察上面的圖9-1、 圖9-2和圖9-3可以發現, 從經驗數據中發現知識才是機器學習的關鍵環節。所以, 在機器學習中, 人們就進一步把圖9-3所示的機器學習過程簡化為只有知識生成一個過程(如圖9-4 所示), 即只要從經驗數據歸納推導出知識就算是完成了學習。
  可以看出, 圖9-4所示的這類機器學習已經與機器學習的本來含義不一致了, 實際上似乎已變成純粹的知識發現了。

 如果把訓練樣例再進一步擴充為更一般的數據信息,把歸納推導過程擴充為更一般的規律發現過程,會得到圖9-5所示的更一般的機器學習原理圖。實際上,當前的機器學習領域的主要研究的正是這類機器學習。也就是說,雖然從概念上講,學習是系統基於經驗的自我完善過程,但實際上現在的機器學習領域的主要內容已經轉變為機器知識的發現了。

3、機器學習的分類

  從圖9-5可以看出, 機器學習可分為信息、發現和知識三個要素, 它們分別是機器學習的對象、方法和目標。那么, 談論一種機器學習, 就要考察這三個要素。而分別基於這三個要素, 就可以對機器學習進行分類。例如,由於信息有語言符號型與數值數據型之分, 因此基於信息,機器學習可分為符號學習和數值學習; 而基於知識的形式,機器學習又可分為規則學習和函數學習等; 若基於發現的邏輯方法, 則機器學習可分為歸納學習、演繹學習和類比學習等等。 這樣的分類也就是分別從“從哪兒學?”、“怎樣學?” 和“學什么?”這三個着眼點對機器學習進行的分類。

a. 基於學習策略的分類

1) 模擬人腦的機器學習
  (1) 符號學習: 模擬人腦的宏觀心理級學習過程, 以認知心理學原理為基礎, 以符號數據為輸入, 以符號運算為方法, 用推理過程在圖或狀態空間中搜索, 學習的目標為概念或規則等。符號學習的典型方法有記憶學習、示例學習、演繹學習、 類比學習、解釋學習等。
  (2) 神經網絡學習(或連接學習):模擬人腦的微觀生理級學習過程, 以腦和神經科學原理為基礎,以人工神經網絡為函數結構模型, 以數值數據為輸入, 以數值運算為方法,用迭代過程在系數向量空間中搜索,學習的目標為函數。典型的連接學習有權值修正學習、拓撲結構學習等。
2) 直接采用數學方法的機器學習
  這種機器學習方法主要有統計機器學習。而統計機器學習又有廣義和狹義之分。
  廣義統計機器學習指以樣本數據為依據,以概率統計理論為基礎,以數值運算為方法的一類機器學習。在這個意義下, 神經網絡學習也可划歸為統計學習范疇。 統計學習又可分為以概率表達式函數為目標和以代數表達式函數為目標兩大類。 前者的典型有貝葉斯學習、貝葉斯網絡學習等, 后者的典型有幾何分類學習方法和支持向量機(SVM)。

b. 基於學習方法的分類

1) 歸納學習
  (1) 符號歸納學習: 典型的符號歸納學習有示例學習、 決策樹學習等。 
  (2) 函數歸納學習(發現學習): 典型的函數歸納學習有神經網絡學習、示例學習、發現學習、 統計學習等。 
2) 演繹學習
3) 類比學習
  典型的類比學習有案例(范例)學習。
4) 分析學習
  典型的分析學習有案例(范例)學習和解釋學習等。  

c. 基於學習方式的分類  

(1) 有導師學習(監督學習,supervised learning):利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。正如人們通過已知病例學習診斷技術那樣,計算機要通過學習才能具有識別各種事物和現象的能力。用來進行學習的材料就是與被識別對象屬於同類的有限數量樣本。監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。若所給的學習樣本不帶有類別信息,就是無監督學習。任何一種學習都有一定的目的,對於模式識別來說,就是要通過有限數量樣本的學習,使分類器在對無限多個模式進行分類時所產生的錯誤概率最小。
    (2) 無導師學習(無監督學習,unsupervised learning):設計分類器時候,用於處理未被分類標記的樣本集。輸入數據中無導師信號, 采用聚類方法,學習結果為類別。典型的無導師學習有發現學習、聚類學習、競爭學習等。

      (3) 強化學習(增強學習): 以環境反饋(獎/懲信號)作為輸入, 以統計和動態規划技術為指導的一種學習方法。

d. 基於數據形式的分類  

(1) 結構化學習: 以結構化數據為輸入,以數值計算或符號推演為方法。典型的結構化學習有神經網絡學習、統計學習、決策樹學習和規則學習。
  (2) 非結構化學習:以非結構化數據為輸入, 典型的非結構化學習有類比學習、案例學習、解釋學習、文本挖掘、圖像挖掘、 Web挖掘等。

e. 基於學習目標的分類   

(1) 概念學習: 即學習的目標和結果為概念, 或者說是為了獲得概念的一種學習。典型的概念學習有示例學習。
    (2) 規則學習: 即學習的目標和結果為規則, 或者說是為了獲得規則的一種學習。典型的規則學習有決策樹學習。
 (3) 函數學習: 即學習的目標和結果為函數, 或者說是為了獲得函數的一種學習。典型的函數學習有神經網絡學習。
    (4) 類別學習: 即學習的目標和結果為對象類, 或者說是為了獲得類別的一種學習。 典型的類別學習有聚類分析。
    (5) 貝葉斯網絡學習: 即學習的目標和結果是貝葉斯網絡, 或者說是為了獲得貝葉斯網絡的一種學習。其又可分為結構學習和參數學習。
 當然, 以上僅是機器學習的一些分類而並非全面分類。 事實上,除了以上分類外, 還有許多其他分法。 例如, 有些機器學習還需要背景知識作指導, 這就又有了基於知識的機器學習類型。 如解釋學習就是一種基於知識的機器學習。

9.2 符號學習

1、記憶學習  

    記憶學習也稱死記硬背學習或機械學習。這種學習方法不要求系統具有對復雜問題求解的能力, 也就是沒有推理能力, 系統的學習方法就是直接記錄與問題有關的信息, 然后檢索並利用這些存儲的信息來解決問題。例如, 對於某個數據x, 經過某種計算過程得到的結果是y, 那么系統就把(x, y)作為聯想對存儲起來, 以后再要對x 作同樣的計算時,就可通過查詢(而不是計算)直接得到y。又如,對於某個事實A, 經過某種推理而得到結論B, 那么就可把序對(A, B)作為一條規則而記錄下來, 以后就可以由A直接得到B。
      使用記憶學習方法的一個成功例子是Samuel的跳棋程序(1959年開發), 這個程序是靠記住每一個經過評估的棋局勢態, 來改進弈棋的水平。程序采用極小—極大分析的搜索策略來估計可能的未來棋盤局勢, 學習環節只存儲這些棋盤勢態估值及相應的索引, 以備以后弈棋使用。 例如某一個勢態A輪到程序走步, 這時程序考慮向前搜索三步, 根據假設的端節點靜態值, 用極小—極大法可求得A的倒推值Av。這時系統記住了該棋局及其倒推值[A,Av]。現在假定以后弈棋中, 棋局E的搜索樹端節點中出現了A,這時就可以檢索已存的Av來使用, 而不必再去計算其靜態估值。這不僅提高了搜索效率,更重要的是A的倒推值比A的靜態值更准確。用了所記憶的A倒推值,對棋局E來說, 相當於局部搜索深度加大到6, 因而E的結果得到了改善。根據文獻報道,Samuel程序由於有機械學習機制, 最后竟能戰勝跳棋冠軍。
機械學習是基於記憶和檢索的辦法, 學習方法很簡單, 但學習系統需要幾種能力。
    (1) 能實現有組織的存儲信息。為了使利用一個已存的信息比重新計算該值來得快, 必須有一種快速存取的方法。如在Samuel的程序中,通過對棋子位置的布局上加幾個重要特征(如棋盤上棋子的數目)做為索引以利於檢索。
    (2) 能進行信息綜合。通常存儲對象的數目可能很大,  為了使其數目限制在便於管理的范圍內, 需要有某種綜合技術。 在Samuel程序中, 被存儲的對象數目就是博弈中可能出現的各種棋局棋子位置數目, 該程序用簡單的綜合形式來減少這個數目, 例如只存儲一方棋子位置, 就可使存儲的棋子位置數目減少一半, 也可以利用對稱關系進行綜合。
    (3) 能控制檢索方向。 當存儲對象愈多時, 其中可能有多個對象與給定的狀態有關,這樣就要求程序能從有關的存儲對象中進行選擇, 以便把注意力集中到有希望的方向上來。Samuel程序采用優先考慮相同評分下具有較少走步就能到達那個對象的方向。

2、示例學習   

       示例學習也稱實例學習, 它是一種歸納學習。示例學習是從若干實例(包括正例和反例)中歸納出一般概念或規則的學習方法。 例如學習程序要學習“狗”的概念, 可以先提供給程序以各種動物, 並告知程序哪些動物是“狗”, 哪些不是“狗”, 系統學習后便概括出“狗”的概念模型或類型定義, 利用這個類型定義就可作為動物世界中識別“狗”的分類的准則。 這種構造類型定義的任務稱為概念學習, 當然這個任務所使用的技術必須依賴於描述類型(概念)的方法。 下面我們使用Winston(1975年開發) 提出的結構化概念學習程序的例子作為模型來說明示例學習的過程。
Winston的程序是在簡單的積木世界領域中運行,其目的是要建立積木世界中物體概念定義的結構化表示,例如學習房子、帳篷和拱的概念,構造出這些概念定義的結構化描述。
    系統的輸入是積木世界某物體(或景象)的線條圖, 使用語義網絡來表示該物體結構化的描述。例如系統要學習拱橋概念, 就給學習程序輸入第一個拱橋示例,得到的描述如圖 9-6所示,這個結構化的描述就是拱橋概念的定義。接着再向程序輸入第二個拱橋示例, 其描述如圖 9-7所示。這時學習程序可歸納出如圖 9-8所示的描述。

 

 例9.1 假設示例空間中有橋牌中“同花”概念的兩個示例:
 示例1:

花色(c1,梅花)∧花色(c2,梅花)∧花色(c3,梅花)∧花色(c4,梅花)→同花(c1,c2,c3,c4) 

示例2:

花色(c1,紅桃)∧花色(c2,紅桃)∧花色(c3,紅桃)∧花色(c4,紅桃)→同花(c1,c2,c3,c4)

       對於這兩個示例,學習系統運用變量代換常量規則進行歸納推理,便得到一條關於同花的一般性規則:

花色(c1,x)∧花色(c2,x)∧花色(c3,x)∧花色(c4,x)→同花(c1,c2,c3,c4)

 

例9.2 假設示例空間存放有如下的三個示例:

  示例1:(027)
  示例2:(6,-110)
  示例3:(-1,-5,-10)  

這是三個3維向量,表示空間中的三個點。現要求求出過這三點的曲線。
         對於這個問題可采用通常的曲線擬合技術,歸納出規則:
           (x,y,2x+3y+1)
即        z=2x+3y+1

注:實際工作中,變量間未必都有線性關系,如服葯后血葯濃度與時間的關系;疾病療效與療程長短的關系;毒物劑量與致死率的關系等常呈曲線關系。曲線擬合(curve fitting)是指選擇適當的曲線類型來擬合觀測數據,並用擬合的曲線方程分析兩變量間的關系。

3、決策樹學習  

a.什么是決策樹  

       決策樹(decision tree)也稱判定樹,它是由對象的若干屬性、屬性值和有關決策組成的一棵樹其中的節點為屬性(一般為語言變量),分枝為相應的屬性值(一般為語言值)。從同一節點出發的各個分枝之間是邏輯“或”關系;根節點為對象的某一個屬性;從根節點到每一個葉子節點的所有節點和邊,按順序串連成一條分枝路徑,位於同一條分枝路徑上的各個“屬性-值”對之間是邏輯“與”關系,葉子節點為這個與關系的對應結果,即決策。例如圖9-10就是一棵決策樹。其中,A, B, C代表屬性,ai, bj, ck代表屬性值,dl代表對應的決策。處於同一層的屬性(如圖中的B, C)可能相同,也可能不相同,所有葉子節點(如圖中的dl ,l=1,2,…, 6)所表示的決策中也可能有相同者。

        由圖9-10不難看出,一棵決策樹上從根節點到每一個葉子節點的分枝路徑上的諸“屬性-值”對和對應葉子節點的決策,剛好就構成一個產生式規則:諸“屬性-值”對的合取構成規則的前提,葉子節點的決策就是規則的結論。例如,圖9-10中從根節點A到葉子節點d2的這一條分枝路徑就構成規則:
(A= a1)∧(B = b2) => d2
而不同分枝路徑所表示的規則之間為析取關系。
例9.3  圖9-11所示是機場指揮台關於飛機起飛的簡單決策樹。

例9.4  圖9-12所示是一個描述“兔子”概念的決策樹。

b. 怎樣學習決策樹   

決策樹是一種知識表示形式, 構造決策樹可以由人來完成, 但也可以由機器從一些實例中總結、歸納出來, 即由機器學習而得。 機器學習決策樹也就是所說的決策樹學習。
決策樹學習是一種歸納學習。由於一棵決策樹就表示了一組產生式規則, 因此決策樹學習也是一種規則學習。特別地, 當規則是某概念的判定規則時,這種決策樹學習也就是一種概念學習。
決策樹學習首先要有一個實例集。實例集中的實例都含有若干“屬性-值”對和一個相應的決策、結果或結論。一個實例集中的實例要求應該是相容的, 即相同的前提不能有不同的結論(當然, 不同的前提可以有相同的結論)。對實例集的另一個要求是, 其中各實例的結論既不能完全相同也不能完全不同, 否則該實例集無學習意義。

決策樹學習的基本方法和步驟是:
  首先,選取一個屬性, 按這個屬性的不同取值對實例集進行分類; 並以該屬性作為根節點,以這個屬性的諸取值作為根節點的分枝, 進行畫樹。
  然后,考察所得的每一個子類, 看其中的實例的結論是否完全相同。如果完全相同, 則以這個相同的結論作為相應分枝路徑末端的葉子節點; 否則, 選取一個非父節點的屬性, 按這個屬性的不同取值對該子集進行分類, 並以該屬性作為節點, 以這個屬性的諸取值作為節點的分枝, 繼續進行畫樹。 如此繼續,直到所分的子集全都滿足: 實例結論完全相同, 而得到所有的葉子節點為止。這樣, 一棵決策樹就被生成。下面我們進一步舉例說明。

表9.1 汽車駕駛保險類別划分實例集

可以看出,該實例集中共有12個實例,實例中的性別、年齡段和婚狀為3個屬性, 保險類別就是相應的決策項。為表述方便起見, 我們將這個實例集簡記為   

S={(1,C), (2,C), (3,C), (4,B), (5,A), (6,A), (7,C), (8,B), (9,A), (10,A), (11,B), (12,B)}

其中每個元組表示一個實例, 前面的數字為實例序號, 后面的字母為實例的決策項保險類別(下同)。另外, 為了簡潔, 在下面的決策樹中我們用“小”、“中”、“大”分別代表“<21”、 “≥21且≤25”、 “>25”這三個年齡段。

顯然, S中各實例的保險類別取值不完全一樣, 所以需要將S分類。對於S, 我們按屬性“性別”的不同取值將其分類。 由表9.1可見, 這時S應被分類為兩個子集:

S1= {(3,C), (4,B), (7,C), (8,B), (11,B), (12,B)}
S2={(1,C), (2,C), (5,A), (6,A), (9,A), (10,A)}

於是, 我們得到以性別作為根節點的部分決策樹(見圖9-13(a))。

考察S1和S2,可以看出,在這兩個子集中,各實例的保險類別也不完全相同。這就是說,還需要對S1和S2進行分類。對於子集S1,我們按“年齡段”將其分類;同樣,對於子集S2,也按“年齡段”對其進行分類(注意:對於子集S2,也可按屬性“婚狀”分類)。分別得到子集S11, S12, S13和S21, S22, S23。於是,我們進一步得到含有兩層節點的部分決策樹(如圖9-13(b)所示)。


       注意到,這時除了S12和S13外,其余子集中各實例的保險類別已完全相同。所以,不需再對其進行分類,而每一個子集中那個相同的保險類別值就可作為相應分枝的葉子節點。添上這些葉子節點,我們又進一步得到發展了的部分決策樹(如圖9-13(c)所示)。

  接着對S12和S13,按屬性“婚狀”進行分類(也只能按“婚狀”進行分類)。由於所得子集S121, S121和S131, S132中再都只含有一個實例,因此無需對它們再進行分類。這時這4個子集中各自唯一的保險類別值也就是相應分枝的葉子節點。添上這兩個葉子節點,就得到如圖9-13(d)所示的決策樹。

 至此,全部分類工作宣告完成。現在將上圖中所有的實例集去掉,我們就得到了關於保險類別划分問題的一顆完整的決策樹如圖9-13(e)

 由這個決策樹即得下面的規則集:
① 女性且年齡在25歲以上, 則給予A類保險。
② 女性且年齡在21歲到25歲之間, 則給予A類保險。
③ 女性且年齡在21歲以下, 則給予C類保險。
④ 男性且年齡在25歲以上, 則給予B類保險。
⑤ 男性且年齡在21歲到25歲之間且未婚, 則給予C類保險。
⑥ 男性且年齡在21歲到25歲之間且已婚, 則給予B類保險。
⑦ 男性且年齡在21歲以下且未婚, 則給予C類保險。
⑧ 男性且年齡在21歲以下且已婚, 則給予B類保險。

由上面的例子我們看到,決策樹的構造是基於實例集的分類進行的,也就是說,決策樹的構造過程就是對實例集的分類過程。

我們在上面的例子中,作為根節點和其他子節點的屬性我們都是隨意選取的。顯而易見,不同的屬性選擇會得到不同決策樹。而不同的決策樹意味着不同的學習效率和學習效果。自然,我們更希望得到最簡的決策樹,於是就出現一個問題:怎樣選取屬性才能使得決策樹最簡?對於這個問題,下面ID3算法會給出一個回答。

c. ID3算法   

       ID3算法是一個經典的決策樹學習算法, 由Quinlan於1979年提出。 ID3算法的基本思想是, 以信息熵為度量, 用於決策樹節點的屬性選擇, 每次優先選取信息量最多的屬性或者說能使熵值變成最小的屬性, 以構造一棵熵值下降最快的決策樹, 到葉子節點處的熵值為0。 此時, 每個葉子節點對應的實例集中的實例屬於同一類。

1) 信息熵和條件熵
  ID3算法將實例集視為一個離散的信息系統,用信息熵(entropy of information)表示其信息量。實例集中實例的結論視為隨機事件, 而將諸屬性看做是加入的信息源。
  設S是一個實例集(S也可以是子實例集),A為S中實例的一個屬性。H(S)和H(S|A)分別稱為實例集S的信息熵和條件熵, 其計算公式如下:

 其中,μi(i=1, 2, …, n)為S中各實例所有可能的結論;lb即log2

 其中,ak(k=1, 2, …, m)為屬性A的取值, Sak為按屬性A對實例集S進行分類時所得諸子類中與屬性值ak對應的那個子類。

2) 基於條件熵的屬性選擇
  下面就是ID3算法中用條件熵指導屬性選擇的具體做法。
  對於一個待分類的實例集S,先分別計算各可取屬性Aj(j=1, 2, …,l)的條件熵H(S|Aj), 然后取其中條件熵最小的屬性As作為當前節點。
  例如對於上例, 當第一次對實例集S進行分類時, 可選取的屬性有: 性別、年齡段和婚狀。 先分別計算S的條件熵。
按性別划分, 實例集S被分為兩個子類:
S ={(3,C), (4,B), (7,C), (8,B), (11,B), (12,B)}
S ={(1,C), (2,C), (5,A), (6,A), (9,A), (10,A)}
從而, 對子集S而言,

對子集S而言,

 於是, 由公式(9-1)有:

 

 又

 將以上3式代入公式(9-2)得:

用同樣的方法可求得:

 可見, 條件熵H(S|性別)為最小,所以,應取“性別”這一屬性對實例集進行分類, 即以“性別”作為決策樹的根節點。

3) 決策樹學習的發展
  決策樹學習是一種很早就出現的歸納學習方法, 至今仍然在不斷發展。據文獻記載, 20世紀60年代初的“基本的感知器”(Elementary Perceiver and Memorizer,  EPAM)中就使用了決策樹學習。 稍后的概念學習系統CLS則使用啟發式的前瞻方法來構造決策樹。 繼1979年的ID3算法之后, 人們又於1986、 1988年相繼提出了ID4和ID5算法。1993年J. R. Quinlan則進一步將ID3發展成C4.5算法。另一類著名的決策樹學習算法稱為CART(Classification and Regression Trees)。

4、演繹學習  

演繹學習是基於演繹推理的一種學習。 演繹推理是一種保真變換, 即若前提真則推出的結論也真。 在演繹學習中, 學習系統由給定的知識進行演繹的保真推理, 並存儲有用的結論。 例如, 當系統能證明A→B且B→C, 則可得到規則A→C, 那么以后再要求證C, 就不必再通過規則A→B和B→C去證明, 而直接應用規則A→C即可。 演繹學習包括知識改造、 [JP3]知識編譯、 產生宏操作、 保持等價的操作和其他保真變換。 演繹學習及幾年才作為獨立的學習策略。

5、類比學習  

這是一種基於類比推理的學習方法。 具體來講, 就是尋找和利用事物間可類比的關系, 而從已有的知識推導出未知的知識。例如, 學生在做練習時, 往往在例題和習題之間進行對比, 企圖發現相似之處, 然后利用這種相似關系解決習題中的問題。
  類比學習的過程包括以下主要步驟:
    (1) 回憶與聯想, 即當遇到新情況或新問題時,先通過回憶與聯想,  找出與之相似的已經解決了的有關問題, 以獲得有關知識。
    (2) 建立對應關系,  即建立相似問題知識和求解問題之間的對應關系, 以獲得求解問題的知識。
    (3) 驗證與歸納, 即檢驗所獲知識的有效性, 如發現有錯, 就重復上述步驟進行修正, 直到獲得正確的知識。對於正確的知識, 經過推廣、 歸納等過程取得一般性知識。

例如, 設對象的知識是用框架集來表示, 則類比學習可描述為把原框架中若干個槽的值傳遞給另一個目標框架的一些槽中, 這種傳遞分兩步進行:
    (1) 利用原框架產生若干個候選的槽, 這些槽值准備傳遞到目標框架中。
    (2) 利用目標框架中現有的信息來篩選第一步提出來的某些相似性。

三、神經網絡學習

1、生物神經元

    這里的神經元指神經細胞, 它是生物神經系統的最基本的單元, 其基本結構如圖9-14 所示。可以看出,神經元由細胞體、 樹突和軸突組成。細胞體是神經元的主體, 它由細胞核、細胞質和細胞膜三部分構成。從細胞體向外延伸出許多突起, 其中大部分突起呈樹狀, 稱為樹突。樹突起感受作用, 接受來自其他神經元的傳遞信號;另外, 由細胞體伸出的一條最長的突起, 用來傳出細胞體產生的輸出信號, 稱之為軸突;軸突末端形成許多細的分枝, 叫做神經末梢;每一條神經末梢可以與其他神經元形成功能性接觸, 該接觸部位稱為突觸。所謂功能性接觸是指並非永久性接觸, 它是神經元之間信息傳遞的奧秘之處。

 2、人工神經元

  如果我們對生物神經元作以適當的結構簡化和功能抽象,就得到所謂的人工神經元。 一般地,人工神經元的結構模型如圖9―8所示。它是一個多輸入單輸出的非線性閾值器件。其中x1,x2,…xn表示神經元的n個輸入信號量;w1,w2,…,wn表示對應輸入的權值,它表示各信號源神經元與該神經元的連接強度;A表示神經元的輸入總和,它相應於生物神經細胞的膜電位,稱為激活函數;y為神經元的輸出;θ表示神經元的閾值。於是, 人工神經元的輸入、 輸出關系可描述為:

函數y=f(A)稱為特性函數(亦稱作用函數或傳遞函數)。特性函數可以看作是神經元的數學模型。常見的特性函數有一下幾種。

 

 1. 閾值型

 2. S型

這類函數的輸入-輸出特性多采用指數、對數或雙曲正切等S型函數表示。例如:

 S型特性函數反映了神經元的非線性輸出特性。

3.分段線性型

       神經元的輸入-輸出特性滿足一定的區間線性關系,其特性函數表達為

 式中, K、Ak均表示常量。

以上三種特性函數的圖像依次如圖 9-16(a)、(b)、(c)所示。由於特性函數的不同, 神經元也就分為閾值型、S型和分段線性型三類。另外, 還有一類概率型神經元, 它是一類二值型神經元。與上述三類神經元模型不同, 其輸出狀態為0或1是根據激勵函數值的大小, 按照一定的概率確定的。 例如, 一種稱為波爾茨曼機神經元就屬此類。

 3、神經網絡  

1. 分層前向網絡   

分層前向網絡如圖 9-17(a)所示。這種網絡的結構特征是,網絡由若干層神經元組成, 一般有輸入層、中間層(又稱隱層, 可有一層或多層)和輸出層,各層順序連接;且信息嚴格地按照從輸入層進,經過中間層, 從輸出層出的方向流動。前向便因此而得名。其中輸入層是網絡與外部環境的接口,它接受外部輸入;隱層是網絡的內部處理層,神經網絡具有的模式變換能力,如模式分類、模式完善、特征抽取等, 主要體現在隱層神經元的處理能力上;輸出層是網絡的輸出接口, 網絡信息處理結果由輸出層向外輸出。如后面將要介紹的BP網絡就是一種典型的分層前向網絡。

2. 反饋前向網絡   

反饋前向網絡如圖 9-17(b)所示。 它也是一種分層前向網絡, 但它的輸出層到輸入層具有反饋連接。反饋的結果形成封閉環路, 具有反饋的單元也稱為隱單元, 其輸出稱為內部輸出。

3. 互連前向網絡

互連前向網絡如圖 9-17(c)所示。 它也是一種分層前向網絡, 但它的同層神經元之間有相互連接。 同一層內單元的相互連接使它們之間有彼此牽制作用。

4. 廣泛互連網絡

所謂廣泛互連是指網絡中任意兩個神經元之間都可以或可能是可達的, 即存在連接路徑,廣泛互連網絡如圖9-17(d)所示。 著名的Hopfield網絡、波爾茨曼機模型結構均屬此類。

 顯然,這四種網絡結構其復雜程度是遞增的,對於簡單的前向網絡,給定某一輸入,網絡就能迅速產生一個相應輸出模式,但在互連型網絡中,輸出模式的產生就不這么簡單。對於給定的某一輸入模式,由某一初始網絡參數出發,在一段時間內網絡處於不斷改變輸出模式的動態變化中,網絡最終有可能產生某一穩定輸出模式,但也有可能進入周期性震盪或混沌狀態。因此,互連型網絡被認為是一種非線性動力學系統。

神經網絡至少可以實現如下功能:
  ——數學上的映射逼近 通過一組映射樣本(x1, y1), (x2,y2), …, (xn, yn), 網絡以自組織方式尋找輸入與輸出之間的映射關系:yi=f(xi)。這種映射逼近能力可用於系統建模、 模式識別與分類等。具有這種能力的典型網絡有BP網絡等。
     ——數據聚類、壓縮 通過自組織方式對所選輸入模式聚類。 若輸入模式不屬於已有的聚類, 則可以產生新的聚類。同一聚類可對應於多個輸入模式;另外,聚類是可變的。這是一種編碼形式, 而不同於分類。典型的網絡如ART模型,其應用如語音識別中用來減小輸入的維數, 減小存儲數據的位數等。
       ——聯想記憶 實現模式完善、恢復,相關模式的相互回憶等。典型的如Hopfield網絡、CPN網絡等。
       ——優化計算和組合優化問題求解 利用神經網絡的漸進穩定態, 特別是反饋網絡的穩定平衡態, 進行優化計算或求解組合優化問題的近似最優解。像Hopfield網絡、波爾茨曼機等均有此能力。
       ——模式分類 現有的大多數神經網絡模型都有這種分類能力。大多數網絡必須首先對樣本模式能夠進行分類,即要離線學習, 像BP網、CPN網、Hopfield網、新認知機等。 
     ——概率密度函數的估計 根據給定的概率密度函數, 通過自組織網絡來響應在空間Rn中服從這一概率分布的一組向量樣本X1, X2, …, Xk。像波爾茨曼機模型、CPN 網、SOM網就有這種能力。

4、神經網絡學習 

 a. 學習規則   

權值修正學派認為:神經網絡的學習過程就是不斷調整網絡的連接權值,以獲得期望的輸出的過程。所以,學習規則就是權值修正規則。
典型的權值修正規則有兩種,即相關規則和誤差修正規則。 相關規則的思想最早是由Hebb作為假設提出, 人們稱之為Hebb規則。
Hebb規則可以描述為:如果神經網絡中某一神經元與另一直接與其相連的神經元同時處於興奮狀態,那么這兩個神經元之間的連接強度應該加強。Hebb規則可用一算法表達式表示為

式中,Wij(t+1)表示修正一次后的某一權值;η是一個正常量, 決定每次權值修正量,又稱為學習因子;Xi(t)Xj(t)分別表示t時刻第i、第j個神經元的狀態。由於Hebb 規則的基本思想很容易被接受, 因此得到了較廣泛的應用。 但應該指出的是, 近來神經科學的許多發現都表明,Hebb規則並未准確反映神經元在學習過程中突觸變化的基本規律。      

誤差修正規則是神經網絡學習中另一類更重要的權值修正方法,像感知機學習、BP學習均屬此類。最基本的誤差修正規則,即常說的δ學習規則, 可由如下四步來描述:
  步1 選擇一組初始權值Wij(0)。
       步2 計算某一輸入模式對應的實際輸出與期望輸出的誤差。
    步3 用下式更新權值(閾值可視為輸入恆為-1的一個權值)

     步4 返回步2,直到對所有訓練模式,網絡輸出均能滿足要求。

    b.學習方法分類

 從不同角度考慮, 神經網絡的學習方法有不同的分類。 表 9.2列出了常見的幾種分類情況。   
 表 9.2 神經網絡學習方法的常見分類

 一般地, 提供給神經網絡學習的外部指導信息越多, 神經網絡學會並掌握的知識也越多, 解決問題的能力就越強。 但是, 有時神經網絡所要解決的問題預知的指導信息甚少, 甚至沒有, 在這種情況下強化學習、 無導師學習就顯得更有實際意義。

       從神經網絡內部狀態變化的角度來分, 學習技術分為三種,即權值修正、拓撲變化、權值與拓撲修正。本書僅簡單介紹權值修正學習。補充學習就是一種拓撲變化學習。在補充學習中, 神經網絡由兩類處理單元組成: 受約單元和自由單元。 所謂受約單元指那些已經表示某類信息或功能的單元, 它可以與其他受約單元相連, 也可以與自由單元組成一種原始的神經網絡。補充學習強調一組受約單元與自由單元之間的連接, 自由單元可以轉化為受約單元。由此可見, 自由單元的網絡中可能嵌有受約單元的子網絡。

5、BP網絡及其學習舉例   

BP(Back Propagation)網絡即誤差反向傳播網絡是應用最廣泛的一種神經網絡模型。
   (1)  BP網絡的拓撲結構為分層前向網絡。
   (2) 神經元的特性函數為Sigmoid型(S型)函數, 一般取為

  (3) 輸入為連續信號量(實數)。
  (4) 學習方式為有導師學習。
  (5) 學習算法為推廣的δ學習規則, 稱為誤差反向傳播算法, 簡稱BP學習算法。

BP算法的一般步驟如下:
  步1 初始化網絡權值、 閾值及有關參數(如學習因子η等)。
       步2 計算總誤差

 其中p為樣本的個數,

 其中ykj為輸出層節點j對第k個樣本的輸入對應的輸出(稱為期望輸出),ykj′為節點j的實際輸出。
       步3 對樣本集中各個樣本依次重復以下過程,然后轉步2。
  首先,取一樣本數據輸入網絡,然后按如下公式向前計算各層節點(記為j)的輸出:

 是節點j的輸入加權和;i為j的信號源方向的相鄰層節點, Oi為節點i的輸出,節點j 的輸入; O0=-1,  w0j=θ(閾值)。
其次,從輸出層節點到輸入層節點以反向順序,對各連接權值wij按下面的公式進行修正:

 其中

 l為與節點j在輸出側有連接的節點個數。

算法中的δj稱為節點j的誤差。它的來歷如下:

 於是, 令

 又當j為輸出節點時

 當j為中間節點時

可以看出,(9―1)式中Ek是網絡輸出ykj′ (j=1,2,…,n)的函數,而ykj′又是權值wij的函數,所以,Ek實際是wij的函數。網絡學習的目的就是要使這個誤差函數達到最小值。(9―2)式及δ的定義,就是用梯度下降法,在權值空間沿負梯度方向調整權值wij,以使(9―1)式所示的准則函數達到最小。所以,BP網絡的學習過程就是一個非線性優化過程。

例9.5 設計一個BP網絡, 對表9.3所示的樣本數據進行學習, 使學成的網絡能解決類似的模式分類問題。

設網絡的輸入層有三個節點,隱層四個節點,輸出層三個節點,拓撲結構如圖9-18所示。

 用樣本數據按BP算法對該網絡進行訓練,訓練結束后, 網絡就可作為一種模式分類器使用。因為網絡的輸出向量(1, 0, 0)、 (0, 1, 0)、(0, 0, 1)可以表示多種模式或狀態。如可以分別表示凸、凹和直三種曲線, 或者三種筆划, 也可以表示某公司的銷售情況:高峰、低谷和持平等等。當然,要使網絡有很好的模式分類能力, 必須給以足夠多的樣例使其學習, 本例僅是一個簡單的示例。

6、神經網絡模型

    神經網絡模型是一個在神經網絡研究和應用中經常提到的概念。所謂神經網絡模型,它是關於一個神經網絡的綜合描述和整體概念,包括網絡的拓撲結構、輸入輸出信號類型、 信息傳遞方式、神經元特性函數、學習方式、學習算法等等。
    截止目前, 人們已經提出了上百種神經網絡模型, 表9.4簡介了最著名的幾種。
表 9.4 一些著名的神經網絡模型

 神經網絡模型也可按其功能、結構、學習方式等的不同進行分類。

a. 按學習方式分類   

神經網絡的學習方式包括三種: 有導師學習、強化學習和無導師學習。按學習方式進行神經網絡模型分類時, 可以分為相應的三種,即有導師學習網絡、強化學習網絡及無導師學習網絡。    

b. 按網絡結構分類

    神經網絡的連接結構分為兩大類, 分層結構與互連結構, 分層結構網絡有明顯的層次,信息的流向由輸入層到輸出層, 因此構成一大類網絡, 即前向網絡。對於互連型結構網絡, 沒有明顯的層次, 任意兩處理單元之間都是可達的, 具有輸出單元到隱單元(或輸入單元)的反饋連接, 這樣就形成另一類網絡, 稱之為反饋網絡。

c. 按網絡的狀態分類

    在神經網絡模型中,處理單元(即神經元)的狀態有兩種形式: 連續時間變化狀態、離散時間變化狀態。如果神經網絡模型的所有處理單元狀態能在某一區間連續取值,這樣的網絡稱為連續型網絡;如果神經網絡模型的所有處理單元狀態只能取離散的二進制值0或1(或-1、+1),那么稱這種網絡為離散型網絡。典型的Hopfield網絡同時具有這兩類網絡, 分別稱為連續型Hopfield網絡和離散型Hopfield網絡。另外,還有輸出為二進制值0或1、 輸入為連續值的神經網絡模型, 如柯西機模型。

d. 按網絡的活動方式分類

    確定神經網絡處理單元的狀態取值有兩種活動方式: 一種是由確定性輸入經確定性作用函數, 產生確定性的輸出狀態; 另一種是由隨機輸入或隨機性作用函數, 產生遵從一定概率分布的隨機輸出狀態。具有前一種活動方式的神經網絡, 稱為確定性網絡。 已有的大部分神經網絡模型均屬此類。 而后一種活動方式的神經網絡, 稱為隨機性網絡。隨機性網絡的典型例子有: 波爾茨曼機、 柯西機和高斯機等。

四、知識發現與數據挖掘

1、知識發現的一般過程

1. 數據准備
    數據准備又可分為三個子步驟: 數據選取、 數據預處理和數據變換。 數據選取就是確定目標數據, 即操作對象, 它是根據用戶的需要從原始數據庫中抽取的一組數據。數據預處理一般可能包括消除噪聲、推導計算缺值數據、消除重復記錄、完成數據類型轉換等。當數據開采的對象是數據倉庫時,一般來說, 數據預處理已經在生成數據倉庫時完成了。 數據變換的主要目的是消減數據維數, 即從初始特征中找出真正有用的特征以減少數據開采時要考慮的特征或變量個數。
2. 數據挖掘
  數據挖掘階段首先要確定開采的任務或目的是什么, 如數據總結、分類、聚類、關聯規則或序列模式等。確定了開采任務后, 就要決定使用什么樣的開采算法。同樣的任務可以用不同的算法來實現, 選擇實現算法有兩個考慮因素: 一是不同的數據有不同的特點, 因此需要用與之相關的算法來開采; 二是用戶或實際運行系統的要求, 有的用戶可能希望獲取描述型的、容易理解的知識, 而有的用戶或系統的目的是獲取預測准確度盡可能高的預測型知識。   
3. 解釋和評價
  數據挖掘階段發現出來的知識模式中可能存在冗余或無關的模式, 所以還要經過用戶或機器的評價。若發現所得模式不滿足用戶要求,則需要退回到發現階段之前,如重新選取數據,采用新的數據變換方法, 設定新的數據挖掘參數值, 甚至換一種采掘算法。
4. 知識表示
  由於數據挖掘的最終是面向人的, 因此可能要對發現的模式進行可視化, 或者把結果轉換為用戶易懂的另一種表示, 如把分類決策樹轉換為“if-then”規則。

2、知識發現的對象  

1. 數據庫
  數據庫是當然的知識發現對象。當前研究比較多的是關系數據庫的知識發現。其主要研究課題有: 超大數據量、動態數據、 噪聲、 數據不完整性、冗余信息和數據稀疏等。
2. 數據倉庫
        隨着計算機技術的迅猛發展, 到20世紀80年代, 許多企業的數據庫中已積累了大量的數據。於是,便產生了進一步使用這些數據的需求(就是想通過對這些數據的分析和推理, 為決策提供依據)。 但對於這種需求,傳統的數據庫系統卻難以實現。這是因為: ① 傳統數據庫一般只存儲短期數據, 而決策需要大量歷史數據; ② 決策信息涉及許多部門的數據, 而不同系統的數據難以集成。在這種情況下,數據倉庫(data warehouse)技術便應運而生。
       目前, 人們對數據倉庫有很多不同的理解。Inmon將數據倉庫明確定義為: 數據倉庫是面向主題的、集成的、內容相對穩定的、不同時間的數據集合, 用以支持經營管理中的決策制定過程。
  具體來講, 數據倉庫收集不同數據源中的數據, 將這些分散的數據集中到一個更大的庫中, 最終用戶從數據倉庫中進行查詢和數據分析。數據倉庫中的數據應是良好定義的、一致的、 不變的,數據量也應足夠支持數據分析、查詢、報表生成和與長期積累的歷史數據的對比。
數據倉庫是一個決策支持環境, 通過數據的組織給決策支持者提供分布的、跨平台的數據,使用過程中可忽略許多技術細節。總之, 數據倉庫有四個基本特征:
  (1) 數據倉庫的數據是面向主題的。
  (2) 數據倉庫的數據是集成的。
  (3) 數據倉庫的數據是穩定的。
  (4) 數據倉庫的數據是隨時間不斷變化的。
數據倉庫是面向決策分析的, 數據倉庫從事務型數據抽取並集成得到分析型數據后, 需要各種決策分析工具對這些數據進行分析和挖掘, 才能得到有用的決策信息。而數據挖掘技術具備從大量數據中發現有用信息的能力,於是數據挖掘自然成為數據倉庫中進行數據深層分析的一種必不可少的手段。
  數據挖掘往往依賴於經過良好組織和預處理的數據源, 數據的好壞直接影響數據挖掘的效果, 因此數據的前期准備是數據挖掘過程中一個非常重要的階段。而數據倉庫具有從各種數據源中抽取數據, 並對數據進行清洗、聚集和轉移等各種處理的能力, 恰好為數據挖掘提供了良好的進行前期數據准備工作的環境。
3. Web信息
  隨着Web的迅速發展, 分布在Internet上的Web網頁已構成了一個巨大的信息空間。在這個信息空間中也蘊藏着豐富的知識。因此, Web信息也就理所當然地成為一個知識發現對象。 基於Web的數據挖掘稱為Web挖掘。
  Web挖掘主要分為內容發現、結構發現和用法挖掘。
  內容挖掘是指從Web文檔的內容中提取知識。Web內容挖掘又可分為對文本文檔(包括text、HTML等格式)和多媒體文檔(包括image、audio、video等類型)的挖掘。如對這些文檔信息進行聚類、分類、關聯分析等。  
結構挖掘包括文檔之間的超鏈結構、文檔內部的結構、 文檔URL中的目錄路徑結構等,從這些結構信息中發現規律, 提取知識。
  用法挖掘就是對用戶訪問Web時在服務器留下的訪問記錄進行挖掘, 以發現用戶上網的瀏覽模式,訪問興趣、檢索頻率等信息。在用戶瀏覽模式分析中主要包括了針對用戶群的一般的訪問模式追蹤和針對單個用戶的個性化使用記錄追蹤; 挖掘的對象是服務器上包括Server Log Data等日志。  
4. 圖像和視頻數據
  圖像和視頻數據中也存在有用的信息需要挖掘。比如, 地球資源衛星每天都要拍攝大量的圖像或錄像, 對同一個地區而言, 這些圖像存在着明顯的規律性, 白天和黑夜的圖像不一樣, 當可能發生洪水時與正常情況下的圖像又不一樣。 通過分析這些圖像的變化, 我們可以推測天氣的變化, 可以對自然災害進行預報。這類問題, 在通常的模式識別與圖像處理中都需要通過人工來分析這些變化規律, 從而不可避免地漏掉了許多有用的信息。

3 、知識發現的任務  

1. 數據總結
    數據總結的目的是對數據進行濃縮, 給出它的緊湊描述。  傳統的也是最簡單的數據總結方法是計算出數據庫的各個字段上的求和值、平均值、方差值等統計值, 或者用直方圖、  餅狀圖等圖形方式表示。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把數據庫中的有關數據從低層次抽象到高層次的過程。
2. 概念描述
    有兩種典型的描述: 特征描述和判別描述。 特征描述是從與學習任務相關的一組數據中提取出關於這些數據的特征式,這些特征式表達了該數據集的總體特征; 而判別描述則描述了兩個或多個類之間的差異。
3. 分類(classification)
    分類是數據挖掘中一項非常重要的任務,目前在商業上應用最多。分類的目的是提出一個分類函數或分類模型(也常常稱做分類器), 該模型能把數據庫中的數據項映射到給定類別中的某一個。
4. 聚類(clustering)
    聚類是根據數據的不同特征, 將其划分為不同的類。它的目的使得屬於同一類別的個體之間的差異盡可能的小,而不同類別上的個體間的差異盡可能的大。聚類方法包括統計方法、機器學習方法、神經網絡方法和面向數據庫的方法等。
5. 相關性分析
  相關性分析的目的是發現特征之間或數據之間的相互依賴關系。數據相關性關系代表一類重要的可發現的知識。 一個依賴關系存在於兩個元素之間。如果從一個元素A的值可以推出另一個元素B的值, 則稱B依賴於A。這里所謂元素可以是字段, 也可以是字段間的關系。
6. 偏差分析
    偏差分析包括分類中的反常實例、例外模式、觀測結果對期望值的偏離以及量值隨時間的變化等, 其基本思想是尋找觀察結果與參照量之間的有意義的差別。通過發現異常,可以引起人們對特殊情況加倍注意。
7. 建模
 建模就是通過數據挖掘, 構造出能描述一種活動、 狀態或現象的數學模型。

4、 知識發現的方法  

1. 統計方法
    事物的規律性,一般從其數量上會表現出來。而統計方法就是從事物的外在數量上的表現去推斷事物可能的規律性。 因此, 統計方法就是知識發現的一個重要方法。常見的統計方法有回歸分析、判別分析、聚類分析以及探索分析等。
2. 機器學習方法
 KDD和DM就是機器學習的具體應用,理所當然地要用到機器學習方法, 包括符號學習和連接學習以及統計學習等。
3. 粗糙集及模糊集
    粗糙集(RS)理論由波蘭學者Zdziskew Pawlak在1982年提出,它是一種新的數學工具,用於處理含糊性和不確定性, 粗糙集在數據挖掘中也可發揮重要作用。那么什么是粗糙集呢? 簡單地說, 粗糙集是由集合的下近似、上近似來定義的。下近似中的每一個成員都是該集合的確定成員, 若不是上近似中的成員肯定不是該集合的成員。粗糙集的上近似是下近似和邊界區的合並。邊界區的成員可能是該集合的成員, 但不是確定的成員。可以認為粗糙集是具有三值隸屬函數的模糊集,即是、不是、也許。與模糊集一樣, 它是一種處理數據不確定性的數學工具, 常與規則歸納、分類和聚類方法結合起來使用。
4. 智能計算方法
  智能計算方法包括進化計算、免疫計算、量子計算和支持向量機等。這些方法可以說正是在數據挖掘的刺激和推動下迅速發展起來的智能技術, 它們也可有效地用於知識發現和數據挖掘。 
5. 可視化
  可視化(visualization)就是把數據、信息和知識轉化為圖形的表現形式的過程。可視化可使抽象的數據信息形象化。於是,人們便可以直觀地對大量數據進行考察、分析, 發現其中蘊藏的特征、關系、模式和趨勢等。因此,信息可視化也是知識發現的一種有用的手段。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM