人機交互30年

本文轉載自查看原文 2012-03-19 10:57 3968 觸控交互/ 計算機視覺/ CHI/ PUI/ SUI/ 人機交互30年/ 人機交互/ TUI/ GUI/ 語音交互/ CBI/ VBI

　　　　　　　　　　　　　　　　　　　　　　　　　　　　人機交互30年

自1982年ACM成立人機交互專門興趣小組SIGCHI(Special Interest Group on Computer-Human Interaction)以來，人機交互(Computer-Human Interaction，CHI)已走過了近30年歷程。鍵盤的出現，將計算機帶入了字符用戶界面時代。1964年，美國人道格·恩格爾巴特（Doug Engelbart）發明了鼠標（圖1），圖形用戶界面（Graphical User Interface,GUI）隨之出現，才有了計算機的主機時代和個人計算機時代，為此，恩格爾巴特也獲得了1997年的圖靈獎。自圖形用戶界面出現至今的幾十年中，人機交互技術經歷了幾代人的努力，成就了PC時代的輝煌。

圖1 Doug Engelbart和他發明的鼠標

　　70年代Xerox研究中心的Alan Kay提出了Smalltalk面向對象程序設計等思想，並發明了重疊式多窗口系統。

　　1989年Tim Berners-Lee在日內瓦的CERN用HTML及HTTP開發了WWW網，隨后出現了各種瀏覽器（網絡用戶界面），使互聯網飛速發展起來。

圖2 Alan Kay和Tim Berners-Lee

　　由於筆式交互、觸摸、語音、以及基於視頻等自然交互設備的出現，新的計算模式被提出，人機交互進入了普適計算(Pervasive Computing)時代。

90年代美國麻省理工學院N.Negroponte領導的媒體實驗室在新一代多通道用戶界面方面（包括語音、手勢、智能體等），做了大量開創性的工作。

90年代美國Xerox公司PARC的首席科學家Mark Weiser首先提出“無所不在計算（Ubiquitous Computing）”思想。

　　人機交互是研究人類所使用的交互式計算系統的設計、實施、評估以及相關主要現象的學科，用戶界面（User Interface,UI）是人與計算機之間傳遞、交換信息的媒介和對話接口，是計算機系統的重要組成部分，用戶界面是人機交互技術的物質表現形式。所以在普適計算時代自然交互是其研究的重要主題，人機交互的歷史也是從人適應計算機到計算機不斷地適應人的發展史。回顧人機交互的發展史，主要經歷了以下幾個階段（圖3）：

　　1、早期的手工作業階段；

　　2、作業控制語言及交互命令語言階段；

　　3、圖形用戶界面（GUI）階段；

　　4、網絡用戶界面的出現；

　　多通道、多媒體的智能人機交互階段。

圖3 界面范式的發展過程

　　在早期的命令語言用戶界面時代，人和計算機的交互主要是通過鍵盤來完成的。而此時的計算機主要是大型機，用來進行科學計算，接受文本命令；隨着圖形界面和鼠標的出現，計算機進入了個人PC時代，接受GUI命令，並幫助我們我們實現了辦公自動化。WIMP界面范式是圖形界面電腦所采用的界面典范。在人機互動領域之中是最普遍的電腦互動界面，WIMP堪稱無人能出其右，舉凡微軟的Windows、蘋果電腦的MacOS，甚至其它以X-Window為基礎的操作系統，均采用WIMP此一界面典范。WIMP是由“視窗”（Window）、“圖標”（Icon）、“選單”（Menu）以及“指標”（Pointer）所組成的縮寫，其命名方式也指明了它所倚賴的四大互動元件。曾經有人這樣評價圖形用戶界面：“PC plus GUI made the history”。但隨着計算機硬件設備的進步和軟件技術的發展，WIMP界面的缺點逐漸地體現出來。目前研究者們將研究的焦點聚集到下一代的用戶界面的研究上，提出了Post-WIMP(或Non-WIMP)的界面形式。

用戶界面技術的每一次飛躍都需要認知心理學成果的支撐，在人機交互的心理學研究當中，自然、智能用戶界面目標是：幫助計算機了解用戶，幫助用戶更好地使用計算機。WIMP界面概念模型中，認知主體和計算機的交互過程如圖5所示，認知主體通過擊鍵或指點向應用程序輸入指令，應用程序通過窗口、圖標、菜單以及文本向認知主體反饋信息。這種界面模型將認知主體的注意力集中在如何使用計算機上而不是任務的本身。

圖4 人機交互的適應發展 圖5 傳統WIMP界面范式的交互過程

　　人機交互大師Turk曾給自然地用戶界面下過如下定義：最自然的人機交互技術是指那些能夠利用人類自然地認知和感知能力、社會技能以及我們從小就養成的行為習慣。由圖6的五種人的感知通道所衍生出的界面形式稱為可感知用戶界面（Perceptual User Interface, PUI）

圖6 PUI的幾種感知通道

　　可感知用戶界面(PUI)目前主要集中在以下幾大領域：觸控交互、筆式交互、機器視覺交互、語音交互、腦-機交互、其他傳感器類交互以及多通道交互領域。

觸控交互技術已普遍滲入到人的生活當中，觸控手機和平板電腦就是這類交互技術的應用實例。美國蘋果公司（Apple）將電容屏應用到智能手機當中，推出了iPhone、iTouch以及iPad智能手機和智能平板電腦系列，隨后這種觸控交互的電子產品風靡全球，幾乎將現在所有的智能手機的交互方式都更新了一遍。

圖7 iPhone和iPad

　　微軟（Microsoft）是多點觸控技術的先行者，Microsoft Surface強調使用更為直覺，不需使用任何鼠標及鍵盤。搭配30寸的大型顯示器，其機構外型很像張桌子，可以同時讓很多人在上面觸控操作。與一般觸控式電腦最大不同在於提供了多點觸控(Multi-Touch)功能，可以同時辨識多點的觸控資訊，可讓多人同時使用一台Surface電腦。嚴格意義上來講，像Surface這類交互設備應屬於機器視覺交互的范疇，圖8右圖是Surface的內部構造，它是由位於底部的一個攝像機來獲取到人手指的位置和運動信息然后進行分割識別處理而得到交互語義的。但是在交互過程中不存在機器視覺交互的“金手指”問題，所以它更具備觸控交互的特點。

圖8 微軟Surface應用和構造

　　筆式交互技術應該也屬於觸控交互，但由於在交互設備上需要用一支電子筆，所以將其單獨划為一類。“漢王”的手寫設備就是這類交互方式的典型代表。這類設備和上面的觸控設備相比不同處除了多了一只電子筆外，其所用的觸屏多是電阻屏。筆式交互提倡回歸文明、回歸自然，特別是對於具有悠遠文字文明的我們，筆式交互讓我們更貼近漢字文明。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖9 筆式手寫設備

　　視覺通道是人與人之間進行交流的一種重要途徑，盡管有很多其他方法可以替代視覺進行交流，但人們更原意采用可視的途徑交流，因為這樣更符合人們的交流習慣－面對面的交流。基於視覺的交互也稱為基於視覺的用戶界面（Vision Based Interface, VBI），在人機交互上下文環境中，使用計算機視覺技術來感知用戶稱為基於視覺的交互。VBI是PUI的一個研究子域，它更多地關注於用戶的視覺感知行為。這是一個多學科交叉領域，它結合了計算機視覺、圖像處理、模式識別、人機交互、行為心理學等研究成果。視覺用戶界面試圖回答以下問題【Turk 1998】

　　1、存在和位置：有人在那里么？有多少人他們在哪里？[人臉檢測、身體檢測、頭部和身體跟蹤]

　　2、身份：他們是誰？[人臉識別、步態識別]

　　3、表情：用戶正在微笑、皺眉、大笑還是說話？[面部表情識別、表情建模和分析]

　　4、注意焦點：用戶正在看什么？[頭部/面部跟蹤，目光跟蹤]

　　5、身體姿勢和運動：用戶的整體姿勢和運動是什么？[身體建模和跟蹤]

　　6、手勢：用戶的頭部、手、身體的運動表達了什么樣的語義信息？[手勢識別、頭部跟蹤]

　　7、行為：用戶正在做什么事情？[人體運動分析]

利用視覺手勢可以方便、有效地完成以下任務：

1、代替鼠標完成指點和勾畫任務；

　　2、虛擬環境中漫游以及操縱虛擬對象；

　　3、控制家電設備（例如電視、CD播放機等）和指揮機器人；

　　4、通過手語進行交流。

　　目前，基於視覺的交互是人機交互領域的一個研究熱點。如智能相機、Anote 數碼筆以及微軟的XBOX體感游戲機都是這一領域的研究成果。嚴格地講，Anote數碼筆雖然采用了視覺處理技術，但應該屬於實物操作界面（Tangible User Interface, TUI）的范疇。實物操作界面倡導的是周圍環境中的物體都是交互的接口（World will be interface.）。Anote數碼筆是由數碼紙和數碼筆組成的，所謂的數碼紙就是普通的紙，數碼筆就是一支普通的圓珠筆。它通過微型攝相頭讀入筆尖高速書寫的筆跡和Anote 數碼紙的微點坐標，微處理器分析處理后通過藍牙無線或USB等方法轉送到電腦或攜帶手機之中。們只需用「Anote 數碼筆」在「Anote 數碼紙」上與平常一樣書寫與記錄、就可以將信息簡便的輸入電腦。

　　　　　　　　　　　　　　　　　　　　 圖10 Anote數碼筆和TUI交互

　　視覺交互技術的另一項商業化應用就是東芝公司推出的具有手勢識別功能的筆記本。東芝Qosmio G55可通過攝像頭來識別用戶的手勢，之后軟件可把手勢轉換成指令進行相關操作。用戶通過手勢可進行音樂、視頻播放以及PowerPoint演示等操作，使用者在攝像頭前3英尺到10英尺的范圍內做出手勢便可。

（1）　　　　　　　　　　　　　　　　　（2）　　　　　　　　　　　　　　　　（3）

　　　　　　　　　　 圖11 （1）為東芝Qosmio G55可手勢識別筆記本；（2）CamSpace；（3）微軟體感交互家庭游戲機。

　　由CamSpace小組開發的視覺交互軟件基於實際物體的顏色特征，可在短時間內創建一個自己的游戲控制器。真正做到了“any game, any webcam”。只是精確度上要比任天堂的WII手柄略遜一籌。

　　視覺交互領域另一個不得不提的里程碑式的應用就是微軟的體感控制器KINECT，它將以色列人的深度傳感器推向了商業化應用。KINECT的出現彌補了彩色攝像頭的不足，使得普通攝像頭下無法解決的難題迎刃而解。自從2011年11月KINECT發布以來，這項技術已被應用到諸多領域，而且以后還會得到更長遠的發展。KINECT是一款基於Light Coding技術的立體成像傳感器。它可以實時（目前是每秒30幀，實際應該比這個還要高）地捕獲到空間的三維信息。微軟將其用於對人體動作的識別領域，通過肢體分割和動作識別可以分析出人的動作然后轉化成相應的控制信號對虛擬人物或其他設備進行控制。

　　語音交互技術已發展多年，微軟的Windows操作系統從Vista版本以后都集成了語音指令操作功能。用戶可以通過語音操作指令來完成基本的操作功能，如打開文件、輸入字符等。其實，微軟在早期就發布了TTS（Text to Speech）語音發音包和語音識別包，開發者可以利用這兩個語音包實現語音發音和語音識別的功能；此外，IBM/Via Voice連續中文語音識別系統經過不斷改進，也已廣泛應用於Office/XP的中文版等辦公軟件和應用軟件中，在中文語音識別領域有重要影響。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　 圖12 語音識別

　　腦-機交互目前只能在實驗室中見到，腦-機交互也稱之為“意念交互”、腦-機接口(Brain-computer interface, BCI)。利用腦電信號實現人腦與計算機或其他電子設備的直接通訊和控制。 BCI技術結合了神經科學、心理認知科學和智能信息處理等領域的最新成果。

　　　　　　　　　　　　　　　　　　　　　　　 圖13 腦-機交互

　　除了上述的交互領域，我們還會看到很多基於其他傳感器的交互方式，如任天堂的WII操作手柄。這是一款主要面向游戲娛樂的操作設備，它里面包含了固態加速計和陀螺儀，可以實現傾斜和上下旋轉、傾斜和左右旋轉、圍着主軸旋轉（像使用螺絲刀）、上下加速度、左右加速度、朝向屏幕加速和遠離屏幕加速等功能。類似的設備在現實中也較為常見，如PPT控制器也屬此類，一般通過藍牙技術與主機進行通信。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖14 WII手柄和WII操作場景

　　多通道交互(Multi-Modal Interaction, MMI)是一種使用多種通道與計算機通信的人機交互方式。采用這種方式的計算機用戶界面稱為“多通道用戶界面”。通道(Modality)這個詞源於心理學的概念，涵蓋了用戶表達意圖、執行動作或感知反饋信息的各種通信方法，如言語、眼神、臉部表情、唇動、手動、手勢、頭動、肢體姿勢、觸覺、嗅覺或味覺等。

按照摩爾（Moore）定律，計算機硬件每18個月就翻新一代，計算機軟件每5年升級一代，而用戶界面則要15到20年更新一代。迄今為止，用戶界面的發展經歷了三個主要的時代。這三個時代可以用三種截然不同的界面風格來划分。每一種界面風格都持續了若干年，並不斷被當時新的硬件技術所優化，然后形成進入下一個時代。每一個新的時代都較前一個時代而言，能更大限度地拓展人機交流的帶寬，提高用戶的生產力。在60年代到70年代，用戶界面主要是字符界面，鍵盤是主要的交互設備；80到90年代進入了圖形用戶界面時代，鼠標作為主要的指點和定位設備；21世紀將會進入用戶界面的新時代。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　 圖15 人機交互范式和用戶的生產力

　　計算機的運算速度、存儲能力、以至整體計算能力一直在按照Moore定律成倍翻新。另一方面，人的認知能力（包括記憶、理解能力）是不隨時間成倍增長的。因此人和計算機的交互就會存在嚴重的不平衡。人機交互技術，從本質上講，是為了減輕人的認知負荷，增強人類的感覺通道和動作通道的能力。所以新一代的用戶界面將會秉承“無所不在的計算思想”，在五個“any”（ access Any body, Any thing, Any-where, at Any time, via Any device）上進行延伸。計算機將會從我們的“眼前”消失融入到我們周圍的環境中去。在這個過程中，圖形用戶界面（GUI）不會被替代，而是會被增強。圖形用戶界面將在以下幾方面繼續發展：

　　1、從直接控制到非直接控制（smart X, agents, SUI簡易用戶界面）；

　　2、從二維到三維視感；

　　3、更准確的語音、手勢識別；

　　4、高質量的觸覺反饋設備；

　　5、更方便的界面開發工具；

　　6、增強“智能代理”功能；

　　7、用視頻攝像來識別用戶的身份、位置、眼動和姿勢。

　　人機交互作為一個年輕的學科其實並不年輕，在計算機誕生的那刻起人機交互就隨之誕生了。在美國馬里蘭州召開的第一屆人機交互大會，掀開了這一學科的展新篇章。轉眼間，它已走過了30年。在這30年中，從理論到實踐都取得了巨大的發展，相信未來幾十年人機交互會給我們帶來意想不到的驚喜。

最有影響的一些事件和成果：

(1)1945年，美國羅斯福總統的科學顧問Bush(1894~1974)在大西洋月刊上發表的《As we may think》的著名論文，提出了應采用設備或技術來幫助科學家檢索、記錄、分析及傳輸各種信息的新思路和名為Memex的一種工作站構想，影響着一大批最著名計算機科學家。

(2)1963年，美國麻省理工學院Sutherland開創了計算機圖形學的新領域，並獲1988年ACM圖靈獎，他還在1968年開發了頭盔式立體顯示器，成為現代虛擬現實技術的重要基礎。

(3)1963年，美國斯坦福研究所的Engelbart發明了鼠標器，他預言鼠標器比其他輸入設備都好，並在超文本系統、導航工具方面取得了傑出的成果(Augmented Human Intellect Project)，獲1997年ACM圖靈獎，鼠標器經過不斷地改進，成為影響當代計算機使用的最重要成果。

(4)20世紀70年代，當時在Xerox研究中心的Alan Kay提出了Smalltalk面向對象程序設計等思想，並發明了重疊式多窗口系統，后經蘋果、微軟、麻省理工學院等單位的不斷研究和開發，形成了目前廣泛使用的圖形用戶界面的標准范式。

(5)1989年，TimBerners Lee在日內瓦的CERN用HTML及HTTP開發了WWW網，隨后出現了各種瀏覽器(網絡用戶界面)，使互聯網飛速發展起來

(6)20世紀90年代，美國麻省理工學院Negroponte(他早在30年前就提出了交談式計算機概念)領導的媒體實驗室在新一代多通道用戶界面方面(包括語音、手勢、智能體等)做了大量開創性的工作他是暢銷書數字化生存(Being Digital)的作者。

(7)20世紀90年代，美國Xerox公司PARC的首席科學家Mark Weiser(1952~1999)，首先提出無所不在計算(Ubiquitous Computing)思想，並在此領域做了大量開拓性的工作。

本文提到的用戶界面結構；
CHI

----GUI

----PUI

　　　　----VBI

----BCI

----TUI

----SUI

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 人機交互（一）概述人機交互，來和我猜拳吧！人機交互知識點總結 PowerShell中實現人機交互 063 Python必備庫-從人機交互到藝術設計（原創）用訊飛語音實現人機交互的功能人機交互技術知識點 Linux Shell自動交互/人機交互的三種方法人機交互的新方向：智能聊天機器人【python系統學習05】input函數——實現人機交互