HoloLens開發手記 - 語音輸入 Voice input

本文轉載自查看原文 2016-05-06 11:10 1962 .NET/ HoloLens/ Windows 10開發

語音是HoloLens三大重要輸入形式之一。它允許你直接通過語言控制全息圖像，而不用借助手勢。你只要凝視全息圖像然后說出語音命令即可。語音輸入是自然的交互方式，它能夠很好的改善復雜的交互，因為通過一條語音命令即可以減少很多復雜的UI菜單。

HoloLens語音輸入是由同UWP應用一樣的語音識別引擎支持。

選中命令 The "select" command

即使沒有特地為應用添加語音命令特性，用戶還是能夠通過說：“select”來簡單地激活你的全息圖像。這個行為和用手或點擊器點擊類似。你將會聽到一聲提示音，同時會看到一條提示：“Select”，用以確認你的語音指令。“Select”命令是由低功耗關鍵詞識別算法來保證的，所以任何時候你都能使用它，這只會帶來極低的電量生命周期影響。

Say "select" to use the voice command for selection

激活Cortana Hey Cortana

任何時候你都可以通過說："Hey Cortana"來激活它，並且不用等待它出現，即可繼續問它問題或給出指令。關於Cortana的更多信息和你能做什么，你直接詢問它即可。可以說："Hey Cortana, What Can I Say?",然后它會更出作業和推薦的語音命令列表。如果你已經進入Cortana應用，點擊 ? 按鈕同樣可以獲得提示列表。

HoloLens特定語音命令 HoloLens-specific commands

Go Home - 喚出開始菜單
Launch <應用名> - 打開應用
Take a picture
Start recording
Stop record
Increase the brightness
Decrease the brightness
Increase the volume
Decrease the volume
Shut down the device
Restart the device
Reboot the device
Go to sleep
What time is it?
What is my IP address?
Am I connected to the network?
Are you listening?
How much battery do I have left?
Call <聯系人> - 需要安裝HoloSkype
Web search

"See It, Say It"模式

對於語音輸入，HoloLens有一個"See It, Say It"模式，在此模式內按鈕上會出現文本提示來告訴用戶應該使用什么語音命令來使用它。例如，我們看向一個2D應用，當我們看到Holobar上的Adjust按鈕時，會出現文本提示框，此時我們直接說："Adjust"命令即可調整應用在世界中的位置。

When looking at a 2D app, a user can say the "Adjust" command which they see in the title bar to adjust the position of the app in the world

當應用遵循此規則時，用戶可以很容易地明白應該說什么命令來控制系統。為了加強此特性，當用戶凝視按鈕時，你可以顯示一個語音命令提示欄，來使用戶明白此按鈕支持語音輸入同時明白應該說什么指令。

See it, say it commands appear below the buttons

語音轉文字 Dictation

和通過點擊手勢輸入一樣，語音聽寫能夠更有效地在應用中輸入文本。這能更好地加快用戶輸入，以減少輸入對用戶體驗的影響。

Voice dictation starts by selecting the microphone button

任何時候全息鍵盤激活后，你都能將輸入模式切換到聽寫模式。可以通過點擊文本輸入框左邊的麥克風按鈕來開始聽寫操作。

通信 Communication

對於那些想要使用HoloLens自定義語音輸入處理選項的應用來講，理解音頻流類別（audio stream categories）很重要。Windows 10支持數種音頻流類別，同時為了優化為語音輸入、通信和其他輔助周邊環境音頻捕獲場景量身定制的麥克風音頻質量，HoloLens支持其中3種類別來保證自定義音頻處理。

AudioCategory_Communications流類別被自定義用於通話質量和敘述場景，提供給客戶端用戶聲音的16kHz 24位單聲道音頻流.
AudioCategory_Speech流類別被定制用於HoloLens（Windows）語音識別引擎，提供它們 16kHz 24位單聲道用戶音頻流。如果需要的話，此流類別亦可用於第三方語音識別引擎。
AudioCategory_Other流類別被定制用於周邊環境聲音錄制，提供給客戶端 48kHz 24位立體聲音頻流。

所有的音頻處理都通過硬件加速，這意味着此特性會大大降低電池消耗，如果與CPU處理同樣音頻作業相比的話。通過避免在CPU上處理其他音頻輸入進程，可以最大化系統電池生命周期，同時能夠利用上內置的音頻處理作業。

問題診斷 Troubleshooting

如果你在使用"select"和"Hey Cortana"語音命令中遇到任何問題，請嘗試移動到安靜的空間，遠離噪音來源，或者嘗試大聲說話。此時，HoloLens上所有的語音識別都將特地為美式英語調整和優化。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。