<menuitem id="acgdd"><dfn id="acgdd"></dfn></menuitem><progress id="acgdd"></progress>
      <option id="acgdd"></option>

      <track id="acgdd"><div id="acgdd"></div></track>

      <track id="acgdd"><div id="acgdd"></div></track>
    1.  首頁 >> 跨學科 >> 科學與人文
      視聽整合:人機交互界面的新方向
      2019年05月21日 10:13 來源:中國社會科學網-中國社會科學報 作者:周愛保 田喆 謝珮 字號

      內容摘要:

      關鍵詞:

      作者簡介:

        近年來,隨著人工智能的蓬勃發展,機器智能在不斷進步,機器視覺、語音識別、動作控制等領域實現了重大突破,并開始廣泛滲透到金融、客服、醫療、無人駕駛等行業。當前,雖然有許多關于大腦對多模態信號敏感性的研究,但視聽整合視角下人機交互的相關研究相對較少。本文試探索視聽整合新方法,開發人機交互界面的新潛能。

        人類智能和人工智能是智能時代的兩個主要力量,人工智能是指用機器去實現所有目前必須借助人類智慧才能實現的任務,本質是基于學習能力和推理能力的不斷進步,模仿人類思考、認知、決策和行動的過程。在實現人工智能的道路上,人機交互必不可少。人機交互指人與計算機之間使用某種對話語言,以一定的交互方式,為完成確定任務的人與計算機之間的信息交換過程,包括人通過輸入設備給計算機輸入信息、計算機經過運算再通過輸出設備給人提供信息反饋等方面內容。

        迄今為止,人機交互界面的發展大致經歷了三個階段:命令行界面(Command-Line Interface,CLI)、圖形用戶界面(Graphical User Interface,GUI)、自然用戶界面(Natural User Interface,NUI)。NUI的出現為人工智能與用戶體驗帶來了質的進化,未來的發展趨勢傾向于自然交互模式,人機、環境的和諧交互將使它們處于自然融合的狀態。自然的人機交互操作環境,能帶給人們身臨其境的感受。但現有人機交互的模式仍然停留在舊交互模式的階段,無法滿足當前人機交互方式多種多樣的局面。

        目前的多模態人機交互以自然用戶界面為主。自然用戶界面主要分為六大類:語音識別、觸摸屏、手勢識別、眼動追蹤、觸覺和腦機接口。人機交互界面的方式越來越豐富,技術越來越精湛。伴隨著虛擬現實、人工智能等新技術發展為新一代人機交互平臺,為構建視聽觸覺多模態有機融合的人機交互系統提供了豐富的可能。虛擬現實環境下視聽觸覺多通道人機交互有三個基本特點:首先是沉浸感。具有高逼真度、高沉浸感,可實時控制視聽觸覺多通道激勵信號。其次是交互性。構建及時的人機信息雙向交互機制,實現對大腦狀態的實時觀測與適當干預。最后是想象性。跨越時間和空間障礙,發揮人類智能無邊的想象力。通過虛擬現實作為新一代人機交互的媒介,多模態交互系統變得愈加豐富。

        早期的信息加工系統觀點認為,認知系統加工的信息是抽象的符號,即信息通過各種感覺器官從外界進入認知系統時從模態化的信息轉換成為統一的模態信息。而多模態交互系統,旨在通過使用基于識別的技術,支持對自然發生的人類語言和行為形式的識別。近期的研究表明,人類在表征外部世界時往往依賴于各自感覺器官的模態化信息。正如多感覺整合(multisensory integration,MSI)所指,個體將來自不同感覺通道(視覺、聽覺、觸覺等)的信息相互作用并整合為統一的、連貫的和有意義的知覺過程。多感覺整合能彌補單通道信息的匱乏及不確定性,有助于人們更迅速而準確地進行認知判斷。例如,冗余信號效應(redundant signals effect,RSE)相比單通道(視覺或聽覺)刺激,個體對同時呈現的多感覺通道刺激的反應更快速更準確。

        在多模態交互過程中,如何將視、聽、觸、嗅等多通道信息完美整合起來,并完成機器與人的自然交互一直是人機交互界面設計的難題。隨著當前人機交互所涉及的模態越來越豐富,各個模態存在相互影響,也存在相互分離,視聽整合理論觀點在人機交互領域的重要性也日益凸顯。

        視聽整合(audiovisual integration)是一種典型的多感覺整合過程,在與他人面對面交流時,個體會整合視覺和聽覺信息以更好地進行信息交流。McGurk效應是一種典型的視聽整合現象,指的是特定發音的視覺刺激與特定發音的聽覺刺激同時呈現時,個體可能產生全新感知的現象(例如,“ga”的唇部發音動作和“ba”的聽覺刺激同時呈現,人們可能會感知到另一個全新的音節“da”),這表明視覺信息會對聽覺感知產生影響。研究者們認為,McGurk效應是視聽整合的結果,因此,McGurk效應發生率可以作為視聽整合強弱的指標。

        以往有關視聽整合腦機制的研究發現,顳上溝(superior temporal sulcus,STS)在語音和非語音的高階段視聽整合處理中具有重要作用,理解人類在視聽整合過程中大腦的運行機制,更加有利于人機交互設計與發展。尤其是對于殘障人士(如無法操作鼠標)用戶,結合視聽整合的掃描輸入大大提升了該用戶群體的體驗度與參與度,降低用戶的認知負荷,提升人機交互的真實感、沉浸感。

        試想一下在未來的社會中,人類在工作與生活中,只需要一個手勢、一個眼神乃至一個想法就可以實現自己需要的操作。這樣的人與機間的“自然交互”,就像人與人之間的對話一般,而通過按鍵、旋鈕、觸控屏等輸入界面操作的傳統方式,或許將會在未來的自然交互中被淘汰。2017年11月,中國科技部宣布了首批國家新一代智能開放創新平臺名單:依托百度公司建設自動駕駛國家新一代人工智能開放創新平臺,依托阿里云公司建設城市大腦國家新一代人工智能開放創新平臺,依托騰訊公司建設醫療影像國家新一代人工智能開放創新平臺,依托科大訊飛公司建設智能語音國家新一代人工智能開放創新平臺。如今,我們已經可以看到非常成熟的以語音交互、面孔識別和動作控制為主的交互方式,科大訊飛的語音單通道識別率甚至已經達到90%。阿里未來酒店中精準的面孔識別技術讓客戶僅憑刷臉就可以享受所有服務,不用再攜帶房卡以及身份證件。

        人類所接收的信息中有97%是來自視覺和聽覺的,視覺和聽覺作為人類最主要的感知通道,總是不斷地接受外界復雜環境的刺激輸入。真實世界交互往往是多模態的交互,人和人之間有語言交流、眼神交流,也會有身體姿態的表現,由于這些感覺噪音的存在,我們的大腦會將視聽線索進行整合來避免單通道信息的不確定性。視聽整合中,聽覺通道提供了更好的時間分辨率,視覺通道提供了更好的空間分辨率,當兩者產生整合時,會提供比聽覺或視覺通道更大的時間和空間分辨率。未來的人機交互可立足于此,以更貼近人—人之間自然交互的行為特征作為用戶界面的設計原則。

        (作者單位:西北師范大學心理學院、甘肅省行為與心理健康重點實驗室)

      作者簡介

      姓名:周愛保 田喆 謝珮 工作單位:西北師范大學心理學院、甘肅省行為與心理健康重點實驗室

      轉載請注明來源:中國社會科學網 (責編:馬云飛)
      W020180116412817190956.jpg
      用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
       驗證碼 
      所有評論僅代表網友意見
      最新發表的評論0條,總共0 查看全部評論

      回到頻道首頁
      QQ圖片20180105134100.jpg
      jrtt.jpg
      wxgzh.jpg
      777.jpg
      內文頁廣告3(手機版).jpg
      中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
      看片在线看免费视频在线观看