你的位置:首页 > 业务导航 > 科学普及

赵沁平院士:虚拟现实技术方向与趋势

2017-7-6 9:34:12点击:


一、VR 主要技术方向 
1) VR 硬件
VR硬件包括显示设备、力触觉交互设备、专用芯片等。
VR显示设备直接影响了用户对于虚拟环境的感受。目前主要的VR 显示设备有头盔显示器、3D立体眼镜、真三维显示、全息和环幕等。头盔显示器(head-mounted display,HMD)是VR中最典型的显示设备[4]。一般而言,HMD上均安装有头部运动跟踪装置。用户佩戴上HMD 后,在其头部运动时,HMD可以计算出对应于用户当前姿态的虚拟对象的位姿并将其显示在HMD的屏幕上。HMD 的近期典型代表包括:1)谷歌于2014年6月推出的纸壳式眼镜Cardboard。这类设备内部没有计算平台和显示屏,使用时可将智能手机放入镜片后的托盘中,通过一对凸透镜将手机画面传送至双眼以提供三维观看效果,并通过手机内置螺旋仪检测头部转动以改变显示内容。此类设备成本低但效果一般。2)三星和OculusVR 于2014 年9 月联手设计的Gear VR。该类产品的内容输出和算法平台还是智能手机,但产品本身也内置了动作传感器,可以更精确地感知头部转动,因而比VR 眼镜的沉浸感更强。3)Oculus Rift和HTC Vive等设备将电脑作为主要的VR 内容运行和计算平台,可以实现六自由度的运动交互,沉浸体验大幅度提升,Sony Project Morpheus 则是以索尼PlayStation 为运行和计算平台。4)一体机头盔是传统的VR显示设备,集成了显示、计算、存储、交互等所有模块,其性能高,但体积大,价格偏高,典型代表是微软的HoloLens。
VR力触觉交互设备能够使参与者在虚拟环境中实现触觉和力感等视觉、听觉之外的感觉,目前的研究还处于初级阶段。东京大学研制出一种能像人类皮肤一样,感测出施加在表面上的力的大小和方向的新型传感器,据此可以开发出具有接近人类力觉的机器人手。2009年芬兰的Linjama等、2010年美国迪斯尼研究中心的Bau等、2012年NOKIA 实验室与剑桥大学等,分别利用静电力反馈研制出E- Sense、TeslaTouch、ET 等表面触觉反馈系统,能在触摸显示屏幕表面实现触觉纹理的再现。2013 年美国西北大学的Colgate 等研制了便携触觉再现终端TPaD Fire,在配备6500 mA·h 的电池情况下可连续工作超过5 h[5]。
此外,VR芯片平台已经成为国际著名芯片厂商的抢占热点。例如,AMD 的图形芯片部门Radeon Technologies Group 于2015年9月推出虚拟现实解决方案LiquidVR,它包含数据锁定、异步着色引擎、多GPU异步渲染等新功能,能够以更低的延迟实现更优质的画面,以提升VR 沉浸体验。NVIDIA于2015年11月发布了两款虚拟现实开发工具,包括面向游戏开发人员的Gameworks VR和面向设计人员的DesignWorks VR。这些工具可以加快立体渲染性能。高通于2015年12月发布了首款64 位四核CPU Snapdragon 820,其内部集成了新一代GPUAdreno 530,能够实时呈现立体摄像机拍摄的高清视频,可以促进头盔显示器等VR设备沉浸感体验的进一步提升。
2)  VR 内容
VR需要处理的数字化内容类型众多,按照不同处理阶段,可以划分为获取、理解、建模、呈现4个方面。
(1) 获取
VR内容的几何属性获取主要通过光学和立体视觉的方法。近期典型的光学方式是TOF(time-of-flight),其原理是依靠主动光照射到采集对象上,按照返回光线的先后顺序来测量对象的深度信息。该方法采集到的三维数据精度低,但是设备轻便、便宜。立体视差法是被动式方法的代表,根据三角测量原理,利用对应点的视差可以计算视野范围内的立体信息。这种方法模拟人的视觉方式,以2部位于不同位置的相机对同一目标拍摄2幅图像,得到一组“像对”。对于目标上的一个采样点,根据它在2幅图像中的像点和相机位置,计算它们的交会点坐标,就是采样点的空间坐标。立体视觉方法在无明显纹理或者重复性纹理的场景下,由于很难找到“像对”,具有较大的技术难度。
在表面属性获取主要通过不同光照和视点条件的图像获取物体表面属性,例如美国麻省理工大学和哥伦比亚大学的4D camera。它将场景的光线和物体进行分离,这样捕获的物体就是一个“裸物体”,不受捕获时的光线影响。目前主要研究难点和热点在于动态物体或半透明物的表面属性获取[6]。
在人体运动捕捉方面,较为成熟的技术多基于电动机械、电磁和特殊光学标志等,其中基于标志的系统(如ViconMX等)得到了普遍的应用,能获取精确的运动数据,但价格昂贵。近年来随着廉价数字摄像机、低成本体感传感器的普及,基于视频及少量传感器的无标志人体运动捕捉越来越成为研究热点。
(2) 分析
图像视频在人类所涉及的数据信息中所占比例越来越大,如何进行图像视频的语义分析与利用是重要的前沿问题。目前的研究主要包括视觉认知计算模型、特征的提取与表示、特征的融合与处理、特征与语义的关联等。但是,底层描述与高层语义之间不是简单的对应关系,具有语义的中高层特征至关重要,“语义鸿沟”依然是当前的研究难点。语音分析识别技术是让机器把语音转变为相应的文本或命令的技术,而且不同语种之间的语音-语音翻译将成为研究热点。在文本语义分析利用方面,分词、检索等已经达到可用,翻译、问答需求大,通用、高质量的自然语言处理系统仍然是长期目标。
随着深度学习、增强学习、自主学习、群智学习等方法技术的发展,这些技术往往与人类大脑在结构和机理等方面具有相似性。基于这些技术,近年来对文本、图像、视频、音频、三维模型等素材的分析与理解取得了较大进步,例如无监督条件下图像视频的语义分割与理解[7]、基于深度学习的三维模型部件级语义分割与理解[8]等,特别是在物体识别等部分领域已经达到甚至超过了人类的表现。随着计算机对图像、音频、视频等素材的分析能力的提升,根据用户的个性化需求,自动大规模建模生产在视、听、力、触、体、味等方面与真实世界类似的VR内容,已经不再是天方夜谭。
(3) 建模
VR内容的几何外形构建技术已较为成熟,数据驱动的三维构建与生成已经成为当前的研究热点,例如特征结构保持的三维模型编辑传播[9]、图像数据驱动的人体服装与室内三维场景演化生成[10,11]等。光场构建在动态环境和半透明物体等方面仍需要大量的进一步研究[12,13]。伴随着多核CPU 和GPGPU的发展,基于物理的自动化模拟正朝着更大规模、更多细节的实时模拟方面发展,已成为交互式VR技术的重要研究方向。角色肢体动作智能化生成、人脸动态表情识别与构建、虚拟角色智能行为等智能化建模技术,涉及自动控制、人工智能、生物力学、解剖学等交叉学科,得到了国内外的广泛关注与研究[14]。
目前VR 主要集中在虚拟环境与对象的固定拓扑几何建模和动力学物理建模。如何建立其可变拓扑几何模型和更为全面的物理模型,甚至建立可自我演化、具备一定“生命力”的智能模型,使得VR系统不仅在视觉上有更全面的逼真表达,而且在功能和环境/事件的动态演化、活体对象行为的智能化方面也有较为逼真的体现,是未来VR技术必须解决的关键问题。此外,现实世界包含了复杂、动态、多源、海量的数据。如何高效采集这些数据并对其进行自动化分析、实时建模,使VR 系统能真实表达瞬息万变的现实世界,与现实世界“同步”发展,是一个智能化建模问题,也是未来VR需要解决的另外一个关键问题。
(4) 呈现
随着三维信息数据量的不断增加,海量数据的逼真实时绘制技术成为重要研究方向,外存模型的组织与处理、并行绘制和GPU计算等成为研究的关注点。在普适硬件平台上展示超大规模复杂场景,特别是对具有逼真效果的场景、多种内容融合等仍是研究难点。
此外,增强现实(augmented reality,AR)是将计算机产生的虚拟对象融合到用户所观察的真实环境中,以拓展和增强用户对周围世界的感知能力[15]。与VR相比,AR与真实世界的联系并未切断,交互方式更加自然。事实上,将现实物理世界和虚拟世界实时合并混合,形成新的能够实时互动的可视环境,统称为混合现实(mixed reality,MR)。AR是MR一种典型代表。三维跟踪定位[16]是实现AR 的主要技术保证,尤其是高精度、无标志物跟踪定位更是研究中的难点。英国牛津大学采用SLAM技术结合并行运算实现了小范围未知场景下的实时跟踪定位;剑桥大学利用惯性传感器与视觉测量相融合的技术实现了户外场景(校园范围)的实时无标识跟踪定位;美国斯坦福大学利用GPS进行初始定位,结合图像快速检索技术,在手机上初步实现了户外增强现实导航功能;奥地利Graze University of Technology 用FAST 算子代替SIFT 特征提取算子,同时改进Ferns识别分类算法中树簇的大小,在手机上实现了10帧/s左右的无标识跟踪定位。
3) VR 交互
VR交互重点研究符合人类习惯的交互技术,以提高人对复杂信息的认知能力。传统人机交互主要通过鼠标、键盘及操纵杆等设备实现。多通道交互方式是以用户为中心,采用视觉、语音、姿势、表情等多通道,实现高效的人机交互。
智能语音交互技术包括语音识别、语音合成和语义理解。语音识别技术将用户输入的语音转化为相应的文本或命令,语音合成技术将文本转换成机器合成的语音,语义理解技术从语音识别输出的文本中获取语义信息从而理解用户的意图。2011 年,微软研究院通过引入深度神经网络,使得在特定语料库上的语音识别准确率得到了大幅提高,性能改善30%左右。近年来,基于数据库的语音合成方法成为研究热点,该方法的语音基元来自一个预先录下的庞大的语音数据库,合成语句的清晰度和自然度均有较大程度提高。
体感交互利用深度相机等对用户手和身体的运动进行跟踪,完成自然的人机交互。利用体感交互技术,人们可以很直接地使用肢体动作与周边装置或环境互动。2010年索尼推出新一代体感设备PlayStation Move,该设备不仅会辨识上下左右的动作,还会感应手腕的角度变化,无论是运动般的快速活动还是用笔绘画般纤细的动作都能重现。同年,微软也发表了全新体感设备Kinect,该设备同时使用激光和可见光摄像头来获取人体影像信息,捕捉人体3D全身影像,不受任何灯光环境限制,无需使用任何体感手柄,便可达到体感的效果[17]。2014年5月,美国Leap公司推出了一套体感运动控制系统Leap Motion,该系统可以追踪多个物体并识别手势,能够追踪到几毫米范围的动作,例如用户写字或画画等精准动作。
脑机接口技术的主要研究途径是通过在人脑(或动物脑)与外部设备间建立直接连接通道,使人直接通过脑来表达想法或操纵设备。脑机接口系统一般包括信号采集与记录、数据处理、外设与接口等部分。其中,信号采集与记录部分利用电极采集使用者的脑电信号,并对信号进行放大和滤波;数据处理部分利用特征提取、特征选择分类等,对脑电信号进行分类识别;外设与接口部分通过控制接口将逻辑控制信号转换成语义控制信号,通过设备控制器将语义控制信号转换成设备控制信号,通过显示装置产生执行思维任务的指示。目前绝大部分脑机接口研究仍处于实验室研究阶段,还有许多需要解决的问题。
眼动跟踪技术主要用于测量用户注视点或视线方向,可以作为一种替代鼠标和键盘的新型交互方式,例如Dasher 眼控打字系统等。2013 年初,韩国三星公司推出了基于这种思想的新型Galaxy S4智能手机,新增基于眼凝视追踪功能的眼控滚动功能,主要应用于网页浏览和电子书阅读等。
VR 主要发展趋势
新一代VR在建模与绘制方法、交互方式和系统构建方法等方面都提出了更高的需求。为了满足这些需求,近年来VR研究也取得了快速发展,表现出了一些新的特点和发展趋势。有关学者对这些特点进行总结,归纳为以下7个方面。
1)人机交互的适人化。构建适人化的和谐虚拟环境是VR的目标。实际上,头盔等设备虽然能够增强沉浸感,但在实际应用中效果并不好,并未达到沉浸交互的目的。采用人最为自然的视觉、听觉、触觉、自然语言等作为交互方式,会很好地提高VR的交互性。
2)计算平台的普适化。随着计算机技术的发展,计算已经无处不在,计算平台也发展为多种类型,从高端的大型机、桌面PC,发展到低端的各种手持式计算设备。在VR系统中加入这类设备并结合无线网络,能较好地满足实际使用中便携和移动的要求。
3)虚实场景的融合化。VR将现实环境的要素进行抽象,通过逼真绘制方法进行表现,但毕竟无法完全还原真实世界,因此将真实世界与虚拟世界有效融合具有研究和实际意义,AR就是这样一种技术。AR作为VR 的一个重要分支,不仅继承了VR的特点,而且其对真实场景的增强效果,在某些应用领域逐渐显示出比VR更明显的优势。
4) 场景数据的规模化。数据的规模化是大型VR应用的显著特点。通常而言,VR系统数据的规模化包括两方面的含义,一方面是分布式VR 系统中节点和实体数量的规模化,另一方面是建模与绘制过程中场景几何数据的规模化。规模化的数据即使在高端计算平台上也是需要研究的问题,而且智能化分析与处理也日益成为关注的问题。
5)环境信息的综合化。传统的VR 系统对自然环境的建模往往仅考虑地形几何数据,对大气、电磁等环境信息采用简化方式处理。为了更真实表现环境效果,需要考虑不同类型的数据,如地理、大气、海洋、空间电磁、生化等,并用不同的表现方式进行表现。
6)传输协议的标准化。在构建分布式VR系统的过程中,网络协议是研究与应用的一项重要内容。已有的对应国际标准均是基于专用的网络环境,所制定的传输协议也都是基于专用网络环境和资源预先分配这两大前提。随着在Internet上VR应用的开展,基于公网的标准化工作将得到更深入的研究和普及。
7) 领域模型的集成化。分布式VR 系统中各节点的软件需要根据具体的应用需求来研制,软件开发与维护工作量大。随着虚拟样机、体系模拟等的发展,需要快速根据应用的变化对各个分系统进行定制。因此,需要研究VR 系统的节点软件设计开发技术,使之能够满足快速适应应用的需要,同时减少开发与维护的工作量。

节选自科技导报(ID:STReview)    作者:赵沁平,周彬等

赵沁平:CCF会士,YOCSEF指导委员会专家,CCF王选奖获得者。北京航空航天大学教授,中国工程院院士,虚拟现实技术与系统国家重点实验室主任。长期从事计算机软件、虚拟现实技术等方向的科学技术研究。