从离轴光学到波导技术:详解 AR 显示的过去和未来 雷锋网公开课

时间: 2024-08-02 18:18:30 |   作者: 爱游戏官方登录

  • 方案介绍

  ,在百度首席科学家吴恩达看来,AR(增强现实)的核心在于人工智能,这并没有错,要增强现实首先要看懂现实,并根据现实提供信息,这些过程都需要人工智能技术。

  但 AR 之所以为 AR,也是因它的信息展现方式——在现实的基础上叠加虚拟信息,而这需要一种未来式的显示技术,类似《少数派报告》阿汤哥凌空操作的那种。虽然在手机上也能轻松实现 AR,但这种 2D 小屏幕显然没法真正说服许多用户这是所谓的 AR。

  许多公司都曾尝试打造这样的显示媒介,而迄今被尝试最多的是名为光波导的显示技术,可以说这是 AR 显示领域最热的技术之一。

  但这些产品目前还没有真正开拓出一个大市场,原因有很多,但显示技术不够成熟也是一方面。使用了这项技术的 HoloLens 可视角只有 40 度,但远没到沉浸感的水平;而且画面的质量(亮度、颜色等)都离 IPS 或 AMOLED 还差很远。

  到底什么是波导光学?它有什么优劣?它处于怎样的发展状态?雷锋网邀请了国内专门干波导光学显示技术研发的灵犀微光技术合伙人王耀彰来解答这些疑问。

  王耀彰,北京灵犀微光技术合伙人;毕业于北京大学物理学院,曾在北京大学量子电子学研究所从事飞秒光梳光频标的项目工作,后参与组建灵犀 AR 技术团队,灵犀 AR 在其成立两年多的时间里,在国内首次完成阵列波导 AR 光学模组并小批量投产,在增强现实光学技术方面处于世界先进水平。

  大家好,这里是灵犀 AR 主题课堂《AR 显示的未来:详解波导技术》。我是来自灵犀 AR 的王耀彰,很荣幸有机会在这里和大家伙儿一起来分享我对当前 AR 领域技术层面的心得体会和现在炙手可热的波导技术的理解。

  接下来的内容将从增强现实总体概念切入,从技术的视角介绍视觉 AR 设备的形成和发展,最终讲述波导技术当前的进展和其所面临的机遇和挑战。我希望可以从科普的角度来给大家讲一些平时非常容易混淆的概念和技术门槛较高的内容,有讲得不对的地方还请各位同行指正!

  AR 的概念现在被大众炒得很广泛,首先带着大家理一下 AR 的概念和现在的技术划分。AR 即 Augment Reality,也就是增强现实技术。所谓增强,就是在真实世界的信息上叠加虚拟的信息,然后通过人类能接受的方式传递给自身,包括视觉、听觉、味觉、触觉等感官,辅助人类的感官去接收本来无法轻易地从现实世界中获取的信息,同时做到实时交互。通俗地讲,是通过计算机来武装人自身,提供更多的信息和手段去处理周围的事情,这是一个比较泛的概念。

  AR 技术所强调的实时信息计算和交互的方式并不局限,但作为一项新技术的开创者和先驱,当然要从最直观最现实的角度切入,最直观的角度是什么呢?实际上的意思就是我们正真看到的东西,视觉上的增强现实。也就是当今炒得火热的 AR 显示设备和各种 AR 显示软件。

  AR 显示技术的最根本目的是实现增强现实技术中的视觉体验,让我们正真看到一个被处理过的世界。同事的脑袋上空漂浮着心情签名、出租车开过来的时候看到上面写着打车人的电话尾号......怎么样处理这些“叠加”成为 AR 显示技术的关键所在。

  叠加过程在整个信息处理过程中所在的位置又把当前的 AR 显示技术分为两个技术领域:

  视频叠加,即在计算机的预处理过程中将信息叠加在摄像头的实时画面中,展现给观察者的是处理过的视频流。

  感官叠加,即设备投影的视频是不包含现实世界的画面的,需要观察者在观察的过程中直接在视觉层面将二者融合。

  视频叠加并不是新的技术,而是在原有的传统显示设备上做了一些 AR 应用,优化算法以逼近实时显示,但其实摄像头采集的画面和眼镜直接看到的还是有很多区别的。现实环境中的位置经过 2D 采集后会有很大的畸变,毕竟这是对信息进行了降维处理,若能把屏幕相同位置替换成透明玻璃,就会发现屏幕上显示的茶杯的位置并不一定是茶杯的真实位置。这些可能会在交互方面产生一定的影响,但却并不影响单向的信息采集和处理,就像 Pokemon Go 和扫 AR 红包之类的应用,在这种方式下实现得就很好。

  视频叠加易于实现,但说到底它并不依赖眼睛真实地去看外界的事物,因此它只是一台有着实时外部监控画面显示的 VR 设备。有时候被引入新概念称作 MR(Mixed Reality),形式大于意义罢了。

  感官叠加在理想情形下能解决视频叠加的失真问题,这在交互方面的感觉会有很大的提升。这些优点让感官叠加的 AR 显示技术得以应用在头戴式显示设备上,真实而安全。从而这也是未来 AR 技术的最重要的走向。当然这里的技术门槛也是我们应该去面对的。

  从光学上分析头戴式 AR 显示技术的需求:叠加的信息,也就是画面,画面的每一束光线需要被射入眼睛,而这些光线的反向延长线在观察者前方汇合是我们看到的虚像的像点,像点的集合成为我们正真看到的画面。在此同时,同样的方向上,现实世界的光线也需要同时射入观察者的眼镜。

  再从显示设备上进行审视,我们把显示设备罩在眼睛前面的部分称作镜片,在镜片上显示区域的每一个点,都同时有内部的叠加信息的光线和外部的现实世界的光线经过它,内部叠加的信息在这个点上是被反射进入人眼的,而外部现实世界的光线是经过折射——通俗地,可以叫穿透——进入人眼的。

  有的光线需要反射回去,有的光线需要透射过去,看起来需要做一些特别的东西来应对这种需求,用技术的语言描述,就是要求我们在使用的过程中对光线有一定的选择性过滤。恰好在光学研究中有这样一种手段,对某些表面做一些特殊的处理,就是我们经常讲的,镀上一些特殊的膜层,然后应用光的偏振属性来把不同的光线区分开来。这里提到的光的偏振是物理学里的老生常谈,对于领域外的朋友们,我这里简单做一下科普。

  光可以被认为是特殊频率段的一种电磁波,所谓波,是用来代指规律性的振动的传递,就像海浪一样一上一下慢慢远去,而一上一下的振动就表示它其实是有方向性的。振动的方向总是和波传递的方向垂直。形象地去想像向前传递的一列波,它的振动方向既可以上下,又可以左右,或者左上右下,或者右上左下,也即是说在垂直于向前的平面上,随便什么方向都可以。

  而我们常见的太阳光,是所有方向的振动分布均匀的一种光,我们把它叫做自然光。而各个方向分布不均匀的,我们把它叫做偏振光。偏振的属性虽然看不见摸不着,但是它却非常有用,因为不同偏振属性的光在同一种介质表面传递的效果是截然不同的。光学上经常会用到一种叫偏振分光棱镜的东西来把两种光区分开来,

  回到刚刚说的选择性过滤中的特殊膜层,在光学实验中,我们通常会把这种膜层叫做偏振分光器,通常简称为 PBS (polarized beam splitter),最常见的 PBS 是以立方体玻璃块的形式出现的,所以也叫做偏振分光棱镜。这也是现在可以听到频率比较高的一个光学术语。

  类似技术的共同点是:我们可以看到眼镜的侧面伸出一块玻璃块到眼睛前面的位置,用于把侧面的微显示器投影的信息通过偏振分光膜反射到人眼中,同时外界光线的一半 (分光棱镜通常会把自然光对半分开,一半反射、一半透射) 也会以同样的光路进入人眼,这样的话,只要显示的信息内容和位置恰当,就会有和真实世界的东西处在同一个空间位置的感觉,也就是通常所说的叠加感。

  根据我们刚才的分析,如果在 AR 眼镜中使用偏振分光棱镜的技术,则必然会有一个方方的玻璃块摆在我们的眼前,这便是第一代 AR 眼镜最明显的一个缺点: 外观的不友好。然而更严重的问题是,对于立方体的 PBS 而言,如果我们想要更大的显示区域,眼镜片(说成眼镜块可能更好一些)的厚度是和它的高和宽几乎一样,也就是说,如果我们想要一个 2cm×2cm 的显示区域,我们就不得不接受一块厚度至少 2cm 的玻璃块,显然大家是不会真的这么做的。

  因此,棱镜技术通常会把显示区域的尺寸限制在大约 1cm×1cm 的范围内。另一方面,偏振分光膜对所选择的光线角度的要求很高,范围外的光线是不具有好的分光效果的,所以系统中的光线的角度不能有太大的范围,一般会把最终的视角控制在 15°上下的范围。

  视野范围和视场角的大小是棱镜技术对 AR 显示效果最大的限制。因此我们会觉得 Google Glass 只能在眼镜的角落位置显示一小块屏幕,看久了还会斜眼。

  为了削减偏振分光棱镜技术的局限性带来的影响。光学设计师们在新的设计中使用了传说中的自由曲面技术。

  刚刚提到偏振分光膜对较大角度方位的光线的选择效果的一致性较差,是因为 PBS 在实验室中的应用只是为了应对频率单一的激光的,而对于画面的传输则是十分粗犷的一个器具,因为我们看到的画面至少各种颜色都是齐全的,画面每个位置都要求是清晰的,从光学上讲,也就是说既要适应宽的频率谱,又要有较大的近轴范围,而立方体的偏振分光棱镜的这两个参数都比较差。

  可能 Google Glass 真的很着急第一个推出自己的眼镜,所以才急急忙忙出了这么一款在技术上看还并非最成熟的产品。那么如果在设计的过程中通过精密的计算,把原本的立方体表面做成弯曲的表面,甚至膜层也做成弯曲的,最大程度地利用每一个位置的分光效果,就可以更大程度地利用分光膜层,既能扩大显示的范围,而不产生体积上夸张的扩大,同时也能增大视场角的范围。

  以 EPSON 的眼镜为代表,自由曲面技术把视场角的范围提升到了 25°左右的范围,但厚度依旧无法太小,这就意味着体积和重量对产品体验的制约,和接下来要隆重推出的波导技术相比,只能说是瘦死的骆驼比马大,可能这句也不太合适,因为在这里我想表扬的是马。

  这里需要插入一个 AR 界的古董技术,所谓离轴光学的头盔显示技术,至于什么是离轴光学,一下也说不明白,大家姑且理解成“光路走得很开,离开轴都不知道跑到哪里去了,因为我们并不担心它占地方”的光学技术。

  这个技术事实上是以自由曲面的设计,再加上对偏振分光器的简单化——就是把原先的玻璃块,缩减成一层半透明的罩子。优势在于的确能很大程度上地扩大视场角,以 Meta2 为例,它的效果简直相当于一块 10cm 厚的 Google Glass 镜片,说出来吓死人。虽然已经极大地简化了偏振分光棱镜技术,视场角做得那么大也不容易,但还是不能逃脱被人嫌弃太大的命运,都快成了一个透明盖子的 VR 头盔了。

  刚才我还提到了古董二字,这是因为这项技术早在好多年前就用在军方的飞行员头盔上了。好在飞行员并不在意头上有个大玻璃罩,因为本身他们就得戴头盔,也不在乎上面再搞点别的幺蛾子。

  啊!终于轮到波导技术了,并不是我的讲稿拖沓,只是波导技术是以所有的这些技术作为铺垫而在关键技术点上做出创新而产生的新的技术,在实际发展过程中也是以这样的技术逻辑产生的。

  先来看一下我们经常看到的波导镜片的谍照,仔细看的话能够发现,波导镜片中间的位置有一排栅格状的条条,阵列排布,因此,我们通常管这种波导技术叫阵列波导技术。至于为什么有波导两个字,一会儿再讲。

  阵列波导技术也是灵犀 AR 当前主要推动的技术。载有图像信息的光线,经过波导片的传送,再从阵列区域前几代光学方案所面临的共同问题有两个:镜片的显示区域大小和视场角大小。

  波导技术在镜片显示区域上已经做到了极致,因为 AR 眼镜的终极目标不就是做成普通眼镜的样子么! 灵犀 AR 的阵列波导镜片做到了 1.7mm 的厚度,透光效果看上去几乎和普通眼镜无差异。显示区域不再受限于镜片厚度,这样便可以让观察者的眼睛有一个比较大的活动空间。

  在视场角方面,灵犀 AR 的阵列波导镜片已经做到了 36° 视场角,而波导技术本身的理论视场角范围在 30°到 60°的区间内。

  到底是如何做到这些呢?阵列的膜层其实也是从横向上扩张了显示区域,改变了原来的单一的偏振分光膜的模式。而同时每一层膜又经过了详细的设计和数据模拟,最终的效果并不是简单的偏振分光,而是针对每一束(位置和方向)不同的光线都有唯一的选择性,最终经过反射进入观察者的眼睛里,精密的计算和精确的制造高效地利用了镜片的每一块位置,并且精密地还原显示器显示的图像,在画面的均匀性和画面整体质量上有着强有力的保证。

  另一方面,先前的偏振分光棱镜技术的厚度受到限制,也是因为光线平行于镜片传输过程中需要一定的镜片厚度作为光线宽度的保证,允许所有的光线能顺利通过。而在波导技术中,却不用担心这个问题,因为波导技术利用了镜片的两个表面,镜片的内壁是可以让光线进行反射的,这样光线在镜片内壁中来回反射,跌跌撞撞最终打到相应的膜层上,反射到观察者的眼睛里。这样就减少了对镜片厚度的要求。

  可能有人会想,光线在打到镜片内壁的时候不会冲出来么?这是个好问题,不过幸好,光在介质中传播还有一种特殊情形,就是传说中的全反射。简单地说,就是从玻璃或者塑料这些比空气折射率大的介质(我们叫光密介质)中以一个比较大的角度(接行于表面)打到内壁上的光线,全部会经过反射继续传播。就像是我们在潜到水下的时候,从某些角度去看水面是看不到水面以上的东西的。这种全反射的方式在平板内部“碰壁”式传播的过程就叫波导传输,平板介质相当于一个传导波的工具,故名“波导”(waveguide)。

  波导因其可以几乎无损耗地传播光线,因此在生活中的应用还有很多,比如说我们用在宽带网传输的光纤,和许多用作装饰的星星点点的灯具。说到这里,再次给大家介绍一下灵犀 AR 的第二代原型机 Sapphire PT2,搭载着灵犀 AR 自 主研发的光学引擎,36°视场角,分辨率 1280×720,在交互方面,使用了基于深度摄像头的手势识别和语音识别,以及基于摄像头和姿态传感器的头部跟踪。

  回来再讲讲我们的未来。从这样一个角度来看波导方案,就会觉得其实波导片本身是作为一种光线的横向传输方式存在的,也就是从电子显示屏上透射出来的光线,让其神不知鬼不觉地被转运,然后从镜片中间带区域展现出来。这样我们其实可以把波导方案从流程上拆分成 三个部分:耦入部分、传输部分、耦出部分。即:电子显示屏的光线通过某种方式进入到波导,经过传输,再以某种方式导出波导,进入观察者的眼睛。

  这样的话我们把波导技术作为一种横向传输手段,如果我们能找到其他的方式来做这里讲的耦入和耦出,不就有新的方案了么! 光学上经常用到的光线选择处理手段除了广为流传的偏振分光膜以外,还有一种实验室产品,那就是光栅。

  光栅是在波导的表面而非内部做一些处理,是另外一种膜层,它用光的干涉来处理光线的偏折问题,对光线的频率上的纯度要求很高,光学实验室本身是用单色的激光来制作和使用光栅的,目前得以实现的基本上都是只对单色光有特别响应的光栅,也就是说,真的用光栅做显示的话,要不就一种颜色,要不就用三片镜片摞在一起,和 Hololens 一 样,其实厚度也不小。

  经过光栅处理的光线,我们能看到的视场角还是比较受限制的,目前所实现的全息光栅波导的视场角都没有超过 30°的。光栅技术虽然还不很成熟,但其发展的前景未来不可小觑。 不过即便是单色的光栅,造价也同样不菲,制造工艺上也有很多麻烦的环节需要一步步去克 服,别问我为什么知道,透露太多会被老板拔网线的。

  好的,今天就讲到这里,从 AR 概念的产生到业界一步步铺开技术的道路,最终到高大上的波导技术,我只是给大家做了一个简单地介绍,其实每一个环节再拿出来,都还有许多可以讲好多个晚上的东西。希望以后再有机会可以和大家分享。

  王耀彰:(搬运自本人在知乎的回答)对于显示而言,光学当然是核心技术,但是是否是难题,则需要发展地去看问题。从当前的技术的阶段性来看,VR和AR是存在于不同层面上的:

  展示画片用的西洋镜作为简单粗暴的近眼显示设备,在上个世纪初就开始盛行了,这和当前市面上的VR盒子从光学上而言没有本质上的区别,而这种光学技术从伽利略造望远镜的时候也就产生了。直到现在智能平台的出现能让画片大小的区域显示所有自己想要的内容,便有了如今的VR设备的体验。而智能平台的加入除了能够在显示内容上随心所欲意外,还为我们展示了不同的交互方式,让我们可以全身心融入虚拟的场景。

  AR设备的近眼显示真正做到便携级别也只有等到Google Glass面世了(飞行员头盔那种离眼睛太远的不算……)在Google Glass同类产品进而试图瓜分市场的过程中,大家发现AR光学技术真的处在一个几乎很原始的阶段,视觉效果和VR设备的体验不可同日而语,而像科幻剧里面人们所展望的那种设备,则距离遥远。随后就出现了新的方案,在我认为是划时代的新的方案:Lumus为首的阵列波导、微软HoloLens牵头的全息波导。新技术的初始阶段,都会为工艺而烦恼,为什么Lumus迟迟不出量产机型,HoloLens的低出货量都快把产品推成了收藏品?就是因为光学技术在实际生产过程中还是需要做很多考证和试验的。

  有知乎网友提到反向工程,光学结构和电路设计不一样,并非所有的产品都能从最终形态反推出工艺过程的:Google Glass的方案中所使用的偏振分光棱镜,但凡是个光学实验室,都会用得到,其原理也比较简单,所以一时间雨后春笋一般出来各种仿制产品。但对于HoloLens的全息波导,三种颜色每一层都要经过特殊方向的激光来做曝光,在涂有特殊材料的镜片表面进行光学处理,最终形成所需要的全息光栅,过程中所使用的激光光强、中心频率、带宽、相干性,以及材料的配方、曝光时间、曝光温度这些都是经过许多次光学实验获得的最优方案。这些参数都无法通过简单的光学分析来反推出来,通过成千上万次的实验寻找最佳参数的过程中的随机性也提升了技术研发的难度。

  总之,因为光学技术的门槛高低不同,VR已经早早地进入内容比拼的阶段,而AR则依旧在解决光学技术难题的道路上摸索前进。也许在不远的未来,AR光学技术被熟练地运用到近眼显示模块中,不管这些技术是否被大众所熟知,它都会是我们生活的一部分:像可口可乐一样,虽然百年以后我们还是不知道配方,但是我们仍然可以人手一瓶Open Happiness。

  2、全息光波导和半透膜光波导的差别是什么?灵犀的产品如何解决色差的问题?

  王耀彰:全息光波导和半透膜光波导(也就是我们刚才说的阵列光波导),差别是耦出的方式不一样。

  色差(或者说色散),首先显示器颜色要比较正,然后刚才也提到,不同的光线进行处理时对膜层的设计和仿真过程中,要尽量将色差(色散)降低到最小,到人眼不能分辨的地步,因为所有的光学系统都会有色差(色散)的问题。

  王耀彰:肯定比传统光学的一些加工技术会难很多,所以是一个需要克服的问题。我们目前已经有了一些量产的方案,预计年底之前会落地。

  4、对于AR技术来说,视场角是一个比较明显的缺陷,视场角偏小也是困扰用户的主要问题之一。请问这主要是哪些方面的原因所致?目前业内有没有一些有效的解决方案?

  王耀彰:前几代技术视场角偏小的原因还是因为光学设计本身是考虑近轴近似的,也就是说,离光轴近的光线还原度高,离光轴远的光线,就有可能出现质量上的差异。波导技术在设计计算方面绕过了近轴近似的问题,我们正真看到的阵列事实上就是为了保持不同方向的光线(大角度光线)的性状的一致性。

  5、不同的波长在波导内传播的全反射角不同,那么不同波长光程差不同,这个是波导固有的吧。而且想问下,为了做到不同的反射面不会因为不够平行而产生重影,平行度要达到秒级,分辨率越高越是如此,在这种情况下如何解决量产问题呢?

  王耀彰:全反射角是一个临界值,只要超出这个角度,就能全反射,所以是有区间上的很大交集的。

查看更多