光场相机的技术原理.docx
1、什么是光场?在人类的五大感知途径中,视觉占据了70%80%的信息来源;而大脑有大约50%的能力都用于处理视觉信息11).借助视觉,我们能准确抓取杯子,能在行走中快速躲避障碍物,能自如地驾驶汽车,能完成豆杂的装配工作.从日觉行为到餐杂操作都高度依赖于我们的视觉感知.然而,现有的图像采集和显示丢失了多个维度的视觉信息.这迫使我们只能通过二维"窗口"去观察三维世界.例如医生借助单摄像头内疏镰进行腹腔手术时,因无法判断肿瘤的深度位笛,从而需要从多个角度多次观察才能缓慢地下刀切割.从光场成像的角度可以解释为:因为缺乏双目视差,只能依靠移动视差来产生立体视觉。再例如远程机械操作人员通过观看监视器平面图像进行机械遥控操作时,操作的准确性和效率都远远低于现场操作.人眼能看见世界中的物体是因为人眼接收了物体发出的光携主动或被动发光),而光场就是三维世界中光线集合的完备表示,"1.ightFiekT这一术语最早出现在AIeXanderGerShUn于1936年在莫斯科发表的一簸经典文章中,后来由美国M1.T的ParryMoon和GregoryTimoshenko在1939年朋译为英文2。但Gershun提出的光场”概念主要是指空间中光的辐射可以表示为关于空间位笆的三维向量,这与当前“计算成像"、"裸眼3D"等技术中提及的光场不是同一个概念.学术界普遍认为ParryMoon在1981年提出的"PhoticFie1.d"3才是当前学术界所研究的"光场",随后,光场技术受到MIT、Stanford等一些顶级研究机构的关注,其理论逐步得到完善,多位相关领域学者著书立作逐步将光场技术形成统一的理论体系,尤其是在光场的采集4和3D显示5,6两个方面。欧美等部分商校还开设了专门的课程计第摄像学(Computationa1.Photography).如图1所示,人眼位于三维世界中不同的位笆进行观察所看到的图像不同,用(X,y,z/示人眼在三维空间中的位置坐标.光线可以从不同的角度进入人眼,用(8,)表示进入人眼光线的水平夹角和垂直夹角,每条光线具有不同的颜色和亮度,可以用光线的波长()来统一表示.进入人眼的光线随着时间(t)的推移会发生变化.因此三维世界中的光线可以表示为7个维度的全光函数(P1.enopticFunction,P1.en-前缀具有"全能的、万金油"的意思)7.P(×,y,Z1,入,t)图1.7D全光函数示意图上述光场的描述是以人眼为中心。光路是可逆的,因此光场也可以以物体为中心等效的描述.与“光场”相类似的另一个概念是"反射场(Ref1.ectanceFie1.d)".如图2所示,物体表面发光点的位置可以用(X,y,z)三个维度来表示;对于物体表面的一个发光点,息是向180度半球范围内发光,其发光方向可以用水平角度和垂直角度(,)来表示;发出光线的波长表示为(入);物体表面的光线随看时间(t)的推移会发生变化.同理,反射场可以等效表示为7维函数,但其中的维度却表示不同的意义.图2.7D反射场示意图对比光场与反射场可以发现:光场与反射场都可以用7个维度来表征,光场是以人眼为中心描述空间中所有的光线,反射场是以物体表面发光点为中心描述空间中所有的光线.光场所描述的光线集合与反射场所描述的光线集合是完全一致的.换句话说,光场中的任一条光线都可以在反射场中找到.2.为什么要研究光场?【从光场采集的角度来看】以自动驾驶为例,首先需要通过多种传感器去"感知"外界信息,然后通过类脑运算进行“决策”,最后将决策以机械结构为载体进行"执行”.现阶段人工智能的发展更倾向于"类脑"的研究,即如何使计算机具有人胞类似的决策能力.然而却忽略了”眼瞪“作为一种信息感知入口的事要性.设想一个人非常"聪明”但是视力有障碍,那么他将无法自如的驾驶汽车.而自动驾驶正面临若类似的问题.如果摄像机能采集到7个维度所有的信息,那么就能保证视觉给入信息的完备性,而"聪明"的大脑才有可能发挥到极致水平。研究光场采集将有助于机器看到更多维度的视觉信息.【从光场的显示角度来看】以1.CD/O1.ED显示屏为例,显示媒介只能呈现光场中(X,y,At)四个维度的信息,而丢失了其他三个维度的信息.在海陆空军事沙盘、远程手术等高度依敕3D视觉的场景中,传统的2D显示媒介完全不能达到期里的效果.实现类似阿凡达中的全息3D显示,是人类长久以来的一个梦想。当光场显示的角度分辨率和视点图像分辨率足够高时可以等效为动态数字彩色全息.研究光场显示将有助于人类看到更多维度的视觉信息.从1826全世界第一台相机诞生8至今已经有近两百年历史,但其成像原理仍然没有摆脱小孔成像模型.在介绍小孔成像模型之前,先吞吞如果直接用成像传感器(e.g.CCD)采集图像会发生什么事呢?如图3所示,物体表面A.B.C三点都在向半球180度范围内发出光线,对于CCD上的感光像素A'会同时接收到来自A.B、C三点的光线,因此A点的像素值近似为物体表面上A、B、C三点的平均值.类似的情况也会发生在CCD上的B'和C'点的像素.因此,如果把相机上的领头去掉,那么拍摄的图片将是堞声图像.如果在CCD之前加一个小孔,那么就能正常成像了,如图4所示.CCD上A'点只接收到来自物体表面A点的光线.类似的,CCD上B'和C'点也相应只接收到物体表面B点和C的点光线.因此,在CCD上可以成倒立的像。图4.小孔成像实际的相机并没有采用如图4中的理想小孔成像模型,因为小孔直径较小会导致通光亮非常小,信噪比非常低,成像传感器无法采集到有效的信号;如果小孔直径足够小,当与光波长相当时还会产生衍射现象。而小孔直径过大会导致成像模棉.现代的成像设备用透镜来替代小孔,从而既能保证足够的通光华,又避免了成像模糊.如图5所示,物体表面A点在一定角度范围内发出的光线经过透镜聚焦在成像传感器A1点,并对该角度范围内所有光线进行积分,积分结果作为A点像素值.这大大增加了成像的信噪比,但同时也将A点在该角度范围内各方向的光线耦合在一起.图5.透镜小孔成像小孔成像模型是光场成像的一种降维形式,只采集了(X,y,入,t)四个维度的信息.RGB-D相机多了一个维度信息(X,y,z,入,t).相比全光函数,其主要丢失的维度信息是光线的方向信息.(8),缺失的维度信息造成了现有成像/呈像设备普遍存在的一系列问题.在图像采集方面,可以通过调节焦距来选择聚焦平面,然而无论如何调节都只能确保一个平面清淅成像,而太近或太远的物体都会成像模阍,这给大场景下的AI识别任务造成了极度的挑战.在海染显示方面,由于(,)维度信息的缺失会引起渲染物体缺乏各向异性的光线,从而显得不够逼真.好莱坞电影大片中渲染的逼真人物大多采用了光场/反射场这一技术才得以使得各种科幻的飞禽走兽能栩栩如生.3、光场4D参数化根据7D全光函数的描述,如果有一个体积可以忽略不计的小球能够记录从不同角度穿过该小球的所有光线的波长,把该小球放爸在某个有限空间中所有可以达到的位爸并记录光线波长,那么就可以得到这个有限空间中某一时刻所有光线的集合.在不同时刻歪豆上述过程,就可以实现7D全函数的完备采集.Goog1.eDaydream平台Pau1.Debevec团队在Steam平台上推出的WeTo1.ightFieIdJ就是采用了类似的思想实现的.然而,采集的数据量巨大.按照当前的计算机技术水平,难以对7D光场这么庞大的数据进行实时处理和传输。因此有必要对7D光场进行简化降维.如图6所示美国斯坦福大学的MarcIeVoy将全光函数简化降维,提出(u,v,s,t)4D光场模型9.1.evoy假设了两个不共面的平面(u,v)和(s,t),如果一条光线与这两个平面各有一个交点,则该光线可以用这两个交点唯一表示.1.evoy提出的光场4D模型有一个至要的前提假设:在沿光线传播方向上的任意位置采集到的光线是一样的。换句话说,假设任意一条光线在传播的过程中光强不发生衰减且波长不变.考虑到日常生活中光线从场景表面到人眼的传播距离非甫有限.光线在空气中的衰避微乎其微,上述1.eVoy提出的银设完全合理.1.eVoy提出的光场4D模型并不能完备地描述三维空间中所有的光线,与(u.v)或(s,t)平面所平行的光线就不能被该4D模型所表示,例如图6中红色标示的光线.尽管1.evoy提出的4D模型不能完备描述三维空间中所有的光线,但可以完备描述人眼接收到的光线.因为当光线与人眼前视方向垂直时,该光线不会进入人眼.因此,这部分光线并不影响人眼视觉成像.1.evoy提出的4D模型既降低了表示光场所需的维度,同时又能完备表示人眼成像所需要的全部光线.光场4D模型得到了学术界的广泛认可,关于光场的大量研究都是在此基础上展开.图6.4D光场模型4D光场模型具有可逆性,既能表示光场采集,又能表示光场显示.如图7所示,对于光场采集模型,右侧物体发出的光线经过(S,t)和(u,v)平面的4D参数化表示,被记录成4D光场.对于光场显示模型,经过(u.v)和(s,t)平面的调制可以模拟出左侧物体表面的光线,从而使人眼"看见"并不存在的物体.图7.4D光场模型的可逆性如图8所示,物体表面A、B、C三点发出的光线首先到达(u,v浮面,假设(u,v)平面上有三个小孔h1.、h2、h3,则A、B、C三点发出的光线经三个小孔分别到达(s,t)平面.A、B、C三点在半球范围内三个不同方向的光线被同时记录下来,例如A点三个方向的光线分别被($,t)平面上A3'、B3'、C3'记录。如果(u,v)平面上小孔数最更多,且(s,t)平面上的像素足够至集,则可以采集到空间中更多方向的光线.需要说明的是,图8中展示的是(u,v)(s,t)光场采集模型在垂宜方向上的切面图,实际上可以采集到A、B、C三点9个不同方向(3x3)的光线。图8.4D光场采集空间光线示怠图图像分辨率和FOV(Fie1.dOfView)是传统相机成像性能的主要指标.衡量4D光场的指标不仅有图像分辨率和FOV,还有角度分辨率和FOP(Fie1.dOfPara1.1.ax)。图9展示了基于微透镜阵列的光场相机的光路示意图,物体表面发出的光战进入相机光圈,然后被解福和并分别被记录下来.以B点为例,发光点B在半球范圉内发出各向异性的光线,但并不是所有的光线都进入相机光圈,只有一定角度内的光线被成功采集,被光场相机采集到的光线的角度范围决定了能够观察的最大视差范圉,我们记这个角度为F0P.换句话说,图9中光场相机只能采集到B点FOP角度范围内的光线.但FOP的大小隔若发光点与光场相机的距离远近而不同,因此通常采用基线的长度来衡员FOP的大小,图9中主镜头的光度直径等效为基线长度.图9中B点在FoP角度范围内的光线被微透镜分成4x4束光线,光场相机的角度分辨率即为4x4,光场相机的角度分辨率表征了一个发光点在FOP角度范围内的光线被渤散化的程度,而基于小孔成像模型相机的角度分辨率始终为1x1。光场的视点图像分辨率同样表征了被采集场景表面离散化程度,成像传感器分辨率除以角度分辨率即为视点图像分辨率.图9.透镜阵列4D光场的图像分辨率和角度分辨率基于相机阵列的光场相机同样可以用视点图像分辨率、角度分辨率、FoV、FOP四个参数来衡量光场相机的各方面性能。如图10所示为4x4相机阵列,B点半球范围内发出的光线中FOP角度范围内的光线被相机阵列分成4x4束并分别被采集。相机的个数4x4即为角度分辨率,单个相机成像传感器的分辨率即为视点图像分辨率.所有相机FOV的交集可以等效为光场相机的FoV.基于相机阵列的光场相机的基线长度为两端相机光心之间的距寓.一般而言,基于相机阵列的光场相机比基于微透跪阵列的光场相机具有更长的基线也