全景视频的拍摄通常有三种方法:第一种是使用大曲度鱼眼镜的摄像机直接拍摄,这种方法最方便,但生成的全景视频分辨率低,几何失真严重,增加了后期图像处理的难度;第二种是用带有自旋转电机的摄像机——高速球拍摄,这种方法生成的全景视频会发生模糊,并且帧组之间几乎不可能是完全同步的;第三种,也是目前最常用的一种方式,用多台摄像机组成阵列联合拍摄,如采用四目、六目或八目摄像机拍摄,这种方法从理论上讲生成的全景视频效果最好,但对于摄像机的部署(摆放)却较为讲究。
视场(Field of Vision,FOV)交叉式摄像机阵列构建(FOV-Crossed Cameras Setup),是指摄像机群中每一台摄像机的视场都与其相邻摄像机的视场发生交错,通常情况将摄像机以一个点为圆心,分散均匀地放置在与圆心等半径的圆上;再由拍摄顶部和底部多台摄像机组成摄像机阵列,水平方向上,每台摄像机负责拍摄360°视域中的一个角度(角度取决于摄像机镜头的拍摄角度,同时角度也决定了摄像机的数量)。这样,多台摄像机同时拍摄,便可以将周围的全部视域采集下来。
视场平行式摄像机阵列构建(FOV-parallel Cameras Setup)与视域交叉的摄像机群部署类似,也是将摄像机以一个点为圆心,分散均匀地放置在与圆心等半径的圆上,再与拍摄顶部、拍摄底部的多台摄像机组成摄像机阵列。与其不同的是,每台摄像机的视场不再与相邻的摄像机的视场交叉而是相互平行,这种摄像机阵列的特点是没有重影区域,不需要用后视频图像处理来解决由重影区域带来的问题。但是在整个视场中却留下了数条无限长的盲区。减小摄像机之间的距离可以使盲区的宽度变窄,但这些盲区无法被消除,需对拍摄好的视频进一步图像处理。
要想画面对应的物理空间视域达到全包围的程度,就需要图像画面可以包含水平方向360°、垂直方向180°的视域。最为理想的投影模型为正方形投影。观众处于这样的6幅画面包围在中心,最终的视域范围同样可以达到水平360°、垂直180°,并且画面是绝对不存在任何扭曲变形的。然而,在实际拍摄过程中无论是摄像机所能达到的视场角度,还是支撑摄像机阵列的支架结构设计与制作,都无法达到理想模型的参数要求。细小的机械误差都可能在最终沉浸式图像呈现上留下明显的瑕疵。因此,为了达到完美的全景图像,就需要将摄像机阵列拍摄的多个图像进行拼接和边缘融合。
一种是在拍摄端做出一些调整,采用3D拍摄,将原来的摄像机阵列由原来的6台改成12台组成,即每个方向都有左右眼视频,都是由两台摄像机负责拍摄。然后分两次对6个视频进行拼接和处理,输出两个不同的全景视频。另外一种是在原始的全景画面上分别截取两个画面,其中一个画面向左偏移一点,另一个画面向右偏移一点,然后各自做一个轻度的透视变换,以模拟视线角度的偏转。这样构成的立体画面在多数情形下也具有一定的立体欺骗的效果,而且左右偏移量不好掌握。这两种方式各有优缺点,第一种方式在拍摄端增加了成本和拍摄复杂度,但是可以得到较为完美的立体效果。第二种方式虽然拍摄端相对简单,但是增加图像处理的难度,而且对于近处的景物,或者左右眼画面中的景物存在遮挡关系的时候,则无法达到立体的效果。