【技术美术】渲染管线空间变换

本文最后更新于 2025年3月28日晚上

【技术美术】渲染管线空间变换

管线空间

渲染管线中共经历以下几个空间：

物体空间（模型空间）：模型文件的坐标系，以每个模型的自身为准。
世界空间：场景中的坐标系，所有物体都需要放在该空间。
相机空间（观察空间）：以相机视角为准的坐标系。
裁剪空间（DNC 标准设备坐标系）：图形接口绘图所用的坐标系。

其中“物体空间”、“世界空间”、“相机空间”是引擎开发者自己定义的空间，这些空间通常都是由 TRS 矩阵表示的，其矩阵参数跟随物体的变换状态而改变，具体见 TRS 矩阵章节。

“裁剪空间”则是由图形接口确定的一个固定范围的方形空间。在不同的图形接口中，其空间参数略有不同：

图形接口	X 轴	Y 轴	Z 轴
Direct3D	向右 (-1,1)	向上 (-1,1)	向前(0,1)
OpenGL	向右 (-1,1)	向上 (-1,1)	向后(-1,1)
Vulkan	向右 (-1,1)	向下 (-1,1)	向前(0,1)

其中：

坐标系原点都是屏幕中心。
空间范围都是映射到屏幕。
深度判断都是 z 越大越深。
部分参数实际可用在接口中自定义，故上述只是一种事实标准。

空间变换

从一个空间变换到下一个空间，都是由矩阵实现的，具体实现方式如下：

物体到世界：就是物体空间矩阵本身。
世界到相机：就是相机的物体空间矩阵的逆矩阵。
相机到裁剪（投影变换）：分正交和透视两种变换方案，具体见投影变换章节。

TRS 矩阵

TRS 矩阵是最常用的变换矩阵，其本质就是平移、旋转、缩放矩阵的复合，其复合顺序为：

$平移矩阵 * 旋转矩阵 * 缩放矩阵$

本文 TRS 矩阵以行业主流的左手坐标系为准，则：

平移矩阵（Translate）

$\begin{bmatrix} 1&0&0&x\\ 0&1&0&y\\ 0&0&1&z\\ 0&0&0&1 \end{bmatrix}$

旋转矩阵（Rotate）

$X轴旋转矩阵= \begin{bmatrix} 1&0&0&\\ 0&\cos(x)&-\sin(x)&\\ 0&\sin(x)&\cos(x) \end{bmatrix}$

$Y轴旋转矩阵= \begin{bmatrix} \cos(y)&0&\sin(y)&\\ 0&1&0&\\ -\sin(y)&0&\cos(y) \end{bmatrix}$

$Z轴旋转矩阵= \begin{bmatrix} \cos(z)&-\sin(z)&0\\ \sin(z)&\cos(z)&0\\ 0&0&1 \end{bmatrix}$

若旋转矩阵要同时表示 3 轴旋转，就是通过对 x、y、z 旋转矩阵的复合得出的，如 Unity 中的复合顺序为：

$Y 轴旋转矩阵 * X 轴旋转矩阵 * Z 轴旋转矩阵$

推导复合顺序过程是这样的（四元数的 Euler 函数中也有说明）：

在 Unity 中放一个方块。
对其先后进行 x、y 旋转并逆序尝试。
发现 y 旋转永远都是以世界 y 轴，而不是自身 y 轴。
说明 x 旋转无法干扰 y 旋转，反着说即 x 旋转已经被应用到顶点。
故矩阵复合一定是先 Y 后 X，Z 同理推出。

$复合旋转矩阵\\ =\begin{bmatrix} \cos(y)&0&\sin(y)&\\ 0&1&0&\\ -\sin(y)&0&\cos(y) \end{bmatrix} \begin{bmatrix} 1&0&0&\\ 0&\cos(x)&-\sin(x)&\\ 0&\sin(x)&\cos(x) \end{bmatrix} \begin{bmatrix} \cos(z)&-\sin(z)&0\\ \sin(z)&\cos(z)&0\\ 0&0&1 \end{bmatrix}\\ =\begin{bmatrix} \cos(y)&0&\sin(y)&\\ 0&1&0&\\ -\sin(y)&0&\cos(y) \end{bmatrix} \begin{bmatrix} \cos(z)&-\sin(z)&0&\\ \cos(x)\sin(z)&\cos(x)\cos(z)&-\sin(x)&\\ \sin(x)\sin(z)&\sin(x)\cos(z)&\cos(x) \end{bmatrix}\\ =\begin{bmatrix} \cos(y)\cos(z)+\sin(y)\sin(x)\sin(z)&-\cos(y)\sin(z)+\sin(y)\sin(x)\cos(z)&\sin(y)\cos(x)&\\ \cos(x)\sin(z)&\cos(x)\cos(z)&-\sin(x)&\\ -\sin(y)\cos(z)+\cos(y)\sin(x)\sin(z)&\sin(y)\sin(z)+\cos(y)\sin(x)\cos(z)&\cos(y)\cos(x) \end{bmatrix}\\$

缩放矩阵（Scale）

$\begin{bmatrix} x&0&0\\ 0&y&0\\ 0&0&z \end{bmatrix}$

旋转矩阵求逆

观察旋转矩阵中各分量旋转矩阵，可以发现：

以 z 旋转矩阵为例（下方 $C_n$ 表示矩阵中的列向量）：

$\begin{bmatrix} \cos(z)&-\sin(z)&0\\ \sin(z)&\cos(z)&0\\ 0&0&1 \end{bmatrix}$

$C_1\cdot C_2=\cos(z)*-\sin(z)+\sin(z)*\cos(z)+0*0=0$
$C_1\cdot C_3=\cos(z)*0+\sin(z)*0+0*1=0$
$C_2\cdot C_3=-\sin(z)*0+\cos(z)*0+0*1=0$
$|C_1|=\sqrt{\cos^2(z)+\sin^2(z)+0^2}=1$
$|C_2|=\sqrt{(-\sin(z))^2+\cos^2(z)+0^2}=1$
$|C_3|=\sqrt{0^2+0^2+1^2}=1$

以此方式可以推断出各分量旋转矩阵都是正交矩阵，而正交矩阵相乘还是正交矩阵，故最终的复合旋转矩阵也是正交矩阵。

根据正交矩阵的性质，其逆矩阵就非常好求了：

Rotation^{-1}=Rotation^T

TRS 矩阵的拆解

从 TRS 矩阵中还原 T,R,S 的信息。

还原 T

还原 T 最简单，因为 R,S 都是 3x3 矩阵，第四列就是 T 的信息。

\vec{t} = [a14,a24,a34]（其中 A = TRS）

还原 S

将 4x4 矩阵强制转为 3x3 矩阵后，余下的就是 RS 矩阵。利用 R 是正交矩阵的特性（在“旋转矩阵求逆”章节中得出），将 RS 乘上 RS 的转置矩阵，可以得到：

$\begin{aligned} (RS)^TRS &= S^TR^TRS\\ &=S^TR^{-1}RS （正交矩阵的逆矩阵等于转置矩阵）\\ &=S^TS\\ &=S^2（对角矩阵的转置等于自身） \end{aligned}$

这样就可以非常容易的求出 S 的信息了：

\vec{s}=[a11,a22,a33] （其中 A = \sqrt{(RS)^TRS},RS=TRS_{3*3}）

还原 R

https://blog.csdn.net/weixin_39675633/article/details/103434557

有了 S 后可以很容易的获取到 R 矩阵：

$R = RSS^{-1}$

接着观察 R 矩阵的公式，可以发现利用 $a_{23}$ 可以很轻松的求出 $\cos(x)$ 的值，而其他项中有很多用该值组成的多项式：

$\begin{bmatrix} \cos(y)\cos(z)+\sin(y)\sin(x)\sin(z)&-\cos(y)\sin(z)+\sin(y)\sin(x)\cos(z)&\sin(y)\cos(x)&\\ \cos(x)\sin(z)&\cos(x)\cos(z)&-\sin(x)&\\ -\sin(y)\cos(x)+\cos(y)\sin(x)\sin(z)&\sin(y)\sin(z)+\cos(y)\sin(x)\cos(z)&\cos(y)\cos(x) \end{bmatrix}\\$

但由于 $\cos(x)$ 可能等于 0，且正常的反三角函数无法完全逆推原角度，故此 $\cos(x)$ 不一定准确。所以需要对这些注意事项特殊处理，不能简单粗暴的直接用 $a_{23}$ 推导所有角度：

当 $|\sin(x)| \neq 1$ 时
- $z=\operatorname{atan2}(a_{21},a_{22})$
- $y=\operatorname{atan2}(a_{13},a_{33})$
有了 y 和 z 的角度后我们便可以通过带入求解真正的 $\cos(x)$ ，但依然要注意值为 0 的问题，好在 cos 和 sin 同时只可能有一个为 0，故只需要简单的判断即可：
1. 若 $a_{21} \neq 0$ ， $\cos(x) = a_{21}/\sin(z)$
2. 若 $a_{21} = 0$ ， $\cos(x) = a_{22}/\cos(z)$
有了未损失原角度信息的 $\cos(x)$ 后，x 就很好求出了：
- $x=\operatorname{atan2}(-a_{23},\cos(x))$
当 $|\sin(x)| = 1$ 时，此时镜头朝正上或正下。

由于 $\cos(x)$ 的值为 0，因此无法使用第 1 点的计算方法了，但因为 $\sin(x) = \pm 1$ （ $\sin(x) = -a_{23}$ ），所以其他的项代数式变的可用。
1. 当 $\sin(x) > 0$ 时，此时镜头朝下，z 旋转轴与 y 旋转轴反向。
  - $a_{11}=\cos(y)\cos(z)+\sin(y)\sin(z)=\cos(y-z)$
  - $a_{12}=\sin(y)\cos(z)-\cos(y)\sin(z)=\sin(y-z)$
  于是 $y-z=\operatorname{atan2}(a_{12},a_{11})$
2. 当 $\sin(x) < 1$ 时，此时镜头朝上，z 旋转轴与 y 旋转轴同向。
  - $a_{11}=\cos(y)\cos(z)-\sin(y)\sin(z)=\cos(y+z)$
  - $a_{12}=-(\sin(y)\cos(z)+\cos(y)\sin(z))=-\sin(y+z)$
  于是 $y+z=\operatorname{atan2}(-a_{12},a_{11})$
可以发现无论怎么求，只能同时求到 y 和 z，因为此时发生了万向锁，y 和 z 的旋转效果变的相关了。由于相关，导致 y 和 z 可以有多种取值组合，因此这种情况下无法求解原角度了。但为了返回结果，我们可以直接随便选一种组合，例如假定 z 始终为 0。于是该情况的 R 信息也可以确定了：
1. 当 $\sin(x) > 0$ 时
  - $z=0$ （z 旋转全部转移到 y 上）
  - $y=\operatorname{atan2}(a_{12},a_{11})$
  - $x=\pi/2$ （镜头朝正下方）
2. 当 $\sin(x) < 0$ 时
  - $z=0$ （z 旋转全部转移到 y 上）
  - $y=\operatorname{atan2}(-a_{12},a_{11})$
  - $x=-\pi/2$ （镜头朝正下方）

可以看出部分情况下旋转是无法被真正逆推回来的，这也解释了为什么镜头旋转到世界正上方或正下方时无法继续沿镜头上下旋转的原因。因此旋转物体时要保留原始的旋转值，不能完全依靠矩阵。

投影变换

本文剪辑空间以 Direct3D 为准，因为这和 TRS 矩阵的主流一样都是左手坐标系，所以更方便变换。

正交投影

投影过程就是简单的范围缩放偏移，没有近大远小的效果，难以看出深度关系，常用于 2D 游戏。

若视锥体参数如下：

l：视锥体左平面
r：视锥体右平面
b：视锥体下平面
t：视锥体上平面
n：视锥体近平面
f：视锥体远平面

则投影矩阵为：

ortho(r,l,t,b,n,f) = \begin{bmatrix} \frac{2}{r-l} & 0 & 0 & -\frac{r+l}{r-l} \\ 0 & \frac{2}{t-b} & 0 & -\frac{t+b}{t-b} \\ 0 & 0 & \frac{1}{f-n} & -\frac{n}{f-n} \\ 0 & 0 & 0 & 1 \end{bmatrix}

特别的，当视锥体的左右、上下平面坐标对称时：

ortho(r,t,n,f) = \begin{bmatrix} \frac{1}{r} & 0 & 0 & 0 \\ 0 & \frac{1}{t} & 0 & 0 \\ 0 & 0 & \frac{1}{f-n} & -\frac{n}{f-n} \\ 0 & 0 & 0 & 1 \end{bmatrix}

推导过程

https://zhuanlan.zhihu.com/p/474879818

正交投影中从相机空间转换到裁剪空间，是一个方形空间到另一个方形空间的转换，所以只需分别考虑三个轴的各自变化就行，若根据直线实现映射，可构成以下公式：

$\begin{aligned} X_n &= k_1 X_e + b_1 \\ Y_n &= k_2 Y_e + b_2 \\ Z_n &= k_3 Z_e + b_3 \\ \end{aligned}$

其中 n 下标表示转换后的剪辑空间坐标，e 表示原本的视图空间坐标。

当有以下参数：

l：视锥体左平面
r：视锥体右平面
b：视锥体下平面
t：视锥体上平面
n：视锥体近平面
f：视锥体远平面

映射效果如下（要注意图片使用的是 OpenGL 剪辑空间， Direct3D 的 Z 的计算与其不同）：

带入参数计算后即可推出：

$\begin{aligned} k_1 &= \frac{1-(-1)}{r-l} \\ b_1 &= X_n - k_1 X_e \\ &= 1 - \frac{1-(-1)}{r-l} *r \\ &= \frac{r-l}{r-l} - \frac{2r}{r-l} \\ &= -\frac{r+l}{r-l} \end{aligned}$

$\begin{aligned} k_2 &= \frac{1-(-1)}{t-b} \\ b_2 &= Y_n - k_2 Y_e \\ &= 1 - \frac{1-(-1)}{t-b} * t \\ &= \frac{t-b}{t-b} - \frac{2t}{t-b} \\ &= -\frac{t+b}{t-b} \end{aligned}$

$\begin{aligned} k_3 &= \frac{1-0}{f-n} \\ b_3 &= Z_n - k_3 Z_e \\ &= 1 - \frac{1-0}{f-n} * f \\ &= \frac{f-n}{f-n} - \frac{f}{f-n} \\ &= -\frac{n}{f-n} \end{aligned}$

再将这种映射方法套用到矩阵即可得到

$ortho = \begin{bmatrix} \frac{1-(-1)}{r-l} & 0 & 0 & -\frac{r+l}{r-l} \\ 0 & \frac{1-(-1)}{t-b} & 0 & -\frac{t+b}{t-b} \\ 0 & 0 & \frac{1-0}{f-n} & -\frac{n}{f-n} \\ 0 & 0 & 0 & 1 \end{bmatrix}$

透视投影

与人眼一样，随深度不同，具有近大远小的效果，容易看出物体距离远近，常用于 3D 游戏。

若视锥体参数如下：

n：近平面
f：远平面
v：视野上下角度
r：视野宽高比

Perspective = Ortho(\tan(\frac{v}{2}) n / r,\tan(\frac{v}{2}) n,n,f) * \begin{bmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n+f & -nf \\ 0 & 0 & 1 & 0 \end{bmatrix}

推导过程

问题分析

透视投影的空间是一个四棱台，将其变换到剪辑空间的步骤可以拆成两步：
1. 将四棱台缩放为长方体，实现近大远小。
2. 将长方体缩放到剪辑空间，等同于正交投影。
由于正交投影已推导，故现在只需要求出将四棱台缩放为长方体的方法就行。
公式推导

https://www.zhyingkun.com/perspective/perspective/

由于缩放为长方体，故对于处在视锥线上的点，缩放后应与在近平面的 x，y 坐标一致。以上图为例，应有：

$f(y) = y_s$

根据相似三角形原理，可得：

$\begin{aligned} \frac{y_s}{d} &= \frac{y}{z} \\ y_s &= \frac{yd}{z} \end{aligned}$

由于 d 就是近平面距离，若近平面距离为 n，则：

$\begin{aligned} f(y) &= \frac{yn}{z} {（前面说过 y_s=f(y)）}\\ f(x) &= \frac{xn}{z} \text{（x、y缩放一致）} \end{aligned}$
矩阵推导

现在要将该公式反应在矩阵变换上：
- 对于 n，这是一个定值，直接利用缩放矩阵的原理就可以实现。
- 对于 z，这是一个变量，肯定无法直接写在矩阵中，但可以借助其次坐标 w 归一化的特性，将向量的 w （位置在 m43）设为 z 即可。
于是便可得出初步矩阵：

$\begin{bmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ ? & ? & ? & ? \\ 0 & 0 & 1 & 0 \end{bmatrix}$

其中 z 的系数都被标记为？，因为 z 也会受 w 归一的影响，而我们实际需要 z 保持不变，故需要对这些能对 z 产生作用的系数进行推导，以确保最终计算出的向量归一化前的 z 分量为 $z^2$ 。

由于前两个系数（m31,m32）是与 x,y 相乘，我们不需要所以始终为 0，又因为输入向量的 w 分量默认为 1，此时当剩余的两个系数（m33,m34）分别为 A,B 时，可将问题写成以下公式：

$Az + B = z^2$

带入 n（近平面 z），f （远平面 z）两个已知实例：

$\begin{aligned} An + B &= n^2 \\ Af + B &= f^2 \\ \end{aligned}$

利用消元法可得出：

$\begin{aligned} A(n-f) &=n^2-f^2 \\ A &= \frac{(n+f)(n-f)}{n-f}\\ A &= n+f \\ \end{aligned}$

$\begin{aligned} (n+f)n + B &= n^2 \\ B &= n^2 - (n^2 + fn) \\ B &= -nf \end{aligned}$

于是最终矩阵可得出为：

$\begin{bmatrix} n & 0 & 0 & 0 \\ 0 & n & 0 & 0 \\ 0 & 0 & n+f & -nf \\ 0 & 0 & 1 & 0 \end{bmatrix}$

线性深度逆推

利用透视投影计算出的新深度是非线性的。因为利用 $(n+f)z-nf$ 抵消除 z 得出的新 z，只能保证远近平面一致，而其他值域则会受到非线性变化（具体变化如下图）。因此当希望得到远近平面间的线性深度时，必须要进行进一步处理。

投影函数

首先归纳出各种投影对 z 的影响函数：

正交

$z' = \frac{z-n}{f-n}$
逆正交

$z = z'(f-n)+n$
透视

$z' = \frac{(n+f)z-nf}{z}$
逆透视

$\begin{aligned} z &=\frac{(n+f)z-nf}{z'}\\ z&=\frac{(n+f)z}{z'}-\frac{nf}{z'}\\ z-\frac{(n+f)z}{z'}&=-\frac{nf}{z'}\\ z(1-\frac{n+f}{z'})&=-\frac{nf}{z'}\\ z&=-\frac{nf}{z'-(n+f)}\\ z&=\frac{nf}{n+f-z'} \end{aligned}$

投影过程

正常的投影过程如下：

$z^{非线性}_{[n,f]} = 透视(z^{线性}_{[n,f]})\\ z^{非线性}_{[0,1]} = 正交(z^{非线性}_{[n,f]})$

由此可以逆推出 $z^{线性}_{[0,1]}$ 的求解过程：

$z^{非线性}_{[n,f]} = 逆正交(z^{非线性}_{[0,1]})\\ z^{线性}_{[n,f]} = 逆透视(z^{非线性}_{[n,f]} )\\ z^{线性}_{[0,1]} = 正交(z^{线性}_{[n,f]})$

即

$\begin{aligned} z^{线性}_{[0,1]} &= 正交(逆透视(逆正交(z^{非线性}_{[0,1]})))\\ z &= \frac{(\frac{nf}{n+f-(z'(f-n)+n)})-n}{f-n}\\ z &= \frac{(\frac{nf}{f-z'(f-n))})-n}{f-n}\\ z &= \frac{n}{f-n}(\frac{f}{f-z'(f-n))}-1)\\ z &= \frac{n}{f-n}(\frac{f-(f-z'(f-n))}{f-z'(f-n))})\\ z &= \frac{n}{f-n}(\frac{z'(f-n)}{f-z'(f-n))})\\ z &= \frac{nz'}{f-z'(f-n))}\\ \end{aligned}$

个人研究 > 技术美术

【技术美术】渲染管线空间变换

https://bdffzi-blog.pages.dev/posts/717146744.html

作者

BDFFZI

发布于

2024年10月18日

许可协议

【物理】力学公式上一篇

【数学】组合与排列下一篇