PointNet++视频讲解（zz）

weilaiweiding 2021-06-17 17:46:12 资料仓库收藏

0 / 1418

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

PointNet++： Deep Hierarchical Feature Learning on Point Sets in a Metric Space

Paper reading：Frustum PointNets for 3D Object Detection from RGB-D Data

-------------------------------------------------------------------------------------------------------------------------------------

前言：

　　本文为point，point net++，frustum point 的一些整理和总结，内容包括如何将点云进行深度学习，如何设计新型的网络架构，如何将架构应用的3D场景理解。

背景：

　　进来很多3D的应用在兴起，3D传感器在进步，随着虚拟网络的发展转到物理实际中的应用，比如（ADAS，AR，MR）自动驾驶中需要理解汽车行人交通标识，同时也需要理解三维物体的状态静至，移动。

　　AR头戴显示器有深度传感器，也需要做三维场景的理解。例如把todo_list合适的放到冰箱的门上。

　　需要一种数据驱动的方式去理解和处理三维数据，3D deep learning。

　　三维表达的形式：

　　三维数据本身有一定的复杂性，2D图像可以轻易的表示成矩阵，3D表达形式由应用驱动的：

　　point cloud ，深度传感器扫描得到的深度数据，点云

　　Mesh，三角面片在计算机图形学中渲染和建模话会很有用。

　　Volumetric，将空间划分成三维网格，栅格化。

　　Multi-View，用多个角度的图片表示物体。

　　Point c'loud 是一种非常适合于3D场景理解的数据，原因是：

　　1、点云是非常接近原始传感器的数据集，激光雷达扫描之后的直接就是点云，深度传感器（深度图像）只不过是一个局部的点云，原始的数据可以做端到端的深度学习，挖掘原始数据中的模式

　　2、点云在表达形式上是比较简单的，一组点。相比较来说　　

　　　　Mesh需要选择面片类型和如何连接

　　　　网格需要选择多大的网格，分辨率。

　　　　图像的选择，需要选择拍摄的角度，但是表达是不全面的。

　　最近才有一些方法研究直接在点云上进行特征学习，之前的大部分工作都是集中在手工设计点云数据的：

　　这些特征都是针对特定任务，有不同的假设，新的任务很难优化特征。希望用深度学习特征学习去解决数据的问题。

　　但是点云数据是一种不规则的数据，在空间上和数量上可以任意分布，之前的研究者在点云上会先把它转化成一个规则的数据，比如栅格让其均匀分布，然后再用3D-cnn 来处理栅格数据：

　　缺点：3D cnn 复杂度相当的高，三次方的增长，所以分辨率不高303030 相比图像是很低的，带来了量化的噪声错误，限制识别的错误

　　1、但是如果考虑不计复杂度的栅格，会导致大量的栅格都是空白，智能扫描到表面，内部都是空白的。所以栅格并不是对3D点云很好的一种表达方式

　　2、有人考虑过，用3D点云数据投影到2D平面上用2D cnn 进行训练，这样会损失3D的信息。还要决定的投影的角度

　　3、点云中提取手工的特征，再接FC，这么做有很大的局限性

　　我们能否直接用一种在点云上学习的方法：统一的框架

网络设计：

网络设计有两种点云的特点决定的：

　　1、点云是数据的表达点的集合，对点的顺序不敏感

　　D维的特征，最简单的D=3，还可以有其他颜色，法向

　　点集是无序的，可以做变化，背后的代表的是同一套点集，置换不变性。模型需要对N！网络需要做到置换的不变性。

　　系统化的解决方案，对称函数，具有置换不变性。神经网络本质是一个函数

　　如何用神经网络构建对称函数：最简单的例子：

　　虽然是置换不变的，但是这种方式只计算了最远点的边界，损失了很多有意义的几何信息，如何解决呢？

　　与其说直接做对称性可以先把每个点映射到高维空间，在高维空间中做对称性的操作，高维空间可以是一个冗余的，在max操作中通过冗余可以避免信息的丢失，可以保留足够的点云信息，再通过一个网络r来进一步　　消化信息得到点云的特征。这就是函数hgγ的组合。每个点都做h低位到高位的映射，G是对称的那么整个结构就都是对称的。下图就是原始的pointnet结构。

实际操作过程中：

　　在实际执行过程中

　　可以用MLP多层感知器（Multilayer perceptron）来描述h和γ，g max polling 效果最好。

　　接下来有个很有意思的理论问题，用神经网络构建的pointnet中，保证了对称

　　那么在所有的对称函数中，point(vanilla)是什么样的位置呢？什么样的函数pointnet 能代表，什么函数不能代表

　　可以得到理论：

　　pointnet 可以任意的逼近在集合上的对称函数，只要是对称函数是在hausdorff空间是连续的，那么就可以通过任意的增加神经网络的宽度深度，来逼近这个函数

　　上面解释了如果通过对称函数，来让点云输入顺序的不变

　　2、如何来应对输入点云的几何（视角）变换，比如一辆车在不同的角度点云的xyz都是不同的但代表的都是扯，我们希望网络也能应对视角的变换

　　如果spatial transform network

　　增加了一个基于数据本身的变换函数模块，n个点(x,y,z) t-net 生成变换参数，之后的网络处理变换之后的点，目标是通过整体优化变换网络和后面的网络使得变换函数对齐输入，如果对齐了，不同视角的问题就可以简化。

　　实际中点云的变化很简单，不像图片做变换需要做插值，做矩阵乘法就可以。比如对于一个3*3的矩阵仅仅是一个正交变换，计算容易实现简单

　　我们可以推广这个操作，不仅仅在输入作此变换，还可以在中间做 N个点 K维特征，用另外网络生成k*k 来做特征空间的变化，生成另一组特征

　　高维优化过程中，难度高，需要加正则化，比如希望矩阵更加接近正交矩阵

　　那么这些变换的网络如何和pointnet结合起来：得到分类和分割网络

　　首先输入一个n3的矩阵，先做一个输入的矩阵变换，T-net 变成一个33的矩阵，然后通过mlp把每个点投射到64高维空间，在做一个高维空间的变换，形成一个更加归一化的64维矩阵，继续做MLP将64维映射到1024维，在1024中可以做对称性的操作，就是maxpooling，得到globle fearue，1024维度，通过级联的全连接网络生成k （分类）

　　如果是分割呢？

　　可以定以成对每个点的分类问题，通过全局坐标是没法对每个点进行分割的，简单有效的做法是，将局部单个点的特征和全局的坐标结合起来，实现分割的功能

　　最简单的做法是将全局特征重复N遍，和每一个原来单个点的特征连接在一起，相当于单个点在全局特征中进行了一次检索，检索到在哪个位置就是哪个类别，对连接起来的特征进行MLP的变换，最后输出m类相当于m个score：（将单个点和总体的特征连接到一起，判定在总体中的位置，来决定是哪个分类）

结果：

　　分类，pointnet 当时最早点云界

　　部件分割和完整的分割。shapenetpart

　　2D-3D-S

　　还是个非常轻量级的网络：对比2D图片和3D栅格

　　适用于移动设备：

　　同时对数据的丢失也是非常的鲁棒，对比于voxelnet 的对比

　　在modelnet 40 的分类问题上，在丢失50%的点的情况下，pointnet仅仅收到2%的影响，与之想想比Voxnet3D精度相差了20%

　　为什么这么鲁棒呢？

　　第一行是原始的，我们想知道哪些点对全局特征做出了贡献，maxpooling ，有些点embedded的特征非常小，在经过maxpooling之后对全局特征没有任何的贡献，哪些点是剩下来的胜利者

　　Critial points （Maxpooling 之后存活下来的大特征点）

　　只要轮廓和骨骼得到保存，就能把形状分类正确。

PointNet++

　　pointnet 缺陷：对比3Dcnn

　　　　3D和2D很像，只是变成了3D卷积，多级学习不断抽象特征，平移不变性。

　　pointnet 一开始对每个点做MLP低维到高维的映射，把所有点映射到高维的特征通过Max pooling 结合到一起

　　本质上来说，要么对一个点做操作，要么对所有点做操作，实际上没有局部的概念(loal context) ，比较难对精细的特征做学习，在分割上有局限性

没有local context 在平移不变性上也有局限性。（世界坐标系和局部坐标系）

　　（xyz）对点云数据做平移所有的数据都不一样了，导致所有的特征，全局特征都不一样了，分类也不一样

　　对于单个的物体还好，可以将其平移到坐标系的中心，把他的大小归一化到一个球中，在一个场景中有多个物体不好办，对哪个物体做归一化呢？

　　-------------------------

　　pointnet ++ 核心的想法在**局部区域重复性的迭代使用pointnet ，在小区域使用pointnet 生成新的点，新的点定义新的小区域，**多级的特征学习，应为是在区域中，我们可以用局部坐标系，可以实现平移的不变性，同时在小区域中还是使用的PN，对点的顺序是无关的，保证置换不变性。

具体的例子：多级的点云学习：

　　2D卡通的例子，世界坐标系，先找到一个局部的区域，因为不想受整体平移的影响

　　1、可以先把局部的点转换到一个局部坐标系中　　

　　2、在局部中使用pointnet 来提取特征

　　3、提取完特征以后会得到一个新的点，F （x,y ）在整个点云中的位置在欧氏空间中，还有个向量特征F（高纬的特征空间），代表小区域的几何形状，

　　如果重复这个操作就会得到一组新的点，在数量上少于原先的点，但是新的每个点代表了它周围一个区域的几何特点

　　点集的简化： layer：选择小区域，提取小区域提取局部坐标系，应用point net联合而成。

　　我们可以重复set abstraction的过程，实现一个多级的网络，下图展示两级，使得点的数量越来越少，但是每个点代表的区域以及感受野，越来越大，这个cnn的概念很类似，，最后把点做一个pooling 得到globle feature，用来做分类。

　　我们可以将最后的点重新上卷积的方式传回原来的点上，既可以通过3D的插值，可以通过另一种通过PN的方式回传。

　　在多级网络中有一个很有意思的问题，如何选择局部区域的大小，相较而言就是怎么选择卷积核的大小宽度，如果选择pointnet 作用区域的球的半径?

　　在卷积神经网络中大量应用小的kernal(VGG 333)，在pointcloud中是否一样呢？不一定。

　　因为pointnet 常见的采样率的不均匀，比如有个depth camera 采到的图像，近的点非常密集，远的点非常稀疏，在密的地方没有问题，在稀疏的会有问题，比如极端的情况，只有一个点，这样学到的特征会非常的不稳定，我们因该避免。

　　为了量化这个问题，有个控制变量的实验，在1024上训练，减少点的数量相当于减少点的密度，不均匀的减少，

　　在刚开始1024点的时候point net ++ 更加强大，得到更高的精确度，应为它是在小区域上，随着密度的下降，性能收到了极大的影响，在小于500个点以后性能低于pointnet

　　结论：在pointcloud 中如果局部的kernel 操作太小的话，会影响性能被采样率不均匀。

　　针对于这