物体识别

物体识别（Object detection、又译做“物体检测”、“目标检测”）是计算机视觉及影像处理中的术语，指的是让计算机去分析一张图片或者一段影片中的物体，并标记出来，这需要给神经网络大量的物体数据去训练它，这样才能进行识别。目前人脸检测是物体识别领域中被广泛研究的题目之一。

应用

物体识别在计算机视觉任务中被广泛应用，有许多基于物体识别之下游任务，如图像自动标注、物体计数（页面存档备份，存于互联网档案馆）、人脸识别。物体识别亦可应用于物件追踪，例如：追踪球类比赛中的球与追踪影片中的人物。

球类追踪

由于羽球或网球体积小且瞬间移动速度快，因此是球类追踪中较难精确实现的任务之。

TrackNet^[1] ^[2]

为了解决上述问题，TrackNet利用深度神经网络追踪球体在影像中的轨迹，并且可以克服球体影响模糊、面积小、且在部分影片帧中消失之问题。TrackNet使用了基于热点图的卷积神经网络^[3]^[4]，并利用产生的热点图来表示球体所在位置的几率分布。由于TrackNet试图克服上述“部分影片帧中消失”的问题，模型的输入为相邻的三个帧，输出则为中间帧的结果。其输出可以表示为 $P(i,j,k)$ ，代表在座标 $(i,j)$ 与深度 $k$ 的位置上的几率，最终输出为 $h(i,j)=argmax_{k}P(i,j,k)$ ，即是使用各座标上几率最高的深度作为输出。

在训练神经网络方面，为了学习球体位置的几率分布，TrackNet使用高斯分布来建模球体在真实位置 $(x_{0},y_{0})$ 的热点图，表示如下：

$G(x,y)=\lfloor ({\frac {1}{2\pi \sigma ^{2}}}e^{-{\frac {(x-x_{0})^{2}+(y-y_{0})^{2}}{2\sigma ^{2}}}})(2\pi \sigma ^{2}\centerdot 255)\rfloor$

损失函数则是使用交叉熵，定义为：

$H_{Q}(P)=-\sum _{i,j,k}Q(i,j,k)logP(i,j,k)$ ，其中 $Q(i,j,k)={\begin{cases}1,&{\text{if }}G(i,j)=k\\0,&{\text{otherwise.}}\end{cases}}$

方法

近代常见的物体识别方法多为基于深度神经网络模型之方法，核心概念为利用神经网络模型抽取影像之特征图，并以此识别出物体类别与位置。

End-to-End Object Detection with Transformers^[5]

在这个方法中，作者提出一个神经网络模型DETR，旨在将物件侦测任务视为一个集合预测任务，并在训练时将神经网络模型预测的集合与正确结果集合间进行二分图匹配。

为了能够产生出一个集合，DETR，借鉴了自然语言处理领域的Seq2Seq概念，并首次在物件侦测领域引入了Transformer模型，在此方法中同时使用到Transformer编码器与解码器，其中在解码器部分，DETR进行了修改，提出了对象查询(object queries)的概念，使得模型可以自己学习需要侦测的对象的特征。

由于这是物件侦测领域首次使用了这种简化的集合预测方法，因此具有其重要性，并引领后续集合预测方法的蓬勃发展。

参考资料

这是一篇电脑科学小作品。您可以通过编辑或修订扩充其内容。

^ Huang, Yu-Chuan; Liao, I-No; Chen, Ching-Hsuan; Ik, Tsi-Ui; Peng, Wen-Chih. TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications. 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) (IEEE). 2019-09. doi:10.1109/avss.2019.8909871.
^ TrackNet. nol.cs.nctu.edu.tw. [2023-06-20]. （原始内容存档于2023-01-13）.
^ Belagiannis, Vasileios; Zisserman, Andrew. Recurrent Human Pose Estimation. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017) (IEEE). 2017-05. doi:10.1109/fg.2017.64.
^ Pfister, Tomas; Charles, James; Zisserman, Andrew. Flowing ConvNets for Human Pose Estimation in Videos. 2015 IEEE International Conference on Computer Vision (ICCV) (IEEE). 2015-12. doi:10.1109/iccv.2015.222.
^ Carion, Nicolas; Massa, Francisco; Synnaeve, Gabriel; Usunier, Nicolas; Kirillov, Alexander; Zagoruyko, Sergey. End-to-End Object Detection with Transformers. Computer Vision – ECCV 2020. Cham: Springer International Publishing. 2020: 213–229. ISBN 978-3-030-58451-1.

[1] Huang, Yu-Chuan; Liao, I-No; Chen, Ching-Hsuan; Ik, Tsi-Ui; Peng, Wen-Chih. TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications. 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) (IEEE). 2019-09. doi:10.1109/avss.2019.8909871.

[2] TrackNet. nol.cs.nctu.edu.tw. [2023-06-20]. （原始内容存档于2023-01-13）.

[3] Belagiannis, Vasileios; Zisserman, Andrew. Recurrent Human Pose Estimation. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017) (IEEE). 2017-05. doi:10.1109/fg.2017.64.

[4] Pfister, Tomas; Charles, James; Zisserman, Andrew. Flowing ConvNets for Human Pose Estimation in Videos. 2015 IEEE International Conference on Computer Vision (ICCV) (IEEE). 2015-12. doi:10.1109/iccv.2015.222.

[5] Carion, Nicolas; Massa, Francisco; Synnaeve, Gabriel; Usunier, Nicolas; Kirillov, Alexander; Zagoruyko, Sergey. End-to-End Object Detection with Transformers. Computer Vision – ECCV 2020. Cham: Springer International Publishing. 2020: 213–229. ISBN 978-3-030-58451-1.

[1]

[2]

[3]

[4]

[5]

应用

球类追踪

TrackNet[1] [2]

方法

End-to-End Object Detection with Transformers[5]

参考资料

TrackNet^[1] ^[2]

End-to-End Object Detection with Transformers^[5]