酷应用

教程 | 盯住梅西：TensorFlow目标检测实战

百家作者：机器之心 2017-10-13 05:12:17

选自Medium

作者：Nicolas Bortolotti

机器之心编译

参与：黄小天、路雪

近日，一篇题为《Following Messi with TensorFlow and Object Detection》的教程文章展示了如何通过 TensorFlow 训练定制的目标检测模型，以专门定位和识别足球巨星梅西；同时作者也希望这一技术有助于催生出足球新战术，提升赛事水平。

我们之前曾把 TensorFlow 与目标检测模型结合使用，但使用的一直是预先设定的传统数据集，比如 COCO。这次的挑战将再高一级，我会分析一个足球比赛的片段，并识别其中至少一个球员。

一提到足球，你首先想到的可能是那些天才球员，比如阿根廷人梅西。本文中，我将会：

训练一个定制的目标识别模型以定位梅西
选择一个真实的赛事转播视频（本文中我使用的今年 8 月 31 日世界杯预选赛南美区，乌拉圭对战阿根廷的录像），看看我们能得到什么结果。
通过这项技术，我们或许可以设计新的战术，提高足球赛事的水平。

注意：我们将会结合使用 TensorFlow 与上述目标检测模型，且均具备 Apache License 2.0 许可证。

我们将从最终获取的结果开始：

比赛中的一段慢动作回放

如果你对此感兴趣，我建议你多花点时间一步一步学习该模型的搭建步骤。

它包含三个重要的步骤：

构建有目标可供检测的定制数据集
通过 TensorFlow 训练和评估该模型
运用该模型

步骤：

构建自定义数据集 Moment

1. 我们查看官方文档，就会发现有单独的部分介绍如何构建自定义数据集。地址：https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/using_your_own_dataset.md

2. 我们需要想要检测的物体的图像，并且需要给它们打标签。

对于这种情况，我使用的是 RectLabel 工具，对于 MacOS 是一个不错的选择。（也有其他替代工具，如 LabelImg。）
然后就是第一次测试，我收集来的 119 张足球比赛的图像（数量很小，但对测试来说足够了）。

我给大约 100 张梅西的图片添加了标签。

注：如要将样本投入正式的应用，这一步就需要更多图像。

3. 下一步是把照片和对应的 tag 转换成 TFFormat 文件。脚本地址：https://github.com/nbortolotti/tensorflow-code-experiences/blob/master/custom_model_object_detection/generate_tfrecord.py。（我使用了中间步骤将 xml 注释标签转换成 csv，脚本地址：https://github.com/nbortolotti/tensorflow-code-experiences/blob/master/custom_model_object_detection/xml_metadata_csv.py。）

4. 记住：完美的环境是构建一个训练集和评估集。

训练／评估自定义模型 Moment

5. 上述文件完成后，我们就可以训练和评估模型了。

这一步我使用的是机器学习引擎，因为我没有本地基础架构可以在 1 小时内执行完整个过程。（官方说明：https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/running_on_cloud.md）

5 个工作线程使用标准 GPU。

同样强烈推荐使用 TensorBoard 对训练和评估过程进行可视化。

记住：直接使用谷歌云存储。也就是说，所有文件必须在这种 repository 类型中，以与训练引擎完成互动。

TensorBoardML 中的 TotalLoss

机器学习引擎工作示例

6. 使用了 21.77 个单元，经过 1 小时 9 分钟和 2 万次迭代之后，我们得到了多个检查点和一个可用模型。

7. 我们使用最先进的检查点，使用训练好的模型进行推断。（官方文档：https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/exporting_models.md）

使用自定义模型 Moment

8. 我们将从以下选项中使用该模型：

使用该模型和利用检测结果生成视频的脚本。实现示例：https://github.com/nbortolotti/tensorflow-code-experiences/blob/master/custom_model_object_detection/od_video_generator.py。

实时评估视频和解码标签以计算阿根廷球星的外表的脚本。实现示例：https://github.com/nbortolotti/tensorflow-code-experiences/blob/master/custom_model_object_detection/od_video_label_detector.py

注意：使用慢镜头的同样的 demo。地址：https://www.youtube.com/watch?v=ZCUJJN0q-To

更多示例信息，详见：https://github.com/nbortolotti/tensorflow-code-experiences/tree/master/custom_model_object_detection

这可能只是这项有趣研究的开始……后续也许会涉及到如何改进体育战术、囊括更多运动员和验证关联。现在，我们仅仅使用传统的电视直播信息，如果我们使用更清晰或能看到球场全景的摄像头，又会发生什么呢？

所有球员的位置都可以得到计算。事实上，我们的实验证明了用机器学习识别球员非常容易，但是我们能根据球员的位置和他们擅长的技术找到更好的战术吗？

我希望你能从中获得乐趣，希望在未来，我们能够看到更多体育领域的 TensorFlow 实现。