阿里-基于AI的跟随弹幕

gingo 2021-03-17 12:25:26 AI应用阿里收藏

0 / 720

优酷视频很多剧都上线了基于AI人脸识别的跟随弹幕，整理一下阿里文娱高级开发工程师“神灭”和高级无线开发专家少廷的分享资料
，内容来自于网络

喜欢用优酷看视频发弹幕的同学应该已经发现，最新版本上很多剧都上线了全新的基于AI人脸识别的跟随弹幕，以往的普通弹幕或高级弹幕都是在播放器顶端自右向左以跑马灯式的效果展示，而这种跟随弹幕是以气泡样式挂在人物头像旁边，随着人物移动而移动。这种跟随弹幕可玩性更高，有才网友可发挥余地更大，下面就列举几个例子。

结合人物动作的玩法：
在这里插入图片描述

结合人物所处场景的玩法：
在这里插入图片描述

自编自导人物对话：
在这里插入图片描述

从几个视频demo中可以看出，相比普通弹幕，这种跟随弹幕是以一种类似剧中人物的内心OS的方式展示出来的，与视频无割离感，更有趣更新颖更精彩，有更多玩法。

本文主要讲诉一下跟随弹幕是如何展示的，从构架图开始讲解实现流程；再由开发过程中遇到的棘手问题，分享技术策略；最后分享未来规划。

一、跟随弹幕架构图

在这里插入图片描述

整个流程自下而上，分成算法侧、服务端、客户端三层：

首先，算法侧按每秒25帧的频率进行视频抽帧，对每一帧进行人脸识别，配合人脸跟踪和平滑处理，生成每一帧的人脸元数据；

其次，服务端将多个帧的人脸元数据通过降噪、防抖、合并后组合成一组组的人脸组数据，将该数据与跟随弹幕数据一起下发给客户端；

最后，客户端在互动SDK中将每组人脸数据生成一个脚本，脚本中完成弹幕跟随该人脸轨迹的移动而移动。

下面着重介绍下每个模块或子模块完成的任务：

1.算法侧

（1）视频抽帧模块：将视频流按每秒25帧（可配置）的频率抽帧。抽帧频率越高，人脸移动轨迹越平滑，但后面人脸识别算法耗时也随之增加；

（2）模型训练模块：提供多张多角度剧中出现的人物图像，给模型训练模块来训练，生成对应人脸库，再配合已训练完成的明星库，这两个库可以大大提高人脸检测的准确度；

（3）人脸检测：识别每一帧图像中的人脸，并给出坐标；

（4）人脸跟踪：为方便服务端生成人脸的运动轨迹，需要把连续几帧中的相同人脸标记出来；

（5）平滑处理：由于每帧中识别出的人脸坐标有一定的偏移量，所以整段人脸轨迹中会出现抖动现象，平滑处理就是通过微调每帧人脸坐标让整个人脸移动轨迹更平滑。

2.服务端

（1）降噪：算法侧不关心每一帧上到底哪张人脸重要或不重要，所以会有大量的路人脸是出现一秒不到就消失的，这种无意义的噪点需要直接过滤掉，即降噪处理；

（2）防抖：如果算法侧平滑处理未达到要求，人脸在运动过程中还是有抖动，服务端可以对元数据进行二次加工，让人脸移动更平滑；

（3）合并：算法侧吐出的都是每一帧的元数据，但客户端关心的是一张人脸由出现到消失的整个轨迹过程，服务端会把元数据合并成一组组人脸的轨迹数据，即人脸组数据；

（4）气泡弹幕数据：跟随弹幕的数据，每条弹幕都对应着一张人脸，也指定了弹幕开始展示的时该。

3.客户端

（1）互动SDK模块：加载各种互动脚本，每个脚本都是一个小的互动，比如电影评分、百科tips、双流酷看等。利用了互动SDK的基础能力，这里把每张人脸由出现到消失的整个过程当做一个小的互动脚本；

（2）人脸脚本：人脸脚本中包含着该张人脸的轨迹坐标和对应该张人脸的弹幕气泡数据，脚本中有个定时器在轮询，查找着当前时刻对应人脸的坐标，如果该时刻有跟随弹幕数据则把该数据展示在人脸旁边，继续轮询即达到了弹幕气泡跟随人脸移动的效果。

二、为什么不通过客户端直接识别人脸？

1. 实时观看对于时间要求太高

对于客户端来说，最终需要知道的是一张张人脸由出现到消失整个轨迹过程，如果客户端做识别，目前只能识别到某一帧中人脸数据，追踪、平滑处理、防抖、过滤、合并，这整个过程下来耗时太大，根本无法满足用户实时观看的需求；

2. 端侧识别准确度达不到要求

先前做弹幕穿人时，iOS端接入过AliNN提供的SDK，人脸检测还是偶而出现未检测到的情况，如果人脸检测准确度上不能达到要求，必须自己做补帧处理，这个补帧处理很难做到实时；

3. 端侧识别影响用户体验

端侧识别时手机c

创作中心

开启你的AI千集创作之旅

发布首篇内容，开通创作中心快来成为AI千集创作者吧～

我在这里，AI在那里。

积分
1445
注册排名
11