郑州信息网 > 热点信息 > 正文

中国电信AI顶会竞赛及论文专题回顾系列之一

网络整理 2023-12-20 06:59

近年来，中国电信在人工智能技术方向持续发力。2023年11月，中国电信数字智能科技分公司正式更名为中电信人工智能科技有限公司（以下简称“电信AI公司”），标志着公司在人工智能领域的战略布局进入了一个新的阶段。在过去一年里，电信AI公司连续在21项国内外顶级AI竞赛中斩获佳绩，成功获得100余项专利授权，同时，在CVPR、ACM MM、ICCV等顶级会议和期刊上发表了30余篇高质量论文，彰显了国资央企在人工智能技术领域布局的初步成效，也为电信AI公司在人工智能领域开启了新的篇章。

作为一家科技型、能力型、平台型的专业公司，电信AI公司自成立以来一直致力于人工智能核心技术攻坚、前沿技术研究和产业空间拓展。公司于2023年11月成立，注册资本30亿，前身是中国电信集团大数据和AI中心。在过去两年时间里，电信AI公司成功自主研发了星河AI算法仓赋能平台、星云AI四级算力平台、星辰通用基础大模型等一系列创新应用成果。目前，电信AI公司现有人员800+，平均年龄31岁，其中80%为研发人员，70%来自于国内外互联网大厂和AI头部企业。为全面加速大模型时代的研发进度，公司现有A100等效算力的训练卡2500+，专职数据标注人员300+。同时，公司还联合上海人工智能实验室、西安交通大学、北京邮电大学、智源研究院等科研院所，共同打造国际一流的人工智能技术和落地应用。面向中国电信6000万视联网和数亿用户场景，电信AI公司将继续加强技术研发和创新，推动人工智能技术在各个领域的应用和发展。公司以成为百亿级人工智能服务商为发展目标，致力于成为央企人工智能创新的引领者。

接下来，我们将对电信AI公司在2023年的一些重要科研成果进行系列回顾和分享。本期介绍AI研发中心TeleAI团队在ICCV 2023 获得Temporal Action Localisation赛道冠军的技术成果。ICCV是国际计算机视觉领域的三大顶会之一，每两年召开一次，在业内具有极高的评价。本文将分享该团队在本次挑战中采用的算法思路和方案。

ICCV 2023 The Perception Test Challenge-Temporal Action Localisation 冠军技术分享

中国电信AI顶会竞赛及论文专题回顾系列之一

【赛事概览与团队背景】

DeepMind发起的ICCV 2023 The First Perception Test Challenge旨在通过探索模型在视频、音频和文本模态中的能力。竞赛涵盖了四个技能领域、四种推理类型和六个计算任务，以更全面地评估多模态感知模型的能力。其中，Temporal Action Localisation赛道的核心任务是对未剪辑的视频内容进行深入理解和准确的动作定位，该技术对自动驾驶系统、视频监控分析等多种应用场景具有重要意义。

由电信AI公司交通算法方向的成员组成的TeleAI团队，参加了本次比赛。电信AI公司在计算机视觉技术这个研究方向深耕，积累了丰富的经验，技术成果已在城市治理、交通治安等多个业务领域中广泛应用，持续服务海量的用户。

1引言

在视频中定位和分类动作的任务，即时序动作定位（Temporal Action Localisation, TAL），仍然是视频理解中的一个挑战性问题。

中国电信AI顶会竞赛及论文专题回顾系列之一

近期TAL技术取得了显著的进展。例如，TadTR和ReAct使用类似DETR的基于Transformer的解码器进行动作检测，将动作实例建模为一组可学习的集合。TallFormer使用基于Transformer的编码器提取视频表征。

虽然以上方法在时序动作定位方面已经实现了较好的效果，但在视频感知能力方面还存在局限性。想要更好地定位动作实例，可靠的视频特征表达是关键所在。团队首先采用VideoMAE-v2框架，加入adapter+linear层，训练具有两种不同主干网络的动作类别预测模型，并用模型分类层的前一层，进行TAL任务的特征提取。接下来，利用改进的ActionFormer框架训练TAL任务，并修改WBF方法适配TAL任务。最终，TeleAI团队的方法在评测集上实现了0.50的mAP，排名第一，领先第二名的团队3个百分点，比Google DeepMind提供的baseline高出34个百分点。

2 竞赛解决方案

中国电信AI顶会竞赛及论文专题回顾系列之一

图1 算法概览

2.1 数据增强

中国电信AI顶会竞赛及论文专题回顾系列之一

在 Temporal Action Localisation赛道中，TeleAI团队使用的数据集是未经修剪的用于动作定位的视频，具有高分辨率，并包含多个动作实例的特点。通过分析数据集，发现训练集相较于验证集缺少了三个类别的标签，为保证模型验证的充分性以及竞赛的要求，团队采集了少量的视频数据，并加入训练数据集中，以丰富训练样本。同时为简化标注，每个视频预设只包含一个动作。

图2 自主采集的视频样例

2.2 动作识别与特征提取

Tags：团队(141)动作(60)模型(41)AI(155)

转载请标注：信息网——中国电信AI顶会竞赛及论文专题回顾系列之一

上一篇：探索约旦神秘的黑色沙漠
下一篇：道以致远，启创未来——牛牛道数字经济高峰论坛暨首场发布会成功举办

郑州信息网 > 热点信息 > 正文

中国电信AI顶会竞赛及论文专题回顾系列之一

猜你喜欢