特斯联实现人工智能科研突破，多项研究成果入选CVPR、TPAMI等国际顶会顶刊

2022-05-09 16:10:27 来源：作者：　

摘要：随着京津冀、长三角、粤港澳大湾区、成渝等地启动建设全国一体化算力网络国家枢纽节点，“东数西算”工程全面正式启动，作为数据处理的核心新型基础设施，人工智能、物联网、云计算、区块链等技术将迎来更为精细化的发展前景。

随着京津冀、长三角、粤港澳大湾区、成渝等地启动建设全国一体化算力网络国家枢纽节点，“东数西算”工程全面正式启动，作为数据处理的核心新型基础设施，人工智能、物联网、云计算、区块链等技术将迎来更为精细化的发展前景。近期，作为成渝地区东数西算的深度参与者，特斯联对外公布了其计算机视觉（CV）领域的多个科研突破，并有8篇论文被CVPR、TPAMI等顶级国际学术会议和期刊收录。

此次，特斯联在 CV 领域的科研突破涵盖了语义分割、图像增强、显著物体识别、迁移学习、行为识别，等方面。其中不少创新技术打破了现有技术上限，亦开发了数个性能更优、识别更快、效率更高的模型，这些技术研究的应用与推广将会成为特斯联赋能城市数字化、智能化的有力保障。

在机器视觉行业产业链中，如上游的光源、镜头、工业相机、图像处理器、图像采集卡等硬件，图像处理软件和底层算法等软件系统会随着机器视觉的迭代而快速发展，推进整个产业链的升级。全球知名AI专家、特斯联集团首席科学家兼特斯联国际总裁邵岭博士及其团队在该领域中提出的图像和视频的识别和学习各算法，极大缩短了训练和推理时间，从图像识别提升、识别效率提升以及解决数据标注瓶颈三个方面，提升了整体视觉应用效果：

1）图像识别提升

在图像识别方面，团队的技术突破主要集中在算法层面，囊括背景消除模块、图像特征突出等。这些可以从图像本质入手，丰富图像本身信息，去除多余噪点，为后续图像识别提供高清的图像数据，是高效率识别的基础。更有技术突破采用创新的手法，如加上声音信息来协助识别，提高信息准确度。

在被收录于顶会CVPR的《Learning Non-target Knowledge for Few-shot Semantic Segmentation》（《学习用于小样本语义分割的非目标知识》）研究中，团队从挖掘和排除非目标区域的新角度重新思考了少样本语义分割，继而提出了一个新颖的非目标区域消除（Non-target Region Eliminating）框架，其中包含了一个背景挖掘模块（Background Mining Module）、一个背景消除模块（Background Eliminating Module）和一个分散注意力的目标消除模块（Distracting Objects Eliminating Module）以确保模型免受背景和分散注意力目标的干扰进而获得准确的目标分割结果。不仅如此，该研究还提出一个原型对比学习（Prototypical Contrastive Learning）算法，通过精炼原型的嵌入特征以便更好的将目标对象与分散注意力的对象区分开来。

采用不同模块的目标分割表现

在被收录于TPAMI期刊的《Learning Enriched Features for Fast Image Restoration and Enhancement》（《学习用于快速图像修复和增强的丰富特征》）研究中，团队发现现实中的相机存在诸多物理限制，尤其在复杂的照明环境，采集的图像经常会出现不同程度的退化现象。比如智能手机相机的光圈很窄，传感器很小，动态范围也有限，因而经常产生噪声和低对比度的图像。为此团队提出了一种全新架构，其整体目标是通过整个网络维持空间精确的高分辨率表征并从低分辨率表征中接收互补的上下文信息。方法的核心囊括以下关键元素的多尺度残差块：(a) 用于提取多尺度特征的并行多分辨率卷积流，（b）跨多分辨率流的信息交换，（c）用于捕获上下文信息的非局部注意力机制，（d）基于注意力的多尺度特征聚合。该方法学习了一组丰富的特征，即结合了来自多个尺度的上下文信息，同时保留了高分辨率的空间细节。该技术可以解决现实中物理相机的缺陷，提高图片质量，也为后续识别提供良好的载体。

采用我们所提出方法（下排右二）生成的图像在视觉上更接近于亮度和整体对比度的地面真实情况

团队还就显著目标检测（SOD）数据集的严重设计偏差问题进行了研究，并收集了一个全新高质量，目前最大的实例级SOD数据集- Salient Objects in Clutter（SOC），以缩小现有数据集与真实场景之间的差距。通过对203个代表性模型的回顾，和一个线上基准模型的维护，以及100个SOD模型全面的基准和性能评估，实现对SOD发展的动态追踪以及更深入的理解。此外，团队还设计了三个数据集增强策略，包括标签平滑，随机图像增广和基于自监督学习的正则化技术以有效提高尖端模型的效果。该技术可以在复杂环境中让目标突出，在信息混乱的图像或者视频中，准确抓取目标，为识别分析提供准确信息。此研究成果被收录于TPAMI期刊中。

与实例级ILSO数据集（a）和MS-COCO数据集（c）相比，我们的SOC数据集（b&d）可标注精细、平滑的边界

由布景或摄像机视点变化引起的域偏移下的行为识别问题也是团队重点研究的方向。在收录于顶会CVPR中的《Audio-Adaptive Activity Recognition Across Video Domains》（《跨视频域的音频自适应行为识别》）的研究中，团队提出了一种新颖的音频自适应编码器，借助丰富的声音信息来调整视觉特征以便模型在目标域中学习更多的判别特征。它通过引入一种音频注入识别器（Audio-infused Recognizer）以进一步消除特定域（domain-specific）的特征，并利用声音中的域不变信息来实现有效的跨域跨模态的交互。此外，还引入了一个actor shift的新任务，以及相应的数据集，以在行为外观发生巨大变化的情况下挑战该模型。该技术加入声音参数来识别物体活动，可以更加准确识别和分析出物体的行为，在智慧城市应用中可以有更准确的分析结果。

当同一活动的视觉相似性在不同领域间难以发现时，我们的模型（红色）可以使用来自声音的额外线索来提高识别精度

基于自注意力的网络在图像描述取得了巨大成功但仍存在距离不敏感和低秩的瓶颈。为解决这一问题，团队在发表于IEEE Transactions on Multimedia期刊中的《Multi-Branch Distance-Sensitive Self-Attention Network for Image Captioning》（《用于图像描述的多分支距离敏感自注意力网络》）研究中，对自注意力机制从两个方面进行了优化：一个是距离敏感的自注意力方法(DSA)，通过在SA建模过程中考虑图像中目标之间的原始几何距离，来提高图像场景理解；另一个是多分支自注意力方法(MSA)，以打破SA中存在的低秩瓶颈，并在可忽略的额外计算成本下提高MSA的表达能力。

我们的方法（下排）和标准Transformer模型（上排）生成的注意力可视化和图像描述示例。一些准确的单词用绿色标记，错误和不准确的单词用红色标记。我们的方法可得到更精确的描述。

2）识别效率提升

为提高识别效率，团队研究出新的算法框架以及新的采样器，可以显著提高识别效率，大大缩短训练时间。在图像识别中，快速的识别可以提高服务质量，减少延迟，让人们感受更智能的交互。

团队发现大多数基于循环神经网络的视频物体分割(RVOS)方法采用基于单帧的空间粒度建模，而视觉表征的局限性容易导致视觉与语言匹配不佳。基于此，团队提出一种新颖的多级表征学习方法，通过探索视频内容的固有结构来提供一组视觉嵌入，从而实现更有效的视觉-语言语义对齐。具体来说，它在视觉粒度方面嵌入了不同的视觉线索，包括视频级别的多帧长时信息、帧级别的帧内空间语义以及对象级别的增强对象感知特征。其次，它还引入了动态语义对齐（DSA），可以更紧凑、更有效地动态学习和匹配具有不同粒度视觉表征的语言语义。从实验结果来看，该研究《Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation》（《具有语义对齐的多级表征学习用于参考视频对象分割》）具有较高的推理速度，也因此被顶会CVPR收录。

在视觉研究中，团队发现业界最流行的随机采样方法，PK采样器，对深度度量学习来说信息量不足且效率不高，为此提出一种可用于大规模深度度量学习的高效的小批量采样方法，称为图采样（Graph Sampling）。该模型的思想是在每个epoch开始时为所有类别构建最近邻关系图。然后，每个小批量由随机选择的类别和其最近邻组成以便学习信息丰富的示例。该方法显著提高了重新识别率，大大缩短了训练时间。该技术为通用技术，可用于图像检索、识别等。该技术主要目的是提升效率，这是在当下高负荷多信息的智慧领域必不可少的技术，快速分析识别能够在一些图像检索和识别应用快速满足用户需求。该研究《Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification》（《基于图采样的深度度量学习用于可泛化的行人重识别》）同样收录于今年的CVPR。

3）解决图像标注问题

数据标注是一个重要的过程，传统人工数据标注费时费力。团队提出了一种新技术以更高效地解决背后的问题。该研究被收录于今年的CVPR中，标题为《Category Contrast for Unsupervised Domain Adaptation in Visual Tasks》（《视觉任务中无监督域适应的类别对比》）。团队提出了一种新的类别对比技术（CaCo），该技术在无监督域适应(UDA)任务的实例判别之上引入了语义先验，可以有效地用于各种视觉UDA任务。该技术构建了一个具有语义感知的字典，其中包含来自源域和目标域的样本，每个目标样本根据源域样本的类别先验分配到一个(伪)类别标签，以便学习与UDA目标完全匹配的类别区分但域不变的表征。与当下最先进的方法对比，简单的CaCo技术可以实现更优越的性能表现，也可以成为现有UDA方法的补充，推广到其他机器学习方法中去，如无监督模型适应，开放/部分集适应等。该技术解决了传统监督学习需要大量人工标注的问题，比现有技术拥有更高的效率。

上一篇： 中国光大银行上海分行捐款100万元，支持上海疫情防控
下一篇： 自助取袋机落地近1000家医院，「袋拉拉」获近千万A1轮融资

特斯联完成20亿元D轮融资

特斯联

4月9日，人工智能物联网（AIoT）企业特斯联宣布完成 D 轮 20 亿人民币融资交割。

2024-04-09

深度布局华东区域，特斯联加速推进智慧余姚落地

特斯联

近日,特斯联华东总部开业仪式在中意宁波生态园隆重举行。

2024-01-08

特斯联与巴林开启数智合作新篇章

特斯联巴林

近日，巴林王国工业和商业大臣法赫鲁（H.E. Abdulla A. Fakhro）率领巴林王国高级政...

2023-10-27

“一带一路”展现中非合作成果，特斯联艾渝受邀与肯尼亚总统共探中肯数字化合作新机遇

特斯联

作为中国首倡并主办的层级最高、规模最大的多边外交活动，经过十年发展，“一带一路”倡议已成为国际合作的...

2023-10-19

国家电投与特斯联设立合资公司，发掘资本在新能源行业的潜在投资机遇

特斯联国家电投

近日，特斯联与国家电投集团江西电力有限公司签署全面战略合作协议，成立合资公司

2023-07-10

精彩阅读原创资讯投资人物专栏

城市定制型商业健康保险与创新药协同发展高峰论坛发布两项重磅成果

峰会商业健康保险与创新药协同发展高峰论坛

12月7日,由北京ESG研究院、中国人民大学卫生技术评估与医药政策研究中心、中国人民大学中国保险研究...

2024-12-09

债券基金成焦点，民生加银双月鑫 60 天持有债基发行引关注

金融科技民生加银

在全球市场震荡加剧、A股市场波动较大的背景下，投资者对于稳健投资的需求日益增长。

2024-12-09

引爆年末经营！阿里妈妈「增量2024客户私享会」走进广州，释放生意新机！

金融科技阿里妈妈

作为粤港澳大湾区核心引擎,广州不仅具有全球领先的服装流通基地,更汇聚美妆日化、箱包皮具、珠宝首饰、食...

2024-12-09

用友中企出海活动再升级，加入考察团共探全球机遇：第一站印尼！

创新创业 YonSuite

在全球化的新浪潮中，越来越多的中国企业从“走出去”到“融进去”，以更开放、更敏捷的姿态面对国际市场的...

2024-12-09

复旦张江（688505）抗Her2抗体偶联BB05项目于欧洲肿瘤内科学会亚洲

上市公司复旦张江

近日，2024年欧洲肿瘤内科学会亚洲年会（ESMO Asia）在新加坡召开

2024-12-09

飞来汇荣膺产业互联网千峰奖，以数字科技高效赋能跨境支付

创新创业飞来汇

日前，2024亿邦产业互联网峰会“千峰之夜”在上海举办，在百余位产业互联网企业决策人、投资人以及业界...

2024-12-09

永泰运定增预案：顺应政策东风，加速供应链服务转型

上市公司永泰运

在国家政策的大力支持和行业趋势的推动下，永泰运化工物流股份有限公司（以下简称“永泰运”）正站在新的发...

2024-12-09

视源股份亮相2024企业家博鳌论坛，被评“新质生产力智能制造典范”称号

上市公司视源股份

12月2日至4日,由新华通讯社、海南省人民政府指导,新华社品牌工作办公室、新华网、新华社海南分社主办...

2024-12-09

启航新纪元：百城千店，茶馆与心理咨询的创新融合之旅

创新创业 " 百城千店 "

12 月 7 日，" 百城千店 " 项目启航高峰论坛，在古城西安碑林区的中信银行西安分行私人银行中心...

2024-12-09

从大模型到世界模型：人工智能的进阶之路

创新创业李飞飞

12月3日，由「AI 教母」李飞飞联合创办的 World Labs 发布了他们的第一个「空间智能」模...

2024-12-09

投资家网（www.investorscn.com）是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务，包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流，并可加入微信群参与官方活动，赶快行动吧。