由商汤科技、全球高校人工智能学术联盟主办的研无止境——ECCV 2022 论文分享会将于北京时间9月17日9点-17点举办。本次直播活动,将聚焦四大热门Workshop,覆盖多项科研领域,欢迎关注本届ECCV的同学们锁定直播间,预约观看!
活动日程
重磅嘉宾开场致辞,四大热门领域Keynote分享,12篇精华ECCV 2022论文解读,更有来自学界、业界的嘉宾们共同做客学术会客厅。速戳 ,不错过精彩内容!
Workshop速览
09:10-10:25 视觉Transformer
代季峰
清华大学
Keynote: Vision Transformer
主讲人介绍:
• 清华大学副教授,本科及博士毕业于清华大学自动化系,曾赴UCLA访学
• 研究领域为计算机视觉中的物体检测、分割问题及深度学习算法
• 于2014年至2019年期间担任微软亚洲研究院(MSRA)视觉计算机组Principal Research Manager
• 在顶级国际会议和期刊上共发表50余篇论文,谷歌引用21000余次
• 曾经连续两年在本领域内权威的COCO物体识别竞赛中获得第一名
• IJCV编委,CVPR 2021和ECCV 2020领域主席
司马崇昊
普渡大学
PersFormer:基于仿射Transformer的三维车道线检测器与OpenLane数据集
论文摘要:
传统的单目2D车道检测方案在自动驾驶的跟踪规划和控制任务中性能较差;3D车道检测方案在前视图和鸟瞰视图(BEV)之间的空间转换设计过于简单,并且缺乏真实的数据,在复杂场景下不适用。针对这些问题,团队提出了PersFormer (Perspective Transformer):一种端到端的单目3D车道线检测器,其中有一个基于Transformer的空间特征转换模块。模型以相机参数为参考,通过关注相关的前视图局部区域来生成BEV特征。PersFormer采用统一的2D/3D锚点设计和加入一个辅助任务来同时检测2D/3D车道,多任务之间分享特征,增强了特征的一致性。
同时,在该论文中发布了业内第一个大规模真实场景3D车道数据集——OpenLane,具有高质量的注释和场景多样性。该数据集基于自动驾驶领域的主流数据集Waymo Open Dataset构建。OpenLane包含20万帧、超过88万条实例级车道、14个车道类别(单白色虚线、双黄色实体、左/右路边等),以及场景标签和路线邻近目标(CIPO)注释,以鼓励开发3D车道检测和更多与产业相关的自动驾驶方法。
主讲人介绍:
司马崇昊,普渡大学博士生。主要研究方向为AI X Science和3D Vision,在NeurIPS、ECCV上发表3篇论文(2篇一作,1篇三作),期间负责3D目标检测和数据集搭建,发布业内第一个真实场景3D车道线数据集OpenLane,GitHub star 200+。
刘吉豪
商汤科技
UniNet:联合Conv、Transformer和MLP的网络结构搜索
论文摘要:
高效的神经网络结构是基于深度学习的视觉应用的基石,基于单一OP的网络结构如ResNet、ViT、MLP-Mixer等在视觉任务上取得了很好的效果,但如何结合不同操作的inductive bias来构建更高效的基础网络结构仍然是一个重要的研究问题。区别于以往用手工设计的方式来组合不同性质的OP,本文将这些OP统一在一个联合的搜索空间中,利用强化学习算法来自动地搜索出最优的OP组合。此外,本文设计了可以衔接不同OP的下采样模块,来帮助混合构架中不同OP之间的信息交互。经过搜索之后,最优的网络被保留下来,通过放大这个最优网络,我们构建出一个高效的网络结构簇UniNet。在分类、检测、分割的任务上,UniNet的性能远远超过了基于单一OP的神经网络结构,也为后续的混合构架设计提供了参考。
主讲人介绍:
刘吉豪,商汤科技基模型部门AutoML研究员,主要从事网络结构搜索、知识蒸馏、自监督学习相关的研究。在ICCV、CVPR、ECCV等会议上发表多篇论文,曾获得LFR Challenge第一名,参与NIST FRVT 1:N人脸识别全球评测获得五项第一,NIST FRVT 1:1以及1:1口罩人脸识别全球第一。
李祥泰
南洋理工大学
Fashionformer:一种简单高效的基于Vision Transformer的人体部件分割与分析的基准模型
论文摘要:
本文提出了Fashsionformer,一种基于DETR的模型来进行人体部件分割与属性 分析的基准模型。 相比于之前的基于Mask-RCNN加多个属性识别预测头部的方法,本文的方法显式地使用Object Query与Attribute Query把两个子任务有机地结合到一起。 根据属性识别需要更加细粒度信息的特性,结合部件分割的输出,本文设计了一种基于mask的多尺度聚合模块,用Object Query的输出对Attribute Query进行动态卷积操作。 在目前开源的最大的HumanFashion数据集上,本文提出的方法比之前基于Mask-Attribute-RCNN的方法高出了10个百分点,并在三个相关的human fashion 数据集取得了领先结果,相关的代码和模型已经开源。
主讲人介绍:
李祥泰,南洋理工S-Lab博后研究员,博士毕业于北京大学智能学院,曾获得北 京市优秀毕业生、国家奖学金、校长奖学金等等。 主要研究方向是场景理解、视频与图像分割问题,其中以第一作者身份的相关研究成果发表在了CVPR、ICCV、ECCV等国际顶级会议上,担任TPAMI、IJCV、CVPR、ECCV、ICLR等顶级会议与期刊的审稿人。
10:25-11:40 深度学习
欧阳万里
悉尼大学
Keynote: Deep Learning
主讲人介绍:
• 悉尼大学副教授,香港中文大学电子工程系博士
• 研究方向包括计算机视觉、模式识别、深度学习等
• 主要从事基于深度学习结构设计,物体检测与跟踪,以及AI for Science的课题研究
• 带领团队获ImageNet和COCO物体检测第一名
• ICCV最佳审稿人,IJCV和Pattern Recognition编委,TRAMI客座编辑,IEEE高级会员,ICCV 2019展示主席,CVPR、ICCV、AAAI领域主席
• 入选2021年度「人工智能全球2000位最具影响力学者榜」计算机视觉领域前100名学者
• 获悉尼大学“科研杰出校长奖”
吴昊宁
南洋理工大学
通过碎片采样实现的高效端到端视频质量评估
论文摘要:
当前的深度视频质量评估(VQA)方法在评估高分辨率视频时通常具有很高的计算成本。这种成本阻碍了他们通过端到端训练学习更好的视频质量相关表示。现有方法通常考虑朴素采样以降低计算成本,例如调整大小和裁剪。然而,它们显然会破坏视频中与质量相关的信息,因此对于学习 VQA 的良好表示并不是最优的。因此,迫切需要为 VQA 设计一种新的质量保留采样方案。在本文中,我们提出了网格迷你切片采样(GMS),它允许通过以原始分辨率采样切片来考虑局部质量,并通过在均匀网格中采样的迷你切片覆盖具有上下文关系的全局质量。这些迷你切片被拼接且在时域上对齐,称为碎片。我们进一步构建了碎片注意力网络(FANet),专门设计用于容纳碎片作为输入。由碎片和 FANet 组成,提出的用于 VQA 的 FraAgment Sample Transformer (FAST-VQA) 可实现高效的端到端深度 VQA,并学习有效的视频质量相关表示。相比最先进的方法,FAST-VQA在精度提升 10%的同时,在 1080P 高分辨率视频上减少了 99.5% 的浮点操作数。新学习的与视频质量相关的表示也可以转移到更小的 VQA 数据集中,从而提高这些场景的性能。大量实验表明,FAST-VQA 在保持高效率的同时,对各种分辨率的输入都具有良好的性能。
主讲人介绍:
吴昊宁,南洋理工大学在读博士二年级,本科毕业于北京大学智能科学系。现主要研究方向为视频质量评估及其可解释性,师从林维斯教授。在ECCV、ACMMM等会议已发表有关视频质量评估方向的文章。
何逸楠
上海人工智能实验室
X-Learner:多源多任务的通用视觉表征学习
论文摘要:
现有的有监督学习工作主要集中在从具有单一数据源的单个任务中学习,缺乏来自各种任务和数据源的大量语义信息,这种受限形式限制了它们的通用性。在本文中,我们证明了从异构任务和多个数据源中联合学习有助于通用视觉表示,从而更好地传输各种下游任务的结果。我们提出了一个具有两个阶段的表示学习方法:1)扩展阶段:X-Learner 受到异构任务的多个数据源监督信号,并通过我们提出的调谐层学习一组通用表征;2)萃取阶段:X-Learner 将模型压缩到合理的大小,并学习适用于各种任务、泛化性强的表示。大量实验表明,与现有的表示学习方法相比,X-Learner 在不同的任务上实现了强大的性能,而无需额外的注释、模态数据和计算成本。X-Learner 模型在 12 个用于分类、对象检测和语义分割的下游数据集上比当前预训练模型分别提升3.0%、3.3% 和 1.8%。
主讲人介绍:
何逸楠,上海人工智能实验室算法工程师,曾获得商汤科技未来之星、北京市优秀毕业生等奖项。在人脸活体、人脸深度伪造等领域有较为丰富的落地经验,相关研究成果发表在CVPR等国际顶级会议上。现主要研究方向为通用视频特征表示学习,参与书生1.0通才模型和书生2.0视频模型的研发。
田昶尧
香港中文大学
VL-LTR:面向长尾视觉识别的类级别多模态表征学习框架
论文摘要:
本文提出了VL-LTR —— 一种全新的多模态长尾神经网络训练框架。该框架在传统单模态图像编码分类模型的基础上,通过引入类级别的自然语言文本描述信息,实现上游图文预训练向下游长尾场景的知识迁移,进而提高模型在长尾数据上的表现。实验表明,本方法在ImageNet-LT、Places-LT和iNaturalist 2018这三个长尾数据集上均可达到当前的最优性能。特别地,在ImageNet-LT数据集上,本方法可以达到77.1%的总体准确率,超过之前的最优模型逾17个百分点,与在原ImageNet-1k数据集上直接训练得到的模型性能几乎相当。
主讲人介绍:
田昶尧,香港中文大学多媒体实验室一年级博士生,师从李鸿升教授与代季峰教授。本科毕业于北京航空航天大学,曾获北京市三好学生、国家奖学金等。现主要研究方向为多模态表征学习、弱监督数据自清洗等,相关研究成果已发表在ECCV等国际顶级会议上。
14:10-15:15 三维视觉
刘子纬
南洋理工大学
Keynote: Neural Intuitive Avatars
主讲人介绍:
• 新加坡南洋理工大学助理教授,获“南洋学者”称号
• 研究兴趣为计算机视觉、机器学习和计算机图形学
• 发表国际顶级计算机视觉会议及期刊论文80余篇,总引用量超过18000次
• 领导搭建数个国际知名计算机视觉基准数据库和开源项目,如CelebA、DeepFashion、MMFashion和MMHuman3D等
• 国际顶级计算机视觉会议ICCV、NeurIPS和ICLR的领域主席
• 香港政府博士奖、ICCV青年学者奖、HKSTP最佳论文奖、微软小学者奖等多个领域内奖项
• 2022年获百度AI计算机视觉青年学者,2021年入选「人工智能全球2000位最具影响力学者榜」
许鲁珉
香港中文大学
估计任意物体姿态:通往类别无关的姿态估计
论文摘要:
本文定义了一项类别无关的姿态估计(Category-Agnostic Pose Estimation, CAPE)任务。该任务要求检测器只根据一张参考图像和对应的关键点定义,来检测任意类别物体的姿态,这极大减少了数据标注和模型训练的成本。针对该任务,论文提出了姿态匹配网络(POse Matching Network, POMNet),将姿态估计任务建模为匹配问题,以适应不同关键点数量和关键点定义。同时,作者贡献了包含多类物体的姿态估计数据集MP-100,用于模型的训练和测试。
主讲人介绍:
许鲁珉,香港中文大学MMLab博士生,曾获香港博士生奖学金、国家奖学金等。现主要研究方向为姿态估计和高效神经网络,在TPAMI、CVPR、ECCV等顶级期刊会议上发表多篇论文。
蔡中昂
南洋理工大学
HuMMan:Multi-Modal 4D Human Dataset for Vesatile Sensing and Modeling
论文摘要:
人的4D感知与建模是计算机视觉和图像学的基本任务,也有着广泛的应用。随着新传感器与算法的出现,对多样化的数据集的需求也日渐提升。在这个工作中,我们贡献了HuMMan,一个大规模的多模态4D人体数据集。HuMMan包含1000个人物,40万段视频,6000万帧数据。HuMMan有着多个优势:1)多模态数据和标注包括彩色图片、点云、关键点、SMPL参数以及带纹理的网格模型;2)数据采集方案中部署了移动端设备;3)一个500个动作的集合,覆盖了人体基本的动作;4)HuMMan支持多种任务如动作识别、姿态估计、参数化人体估计以及带纹理的网格模型重建。在HuMMan上的实验指出了细粒度的动作识别、动态人体网格模型重建、基于点云的参数化人体估计以及跨设备的域间隙(domain gap)都是非常值得深入研究的问题。
主讲人介绍:
蔡中昂,新加坡南洋理工大学在读博士生,商汤科技AI先锋、未来之星,曾获新加坡李光耀金牌,在ECCV、ICCV、CVPR、ICLR、SIGGRAPH等会议上发表论文十余篇(其中4篇一作/共一),MMHuman3D代码库负责人。目前研究方向为参数化人体模型及其应用。
刘锡安
香港中文大学
语义感知的音频驱动肖像神经辐射场生成
论文摘要:
使用语音音频制作高保真视频肖像动画对于虚拟现实和数字娱乐至关重要。虽然以前的大多数研究都依赖于准确的显式结构信息,但最近的工作探索了神经辐射场 (NeRF) 的隐式场景表示以进行逼真的生成。为了捕捉不一致的运动以及人头和躯干之间的语义差异,一些工作通过两组单独的 NeRF 对其进行建模,导致结果不自然。在这项工作中,我们提出了语义感知的音频驱动肖像神经辐射场 (SSP-NeRF),它使用一组统一的 NeRF 创建精致的音频驱动人像。所提出的模型可以通过两个语义感知模块来处理详细的局部面部语义和全局头部-躯干关系。具体来说,我们首先提出了一个语义感知动态光线采样模块,该模块带有一个额外的解析分支,可以促进音频驱动的体积渲染。此外,为了在一个统一的神经辐射场中实现人像渲染,设计了一个躯干变形模块来稳定大规模的非刚性躯干运动。广泛的评估表明,我们提出的方法可以渲染逼真的视频肖像。
主讲人介绍:
刘锡安,香港中文大学博士二年级在读,曾获得商汤奖学金、国家奖学金、浙江省优秀毕业生等。现主要研究方向为生成模型、跨模态学习以及虚拟数字人技术,在CVPR、ICCV、ECCV、AAAI等会议上发表多篇论文(其中3篇一作)。
15:15-16:30 目标检测、分割与跟踪
吕健勤
南洋理工大学
Keynote: Towards Versatile and Open Visual Perception
主讲人介绍:
• 新加坡南洋理工大学副教授,香港中文大学客座副教授,MMLab@NTU主任,商汤-南洋理工大学联合实验室S-Lab副主任
• 研究方向主要为计算机视觉和深度学习,专注于图像/视频恢复和增强、生成任务和表征学习
• 发表国际顶级期刊与会论文140余篇,其论文被引用超过42000次
• 指导研究团队参加NTIRE、MSCOCO、DAVIS等计算机视觉国际比赛获得多个冠军
• 团队提出的SRCNN是图像超分辨率的标志性工作,对后续研究产生重要影响
• 现任IJCV和TPAMI的杂志副主编,且担任多个国际顶会和期刊的审稿人,IEEE高级会员
• 2019年获颁南洋学者奖,其后入选2020,2021和2022年度「人工智能全球2000位最具影响力学者榜」前100名学者
王泰
南洋理工大学
基于运动估计深度的单目3D检测
论文摘要:
考虑到与多传感器设置相比的经济性,从单一相机(单目)输入中感知3D物体对于机器人系统至关重要。其中的挑战在于单张图像无法提供足够线索来预测绝对深度值。受双目三维目标检测方法的启发,我们利用相机自我运动提供的重要几何结构来精确估计和检测目标深度。我们首先对这一种通常的双视角情况进行了理论分析,并注意到两个挑战:1)来自多个估计的累积误差使得深度的直接预测难以进行;2)当相机自身静止和立体匹配存在模糊性时造成的固有困境。因此,我们通过几何性可知的损失度量建立立体对应关系,作为深度估计的替代方案,并用单目理解对其进行进一步补偿,以解决第二个问题。我们的框架名为运动估计深度(DfM),它使用已建立的几何体将二维图像特征提升到三维空间,并检测其上的三维对象。我们还提出了一种未知姿态情况下的DfM,使其在相机姿态未知时依然可用。在KITTI基准上,我们的框架大大优于最先进的方法。详细的定量和定性分析也验证了我们的理论结论。
主讲人介绍:
王泰,香港中文大学MMLab在读博士生,现主要研究方向为通用三维感知,相关研究发表于CoRL、CVPR、ECCV等顶级会议上,在nuScenes、Waymo等竞赛中多次获奖,负责设计和开发通用3D检测算法库 MMDetection3D。曾获ICCV纯视觉3D检测 workshop best paper、港府奖学金、浙大竺可桢奖学金等荣誉。
周冲
南洋理工大学
利用CLIP获取免费密集标签
论文摘要:
CLIP在开放集零样本图像识别任务上收获了巨大成功,因而许多后续研究借助预训练好的CLIP模型进行图像级别的分类或编辑任务。本文旨在探索CLIP在像素级别的密集预测任务上的潜力(如语义分割)。通过对CLIP进行简单修改,我们提出了MaskCLIP,其在不需要任何标签和微调的情况下取得了不错的性能,而进一步利用MaskCLIP的预测作为伪标签进行训练得到的MaskCLIP+模型更是达到了远超零样本分割SOTA的性能表现。除了标准公开数据集,我们还测试了MaskCLIP识别细粒度以及新颖目标的能力(如蝙蝠侠)。我们的发现表明,MaskCLIP可以作为一种新的且可靠的密集预测任务的监督来源。
主讲人介绍:
周冲,新加坡南洋理工大学在读博士生,主要从事目标检测、实例分割、多模态模型的相关研究,曾在ICCV、ECCV、TPAMI上发表多篇论文。
王渌汀
北京航空航天大学
基于异构助教网络的异构检测蒸馏技术
论文摘要:
传统的目标检测知识蒸馏技术(KD)主要应用于同构的师生检测器上。然而用于部署的轻量级检测器通常在结构设计上,与大容量检测器有显著不同。因此,我们研究了异构师生对之间的KD,以适配更加广泛的应用场景。我们观察到,异构师生的骨干网络特征之间存在显著的语义差异,导致传统的同构KD方法难以直接获得可观的异构KD性能。在本文中,我们提出了异构助教蒸馏(HEAD)框架,利用教师检测头作为助教网络来指导学生检测器的优化。为了适配无教师检测器的情况,我们将HEAD进一步扩展为TF-HEAD框架。在MS-COCO数据集上,TF-HEAD帮助R18 RetinNet达到33.9 mAP(+2.2),HEAD进一步提升至36.2 mAP(+4.5)。
主讲人介绍:
王渌汀,北京航空航天大学人工智能研究院在读研究生,曾获得国家奖学金、数学建模竞赛全国一等奖等。现主要研究方向为目标检测知识蒸馏技术,在CVPR和ECCV上各发表一篇论文。相关研究成果应用于智能车舱业务线中。
本文来自:公众号【 商汤学术】 作者:商汤学术
-The End-
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈