二十多年首次!这个上海同济大学研究生、阿里达摩院实习生,拿到全球人工智能领域顶级学术会议的最佳学生论文奖(二十多年前的电影)

0 minutes, 11 seconds Read


全球人工智能领域最具影响力的大会cvpr近日宣布,将2022年“最佳学生论文”奖颁给同济大学研二学生陈涵晟等人,这是二十多年来首次有中国高校学生获此殊荣。
该论文是陈涵晟在阿里达摩院实习期间的成果,融合了传统几何推理和深度学习,提出了计算3d物体位姿的新方法,能从单张图片计算出3d物体在真实世界里的位置和朝向,有望成为自动驾驶、机器人等技术发展的理论动力。
cvpr(国际计算机视觉与模式识别会议)是人工智能领域的顶级学术会议,今年共收到8161篇论文投稿,最终录取2064篇,只评出最佳论文和最佳学生论文各1篇。cvpr的最佳论文和最佳学生论文常被视作ai技术风向标,诞生了resnet等一系列标志成果。
cvpr早在2001年就设立最佳学生论文奖,今年首次发给中国高校学生。获奖论文《epro-pnp: generalized end-to-end probabilistic perspective-n-points for monocular object pose estimation 》来自同济大学汽车学院和阿里巴巴达摩院,作者分别是陈涵晟、王丕超、王帆、田炜、熊璐、李昊。
论文研究的是3d视觉领域经典问题,通过单张图像求解3d物体在真实世界里的位姿(位置和朝向)。这一技术方向应用前景广阔,是自动驾驶、机器人等行业的基础技术。比如在自动驾驶中,只有先计算出周边车辆的位姿,判断对方究竟是要加速、刹车还是变道,己方车辆才能做出对应操作,计算不准或者过慢都有可能引发事故。

3d物体的位姿计算示意

通过单张图像定位3d物体极具挑战性。一般有两类解决方法:
一类是基于几何推理,例如pnp算法,可解释性好、泛化能力强,但需要提前知道物体的尺寸和形状,具有较大的局限性;
另一类是深度学习方法,可预测3d物体的位置坐标和朝向角度,但在小规模数据集上容易过拟合。
获奖论文提出的新方法epro-pnp,创造性地引入概率分布,将几何推理和深度学习两种方法无缝衔接,形成了一个端到端的易用模型,可以快速估算3d物体的位姿。
实验证明,新模型通用性强、定位准确,不需要提前知道物体的几何形状;更要重的是非常简洁,效率较高,且具有较好的可解释性,有望用于自动驾驶、机器人、无人机、ar等诸多需要通过视觉来估算物体位姿的场景。

epro-pnp方法示意

据了解,论文第一作者陈涵晟本硕都就读于同济大学汽车学院,目前研究生二年级在读,导师为熊璐教授,副导师为田炜助理教授,达摩院导师为王丕超博士。他的研究方向是计算机视觉中的3d物体位姿估计,研一就已在cvpr发表论文。2021年到阿里达摩院做研究型实习生后,陈涵晟在达摩院日常研究讨论中碰撞出灵感,尝试去构造统一的理论框架。“我原来以为这篇论文可能比较冷门,因为太偏数学,没想到能够获奖。”陈涵晟说。

同济大学研究生陈涵晟

论文第一通讯作者、达摩院算法专家王丕超博士表示,这篇论文特别之处在于,用数学的方式解决ai底层问题,带来了基础理论上的突破,对3d视觉领域的研究和应用都将产生积极影响。“核心创新是转换数学视角,引入概率密度,把不可导的函数变成可导,所以能通过反向传播来训练深度网络,最终实现稳定收敛,提升3d物体的定位精度。”
据悉,研究型实习生是阿里巴巴在2017年创立的科研项目,目前全球已有200多所高校的1000多名学生参与该项目,他们绝大部分来自计算机相关领域,博士生占比超7成。
今年,阿里计划开放200多个科研选题,如“量子算法”、“量子器件测量”、“用于公开道路自动驾驶的离线强化学习算法”、“基于多模态大模型的泛内容理解”、“亚运智慧交通预约出行优化与碳足迹计算”等,研究领域涵盖量子计算、自动驾驶、人工智能、网络安全等数十个方向。
论文链接:https:/

/arxiv.org/abs/2203.13254

Similar Posts

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

|京ICP备2022015867号-3