王兴刚:为计算机视觉研究创造更多可能!

“当前,新一轮科技革命和产业革命正在发生,与我国的高质量发展形成历史交汇。”7月20日,华中科技大学电子信息与通信学院副教授王兴刚对科技日报记者说,在努力实现高质量发展的道路上奋进,青年科技工作者使命在肩,当仁不让。

十余年如一日,王兴刚围绕目标检测与分割这个世界瞩目的计算机视觉问题,不断取得新突破,诠释了新时期青年学者的中国自信。

放弃高薪站上三尺讲台

青春无憾,奋斗不息。

就读博士期间,王兴刚获得了2012年度亚洲唯一的计算机视觉领域“微软学者”奖。毕业后,他放弃了数家知名互联网企业的高薪,站上了三尺讲台,带领团队勇闯“高效率视觉目标识别”研发难关,为计算机视觉研究创造更多可能。

计算机视觉是人工智能领域的前沿研究学科,旨在研究如何运用照相机和计算机获取被拍摄对象的数据与信息。计算机视觉的应用,如同给计算机安装上“眼睛”和“大脑”。

目前,全球计算机视觉识别研究存在三大难题:深度神经网络模型难以准确灵活地刻画复杂的视觉场景特征;视觉识别模型依赖完美精确的人工标注数据来训练学;方法需要的计算量大、功耗高,难以在低成本硬件上实时运行。

王兴刚表示,在他博士毕业的时候,国内在此领域的研究才刚刚起步,从事计算机视觉基础理论和方法的研究人员还比较少。面对这样的情况,他潜心研究,大胆创新,成功“解锁”了计算机视觉识别巨大潜力。

独辟蹊径解决难题

怎样破解国内视觉识别发展的难题?走自己的路是关键。

面对国内实验设备缺乏、团队经费不足、人手严重不够的现状,王兴刚摒弃国外研究机构做大算力、大模型的研发思路,转而从数据高效和计算高效的角度独辟蹊径。

王兴刚带领团队研发空间稀疏的视觉自注意力模型,研发的模型在图像视频语义分割、目标检测等视觉识别问题中被广泛采用。去年,该成果被《自然》封面文章蛋白质结构预测人工智能(AI)阿尔法折叠(AlphaFold)使用,有效解决了人工智能程序AlphaFold的内存爆炸和计算速度慢难题。

“我们首创的快速神经网络自适应机制,使目标分割神经网络架构搜索的速度相对谷歌提出的DPC方法快了1700倍。”王兴刚表示。

今年4月,王兴刚团队关于《基于神经结构搜索的高效率人体姿态估计》的论文获得了《计算机可视媒体》期刊2021年度最佳论文奖。

“作为一名80后青年科技工作者,我经历了中国科研由弱到强的发展历程和由不自信到自信的心路历程。”在王兴刚看来,科研自信是扎根中国大地的中国科技工作者的自信,是中国科研体系的自信。作为一名中国科技工作者,践行科研报国的初心义不容辞。

标签: 计算机视觉 电子信息 互联网企业 神经结构