深度学习和计算机视觉领域在2018年还有哪些能突破/兴起或者全新的发展方向?
videoretrieval,说实话,目前的videoretrieval,大多要么使用imageretrieval和ann结合的方式来处理,要么是还基于传统手工算子,要么就是基于相邻帧图像编码,比如直接求平均或者lstm之类的方法。对于更为复杂的问题,例如我有一个gif,我希望找到出自哪部电影,我有一段电影片段,我希望找到这张图究竟来自于电影的第几分第几秒来定位。这些都是目前几乎无人研究的。objectretrieval,曾经甚至被认为是图像检索的典型问题,每年都能看到海量论文,然而近几年人脸识别和reid等领域快速发展,这个领域却几乎毫无进展,对于oxfordbuilding这种数据集,目前深度学习的性能才勉强和传统手工算子方法持平,甚至还略差一些,大多方法都是对featuremap抽取后离线做大量处理,完全没发挥深度学习的优势。从我个人感官来看,这个问题其实是可以和tracking领域相辅相成的,从这个思路出发,或许也能挖出一些新的有趣的结论。

安利一波有关对抗样本的工作。现在很多深度学习的应用想要在工业界落地,但是对抗样本的存在使得这些应用的安全性得不到保障。比如说无人车自动驾驶,如果摄像头拍到的图像由于微小的噪声扰动而被错误地识别,后果可能会很严重。进一步来说,对抗样本的存在,会使得实际应用中深度学习只能应用在一些高容错率的场合中。所以,我们希望可以搞清楚以下这些问题:对抗样本为什么存在?对抗样本为什么会有迁移能力?对抗样本是不是神经网络中的本质问题?是否对于所有的神经网络都存在对抗样本的问题?如何抵御对抗攻击?这个领域很神奇的地方在于,从2013年到现在,这些问题仍都还是开放性问题,缺乏靠谱的理论解释。原因在于深度学习兴起至今,我们对神经网络的了解太少了。由于维度太高,我们很难对losssurface长什么样有一个靠谱的认识,很难解释为什么只要梯度下降就可以找到还不错的局部最优解,很难解释ReLU和其他的一些激活函数对神经网络的决策边界有什么影响。换句话说,在这个领域的突破,最需要的助力是在深度学习理论方面的突破,而后者太难太难了。
