Tag: cvpr

ICCV 2019 Notes

去年10月份参加的ICCV,这次主要关注的几个方向:

– Efficient DNN Inference
– 3D Vision, especially 6DOF pose estimation
– Fundamental improvements in DNN representation learning
– Applications on Human/Face

Efficient DNN Inference 

Low-Power Computer Vision Workshop: 这个Workshop组织了一个竞赛叫Low-Power Image Recognition Challenge (LPIRC)。定义指标里不仅仅考量模型的精度,也同时考量模型运行时的能耗。这个Workshop里有部分报告来自竞赛的优胜队伍,分享一些技术上的技巧,也有一些来自业界和学界的报告。

Prof. Soonhoi Ha  讲了 Software-Hardware Co-Design,期间也分享了一些提高比赛分数的技巧。

Image

Image

另一个印象比较有印象的 来自 Qualcomm 的 Edwin Park 的报告。他们做在芯片中的Vision算法对能耗特别敏感,而且是一个always-on的应用场景。

Image

我感觉考虑能耗还是需要和硬件结合起来做,软件层面有些改进是直接提高分数的,比如更好的loss。但是涉及到网络结构和inference方式的改进基本上都需要权衡速度和精度。虽然目前这个Workshop中最好的方法从数值上看结果还不够好,但这个方向还是很有意义的。只是考虑到目前硬件以及深度学习编译器的发展,可能评测的方式得有所改进。

主会逛poster也看到了一些相关的文章:

3D Vision, especially 6DOF pose estimation

这个方向上主要是听了一个Workshop on Recovering 6D Object Pose。比较完整的听完了Eric Brachmann的Talk。他的思路是大体按照传统方法分步做物体的姿态估计,但是利用deep learning把中间的一些部分弄成可微的,然后用训练得到的组件替换之前的传统方法。很合理的思路,看起来效果也不错。他的slides也是公开的

Image

后来 Matthias Nießner 也讲了他最近的SCAN2CAD,其实是他们CVPR 2019的工作。这个方向我觉得很好,不是单纯的分割。分割出来其实还是要做语义上的分析,而且实际应用中有CAD模型的场景并不少见,是个很好方向。

 

主会逛poster看到的一些相关的文章:

Xu Chen, Jie Song, Otmar Hilliges, Monocular Neural Image Based Rendering With Continuous View Control  这篇的生成新视角的效果很好,现场看到的图分辨率很高也很真实)

Fundamental improvements in DNN representation learning 相关的一些文章:

Applications on Human/Face 相关的一些文章:

第一次参加ICCV。和CVPR相比,会议安排日程相对宽松,还预留了半天休息的时间。Poster区域被围绕在参展的厂商的展台中间。可能是参会的人比较多,感觉Poster区域还是太小了,通道里人挤人。在ICCV参展的厂商明显比CVPR少,而且没有自动驾驶的小车也没有大卡车。

CVPR 2018 盐湖城杂记

IMG_7133

这周在盐湖城参加 CVPR 2018,算起来从2012年起,这都是第7次参加这个会议了。今年参会人数达到了六千人之多。可是会场也是不一般的巨大,以至于感觉上人并没有那么多。

到了新的公司之后,参会的主要目的变成了招人。创业公司缺人,当然在现在CV火热的情况下,什么公司都缺人。第一天去帮忙布置公司展台,和同事们在会场里跑来跑去的,一天下来走了超过10公里。

IMG_7132

所幸展台好歹是布置起来了,看上去还不错。和大厂没办法比,作为第一次参展的公司,算是差强人意了。

IMG_7134

今年会议的特点特别明显,就是车多。场馆里面停着各个自动驾驶,无人驾驶公司的汽车和卡车。比如Waymo的车,经常在280上看到的;
IMG_7158

还有TuSimple的大卡车:
IMG_7160

其它的车还有很多,没有拍照片,外观看起来基本上都有Waymo的影子。

我自己比较感兴趣的是机器人,仓促的离开展台转了一圈看到两家有意思的公司。

IMG_7159

这个Cozmo的小车已经挺有名了。和他们聊了一下,果然已经有人玩Tensorflow+Cozmo了。有空得弄一个来玩一下 🙂

无人机方面,前两年参展的Skydio已经有产品了,没怎么关注。大疆的无人机也是经常能看见。发现一个新的公司做的室内仓储检测的无人机:

IMG_7157

上面有个ThetaS 360相机。因为之前做无人机拍照项目的时候就在讨论把个360相机放到大疆精灵4上去,所以看到他们的设计感觉非常兴奋。和他们也聊了一会儿,感觉技术上很棒。

其它几件有意思的事情。一个是今年CVPR官方活动的时候弄了几面攀岩墙来玩,试了一下,很不错。
IMG_7155

另外在展台宣传的时候遇到了Niantic的Chief Scientist。开始一下子没有反应过来这个公司是做啥的,然后说到了Pokemon Go就想起来了。当然我知道这个公司之前更有趣的Ingress。
他对此有些意外。很开心的聊了一会儿这个游戏。之后感觉很怀念之前在新泽西和小伙伴玩Ingress的时光,重新下载了App看了一下自己的账号。好歹当年还是贡献过Portal的人啊。
IMG_7166

强哥送了我一个他们的产品。很好玩,等弄的更清楚了再写一篇作介绍。我一直觉得“AI+玩具+教育”是很有前途和意义的方向,希望他们发展顺利。
IMG_7156

最后一天和老朋友去爬山,很拖大家后腿的爬了两个半小时累的气喘吁吁。最后看到这样的景色还是觉得,很值得。
IMG_7240

FullSizeRender

CVPR 2012 酱油记

没有文章,老板还是很nice的给了一次去参加CVPR的机会。虽然只是去酱油一把,但是可以到CV三会之一的CVPR看看,还是很高兴的。

提前一天到了罗德岛,这里貌似是美国最小的一个州。风景不错,但是也不觉得有什么很特别的地方。按照会议进程,头两天是Workshop和Tutorial。Tutorial是集中时间讲一个话题,比如这次有Deep Learning, Gaussian Process这种,这里列出了所有的Tutorial,有很多很吸引人的题目。Workshop是做一个小领域的人们讨论这个方向的文章。一趟下来感觉,除了很偏工程的Tutorial,没有事先看看相关的东西就去听还是比较吃力的。相对来说,Workshop比较容易懂。主要是因为Workshop里的文章多,总有一篇适合你… 两天的Workshop和Tutorial覆盖了各个方向,虽然还没有开始主会,已经感觉是码农进了大观园。感叹各种听不懂…

这两天比较有印象的是Perceptual Organization和Biometric Workshop的几篇文章和Vision Industry & Entrepreneur Workshop的两场演讲,Boaz Super列了很多最近的利用CV技术创业的公司,然后用一大堆数据告诉大家,CV是很有前途地。虽然也听了两次Deep Learning相关的Tutorial,唯一有印象的就是Kai Yu的Sparse Coding那场,他的SC相关的文章回头还得找出来看看。

三天主会还是比较紧的。主会时间是早上8点半开始第一场Posters,一天两场Oral,三场Posters,如果Poster很相关的话,基本上一整天都在那些海报前面走来走去。

我感兴趣的Image Classification相关的文章主要是在第二天和第三天。收获确实不小,看到了很多不熟悉的名词,还有些之前没想到的东西。不过也可能是因为自己比较土鳖,看啥都新鲜…可以和作者讨论是比较理想的状态,而且也很有意思,只是文章读得还是少了,能去讨论的情况不多。今年有好几篇讨论Fine-Grained Classification的文章,做这个的可能会越来越多吧。还有就是知道了Transfer Learning这个方向,和Classification也很相关的。训练样本和测试样本不是同一个环境下得到的,这个本身就是比较实际的问题。Object Recognition这块,还是很多文章在讨论BoW之上的改进,有几篇都是在讨论如何加入空间信息,不知道什么时候会有完全不一样的一套模型出来。然后比较有印象的就是各种Simultaneously,比如把分割,分类,标注等等在一个框架下一块儿做完。Oral里面对于Transfer Learning的两篇印象较深,有一篇是Boqing师兄的,讲得很清楚。

这几天,除了看各种文章,就是看到了各位大牛小牛,认识了一些朋友,不过因为没有文章,也不是很容易讨论起来…还有就是遇到了很多科大的师兄,还有同一级的同学,我科的各位一如既往的给力而且Nice,相当高兴。

有一天吃晚饭的时候因为没有找到地方,和三个外国朋友一桌。有一位是开公司的,不住的抱怨现在CVPR里能用的东西太少,算法太慢。想来也是,现在在做的分类算法就根本不能放在机器人上去用。不过技术总是厚积薄发的,总是很多人做了很久,然后忽然一个突破。虽然取得突破的方法可能看起来全新,之前做的那么多东西都没用上,但是前面的积累想来也是必要的吧。XD

2012.6.20 在回程的大巴上