群星璀璨的经典二十年_Multiple View Geometry in Computer Vision书评-查字典图书网

计算机视觉分两大类：1.识别 2. 三维。我读书的时候research是做三维的，老板是Marr奖得主。

本书刚出的时候，我国内的老板就带了一本回国。当时还没有入门，但richard的书写的非常容易看。从single view开始看，很快就看进去了。第一次感受到科学的神奇就是那个暑假。真是读的大汗淋漓，总有击节赞赏，拍案叫好的冲动。

简直是活生生看着从针孔相机模型一个简单投影矩阵，推出二视的epipolar约束，到三视trifocal tensor, 到N view的张量模型。N view之后，就主要是最近十年（90年中期至2004年）的contribution的总结。由二视关系推出的KK'及其对偶，构成了自定标的基础。并且之后的更深的推到，愈发的beautiful，几乎所有的方程虚数解，在几何上都有确切的物理含义。

什么是computer vision的理论基础？多视几何是唯一的只属于vision的东西。模式识别，machine learning都算么？我看不算，视觉的识别只是其一个应用。machine learning自己的基础也不牢固，基本模型就一个贝叶斯后验概率。

但多视几何是完完整整的相机模型推出来的。epipolar 约束是不多的视觉界上过nature还是science的文章（80年代。。。）。和识别不同，参数估计是几何问题里非常critical的部分，所以数值计算和速度很重要，也比较有意思。

当做识别的vision只有部分的成功之时（人脸, ocr，指纹等特定category），做几何的vision已经应用到google earth, street view, 和photo synth，都是大把的真金白银。为什么？因为它的基础，就是这本书，很牢固，有清晰的可以算的东西；而识别，更多的是在猜那个模型，然后灌水来证明这个模型。

作者richard hartley。要知道，人家原本不是干vision这行，是GE 的EE的研究员。干一行爱一行，碰了vision，人就发了epipolar约束的那篇文章。然后越走越深。三view，N view都跟着被讨论出来。比如微软研究院的张正友和HK的权龙，当年的contribution都非常大。到后来的自定标完成，算是理论上告一大段落。前后二十年，真是一批牛人啊。

著书立说的感觉还是不同，挣多少钱都比不上那种滋味。

群星璀璨的经典二十年

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“群星璀璨的经典二十年”的回应