计算机视觉分两大类:1.识别 2. 三维。我读书的时候research是做三维的,老板是Marr奖得主。
本书刚出的时候,我国内的老板就带了一本回国。当时还没有入门,但richard的书写的非常容易看。从single view开始看,很快就看进去了。第一次感受到科学的神奇就是那个暑假。真是读的大汗淋漓,总有击节赞赏,拍案叫好的冲动。
简直是活生生看着从针孔相机模型一个简单投影矩阵,推出二视的epipolar约束,到三视trifocal tensor, 到N view的张量模型。N view之后,就主要是最近十年(90年中期至2004年)的contribution的总结。由二视关系推出的KK'及其对偶,构成了自定标的基础。并且之后的更深的推到,愈发的beautiful,几乎所有的方程虚数解,在几何上都有确切的物理含义。
什么是computer vision的理论基础?多视几何是唯一的只属于vision的东西。模式识别,machine learning都算么?我看不算,视觉的识别只是其一个应用。machine learning自己的基础也不牢固,基本模型就一个贝叶斯后验概率。
但多视几何是完完整整的相机模型推出来的。epipolar 约束是不多的视觉界上过nature还是science的文章(80年代。。。)。和识别不同,参数估计是几何问题里非常critical的部分,所以数值计算和速度很重要,也比较有意思。
当做识别的vision只有部分的成功之时(人脸, ocr,指纹等特定category),做几何的vision已经应用到google earth, street view, 和photo synth,都是大把的真金白银。为什么?因为它的基础,就是这本书,很牢固,有清晰的可以算的东西;而识别,更多的是在猜那个模型,然后灌水来证明这个模型。
作者richard hartley。要知道,人家原本不是干vision这行,是GE 的EE的研究员。干一行爱一行,碰了vision,人就发了epipolar约束的那篇文章。然后越走越深。三view,N view都跟着被讨论出来。比如微软研究院的张正友和HK的权龙,当年的contribution都非常大。到后来的自定标完成,算是理论上告一大段落。前后二十年,真是一批牛人啊。
著书立说的感觉还是不同,挣多少钱都比不上那种滋味。