人工智能首页 > 虚拟现实 > 正文

计算机视觉催生出人脸识别、智能视频监控等应用

2020-01-02 阅读888次

  计算机视觉,顾名思义,是分析、研究让计算机智能化地达到类似人类的双眼“看”的一门研究科学,即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。

  计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别、决策等功能。

  马尔(David Marr)《视觉》一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

  目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。

计算机视觉催生出人脸识别、智能视频监控等应用

  马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算,但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。

  20世纪90年代初,计算机视觉从“萧条”走向“繁荣”,主要得益于以下二方面的因素:一方面,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议、考古、虚拟现实、视频监控等;另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。

  多视几何的代表性人物首数法国INRIA的O.Faugeras,美国 GE研究院的R.Hartely和英国牛津大学的A.Zisserman。2000年Hartely和Zisserman合著的书对这方面的内容给出了比较系统的总结。大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像(4000×3000)、5千幅高分辨率无人机图像(8000×7000),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。

  基于学习的视觉,则是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究,文献中大体上分为二个阶段:21世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。

  近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。


随意打赏