- 实用卷积神经网络:运用Python实现高级深度学习模型
- (印)莫希特·赛瓦克等
- 752字
- 2025-02-25 07:38:36
2.1 CNN历史
几十年来,人们一直试图用机器识别图像。在计算机中模拟人脑的视觉识别系统是一个很大的挑战。人类视觉是最难模仿的,也是大脑最复杂的感官认知系统。我们不会在这里讨论生物神经元(即初级视觉皮层),而是关注人工神经元。物理世界中的物体是三维的,而这些物体的图像是二维的。在本书中,我们不会将神经网络和人脑类比。1963年,计算机科学家拉里·罗伯茨(Larry Roberts),也被称为计算机视觉之父,在他的研究论文《积木世界》(BLOCK WORLD)中描述了从积木的二维透视图中提取三维几何信息的可能性。这是计算机视觉领域的第一个突破。世界上许多机器学习和人工智能领域的研究人员都在跟踪这项工作,并在《积木世界》的背景下研究计算机视觉。不论方向或者灯光发生什么变化,人类都能识别出物体。在这篇论文中,他提到理解图像中简单的形状边缘是非常重要的。为了让计算机理解无论朝向如何这两个方块都是同一个,他从方块中提取出这些边缘状形状,如图2-1所示。

图2-1 从方块中提取边缘状形状
视觉从一个简单的结构开始。这是计算机视觉作为工程模型的开端。麻省理工学院(MIT)计算机视觉科学家大卫·马克(David Mark)提出了下一个重要概念,即视觉是分层的。他写了一本很有影响力的书,名叫《视觉》(VISION)。这是本简单的书,他提出一幅图像由几层组成。这两个原则构成了深度学习架构的基础,尽管它们没有告诉我们用什么样的数学模型。
在20世纪70年代,第一个视觉识别算法——被称为广义圆柱模型(generalized cylinder model)——产生于斯坦福大学的人工智能实验室。它的思想是:世界是由简单的形状组成的,任何真实世界的物体都是这些简单形状的组合。与此同时,SRI公司发布了图结构模型(pictorial structure model),其概念与广义圆柱模型相同,但是各部分是通过弹簧连接的,因此它引入了可变性的概念。2006年,富士胶片公司(Fujifilm)在数码相机中使用了第一种视觉识别算法。