2.1 CNN历史_实用卷积神经网络：运用Python实现高级深度学习模型-QQ阅读女生短篇网

书名：实用卷积神经网络：运用Python实现高级深度学习模型
作者名：(印)莫希特·赛瓦克等
本章字数：752字
更新时间：2025-02-25 07:38:36

2.1　CNN历史

几十年来，人们一直试图用机器识别图像。在计算机中模拟人脑的视觉识别系统是一个很大的挑战。人类视觉是最难模仿的，也是大脑最复杂的感官认知系统。我们不会在这里讨论生物神经元（即初级视觉皮层），而是关注人工神经元。物理世界中的物体是三维的，而这些物体的图像是二维的。在本书中，我们不会将神经网络和人脑类比。1963年，计算机科学家拉里·罗伯茨（Larry Roberts），也被称为计算机视觉之父，在他的研究论文《积木世界》（BLOCK WORLD）中描述了从积木的二维透视图中提取三维几何信息的可能性。这是计算机视觉领域的第一个突破。世界上许多机器学习和人工智能领域的研究人员都在跟踪这项工作，并在《积木世界》的背景下研究计算机视觉。不论方向或者灯光发生什么变化，人类都能识别出物体。在这篇论文中，他提到理解图像中简单的形状边缘是非常重要的。为了让计算机理解无论朝向如何这两个方块都是同一个，他从方块中提取出这些边缘状形状，如图2-1所示。

图2-1　从方块中提取边缘状形状

视觉从一个简单的结构开始。这是计算机视觉作为工程模型的开端。麻省理工学院（MIT）计算机视觉科学家大卫·马克（David Mark）提出了下一个重要概念，即视觉是分层的。他写了一本很有影响力的书，名叫《视觉》（VISION）。这是本简单的书，他提出一幅图像由几层组成。这两个原则构成了深度学习架构的基础，尽管它们没有告诉我们用什么样的数学模型。

在20世纪70年代，第一个视觉识别算法——被称为广义圆柱模型（generalized cylinder model）——产生于斯坦福大学的人工智能实验室。它的思想是：世界是由简单的形状组成的，任何真实世界的物体都是这些简单形状的组合。与此同时，SRI公司发布了图结构模型（pictorial structure model），其概念与广义圆柱模型相同，但是各部分是通过弹簧连接的，因此它引入了可变性的概念。2006年，富士胶片公司（Fujifilm）在数码相机中使用了第一种视觉识别算法。