1.3 高光谱遥感图像分类方法

遥感图像分类技术发展至今,已有大量新颖的技术方法。总体上,根据是否已知训练样本的类别可将这些算法大致分为监督分类法和非监督分类法。监督分类法是指已知训练样本的类别,通过对训练样本的特征提取确定分类判别函数,进而将图像的其他像元划分到不同的类别中。而非监督分类法是在训练样本类别未知的情况下,根据图像像素本身的统计特性和空间分布来划分类别的方法,是一种边学习边分类的方法。非监督分类方法不需要事先知道训练样本的类别,而是通过机器学习建立分类判决函数,一般只需提供少量的阈值来部分控制分类过程即可。监督分类和非监督分类最大的区别在于,监督分类会先给定训练样本类别;而非监督分类则是在训练样本类别未知的情况下,根据图像的统计特征来确定类别。下面基于高光谱图像分类方法分别对监督分类法研究现状和非监督分类法研究现状进行分析。

1.3.1 监督分类

监督分类常用于高光谱图像数据的定量分析,其主要流程是:首先,利用分类器对已知类别及其对应的训练样本进行学习,获取各图像上各类别像元的分类特征;然后,选择适当的分类判据,根据分类的决策准则进行分类。基于监督分类的算法主要有以下几种。

1.3.1.1 基于光谱特征空间的高光谱图像分类

基于光谱特征空间的高光谱图像分类是一种基于图像光谱特征的分类方法,该方法以对高光谱图像光谱特征提取和变换为基础。

(1)光谱特征匹配分类方法

光谱特征匹配分类方法基于地物辐射或反射光谱曲线进行分类识别,是利用光谱库中已知的光谱数据,采用匹配的算法来识别图像中地物覆盖类型,如决策树分类法和专家系统分类法。

决策树分类法是逐层进行分类的方法,通过逐层的分类比较循环地对数据集进行划分。决策树包含节点和路径,每棵决策树可以有一个根节点和多个子节点,从根节点到子节点包含多条分类路径。决策树可以有3种形式:单变决策树、多变决策树和混合决策树。其中,单变决策树是指节点分裂时采用相同的特征和算法;多变决策树是指节点分裂时算法相同,但选取的特征不同;混合决策树是指节点分裂时选取的特征和算法均不同。从算法复杂度来看,混合决策树最为复杂,但它可以表示更为复杂的概念,因此分类效果最好。

专家系统是指将某个领域的专家知识输入电脑,进行机器学习后辅助人们解决问题的方法。利用专家系统可以将专家的经验综合起来进行分类。将人工智能与专家系统相结合可以实现高光谱图像地物的自动分类与识别。

将光谱看作光谱空间中的多维向量,计算2个光谱向量的广义夹角,夹角越小,光谱越相似,然后以相似性阈值作为标准对未知像元光谱进行分类,这就是人们熟知的光谱角度填图(SAM,spectral angle mapping)方法[108]

光谱匹配的另外一种形式是编码匹配。比较简单的编码匹配是光谱二值编码匹配,包括分段二值编码匹配、单阈值编码匹配和多阈值编码匹配等。基于整波形特征的光谱匹配算法不需要对光谱进行复杂的分析,也不必根据不同的地物类别调整匹配方法,算法简单且有效,但是光谱匹配算法的结果对噪声敏感,要求图像光谱具有很高的信噪比。在实际应用中,可以牺牲图像的空间分辨率来提高图像的信噪比。如果使用的参考光谱是实验室光谱或者地面测量光谱,在匹配前必须对图像进行光谱定标和反射率转换。然而实际应用中,即使对图像进行光谱定标和反射率转换也很难完全达到光谱匹配的要求,这也是限制基于整波形特征的光谱匹配算法广泛应用的最大原因。

高光谱遥感图像的光谱波段中包含着特定的物理含义,光谱曲线的形状特征是地物内在物理性质的外在表现。因此从光谱的特征分析入手,优化和构造具有排他性的光谱特征参量,通过分析、比较地物特定的光谱参量就能够达到图像分类和识别的目的。

基于整波形特征的光谱匹配算法没有考虑光谱的内在物理意义。而基于光谱特征参数的匹配算法由分析光谱特征入手,从光谱曲线上提取有意义的光谱特征参量,如吸收光谱的位置和吸收深度,通过少数的参数匹配来完成图像像元的分类和识别。比较典型的基于光谱特征参数的匹配算法有建立光谱吸收指数(SAI,spectral absorption index),该方法可以进行高光谱遥感图像处理和鉴别光谱吸收特征,也可以进行混合光谱分解,被广泛地应用于矿物的识别和提取。Kruse等[109]用光谱吸收特征中最深吸收的半高宽(FWHM,full width at half the maximum depth)、波长位置和吸收深度来定义光谱吸收特征参数。光谱的辐射特征同样可以作为光谱的特征参量用于光谱识别。

基于光谱特征参量的匹配算法对具有典型光谱吸收特征的光谱能够有效地识别,尤其成功地应用在对矿物的分类和识别中。该方法同基于整波形特征的光谱匹配算法一样,对噪声也是敏感的,要求图像有很高的信噪比。

(2)遥感图像统计模型分类方法

利用统计学中的Fisher准则进行分类称为Fisher判别分类,其基本思想是要求类间距离最大而类内离散度最小。Fisher 判别准则的基础是认为样本符合多维正态分布,其主要目的是要找到一个方向,使样本的投影在该方向上可以被很好地分开,这样就可以取得较好的分类效果。根据Fisher 线性判别准则得到的判别函数为

其中,x为样本向量,w为权向量,w0为常数。

最大似然分类法(MLC,maximum likelihood classification)是根据概率理论建立的一种分类方法。基于统计模型的最大似然分类法是传统遥感图像分类中应用最为广泛的分类方法。在最大似然分类器中,假设高光谱图像上的每一类地物的概率密度都服从多维正态分布,这种假设大大简化了分类运算的过程。最大似然分类法首先根据统计方法建立起各类的判别函数集,再计算每个测试样本的统计概率,最后将样本归入统计概率大的类中。想要在最大似然分类器中获得较好的分类效果,利用训练样本对各类别进行统计参数估计变得十分重要。为了得到可靠的估计类均值矢量和协方差矩阵中的元素,需要图像上每个类别都有足够的训练样本。但由于高光谱图像的维数众多、数据量庞大,传统的最大似然分类法在对高光谱图像进行分类时运行速度明显减慢,为每个类别找到足够多的且具有代表性的训练样本是比较困难的,当无法取得充足数量的样本时,经常会出现奇异矩阵的现象。为此,Jia等[110]提出了改进的最大似然分类法,即简化最大似然性判别函数(SMLDF,simplified maximum likelihood discriminant function)。该方法首先根据高光谱图像波段间的相关性将波段分为几个相关性较高的组,再计算每个组内各类别的协方差矩阵,求出判别函数值,最后将所有波段组的判别函数值相加来实现分类。该方法利用了高光谱图像间的分组特性,减少了数据的计算时间,因此比较适用于高光谱图像分类。

另外,当训练样本数目较少时,利用不使用协方差矩阵的分类器(即最小距离分类器)进行分类更加有效。最小距离法利用像元矢量与类均值间的距离测度进行分类,将像元分类到类均值最近的类别中。具体步骤为:首先计算出每类已知类别样本的均值向量,再计算各待分类样本向量到各类均值向量的距离,比较距离后将样本划分到距离最小的一类中。最小距离分类器一般选择欧氏距离作为光谱距离的量度,也可以使用欧氏距离之外的广义距离,如马氏距离、J-M距离和相关系数等。

1.3.1.2 面向对象的高光谱图像分类

基于同质地物的提取与分类(ECHO,extraction and classification of homogeneous objects)方法[111]首先将具有相似性光谱特征的像元划分为同质区域,然后利用最大似然分类器对这些区域进行分类。

ECHO基本分为2个步骤:首先将图像划分为不同的图像对象,图像对象为形状与光谱特征具有相似性的同质区域;然后将那些没有划入同质区域中的像元利用最大似然分类器进行分类,最终获得分类结果。ECHO具有较高的抗噪声性能,分类的精度以及kappa系数都很高。

面向对象分类的特点是分类的最基本对象从像元转换为图像对象,也称为图斑对象。图斑对象定义为形状与光谱性质具有同质性的单个区域[112]。面向对象分类的核心是高光谱图像分割,在这个阶段需结合应用光谱信息和空间信息。在很多情况下,提取的图斑对象能为图像分类提供更多有意义的信息,在获取图斑对象后,利用传统分类方法或基于知识的方法对图斑对象进行分类。

面向对象的高光谱图像分类框架(如图1-3所示),主要包含3个层次,即数据层、特征层和目标层。

图1-3 面向对象的高光谱图像分类框架

数据层对图像进行基于像元的分割处理,确定图斑对象。基于图斑对象的高光谱图像分割研究中,分割尺度是关键问题之一。由于图像上地物形态的多样性,各类地物都具有其自身尺度特征。如果根据同一尺度进行分割,图像上图斑对象会产生极大的差异,得到的图斑对象无法体现地物在不同尺度下的特征,造成图像分类结果的误差很大。因此,在图像分割过程中,进行多尺度分析十分必要。

特征层构建图斑对象特征。图斑对象与像元不同,像元仅具有光谱特征,而图斑对象中包含了形状等丰富的空间信息,图斑对象特征构建将直接影响分类器的分类效果。因此利用多尺度图斑对象模型,要求图斑对象的多尺度特征构建有别于传统基于像元的特征表征方式。特征层涉及针对图斑对象的特征选择与提取,以及形状特征描述。

目标层实现从图斑对象到目标的认知过程,在多尺度图斑对象模型及特征基础上,将模式识别方法、基于专家知识的规则集等分类方式引入到图斑对象分类中,实现图斑对象的目标识别。

1.3.2 非监督分类

非监督分类就是不需要训练样本,直接根据图像数据的组织方式进行自学习的分类方法,其快速简单且具有一定的分类精度,可以作为监督分类的重要补充手段。参考非监督分类的结果,可以对监督分类结果进行修改和调整。

(1)聚类法

聚类法是通过提取地物特征,将相似的地物归并到同一类中的方法。聚类法可以分为2种:分级集群法和非分级集群法。分级集群法是根据最小距离原则,将像元归并到不同的类中。经过归并后的像元类别被当作新的个体,重新计算距离并划分类别,直至达到最终的分类类别,这种不断归并的过程是通过分级来实现的。而非分级集群法则是在初始状态就给出合适的类别,通过对个体的不断组合最终获得分离程度最高的判别函数。

(2)分裂法

分裂的过程与聚类过程正好相反。该算法首先将所有的像元都看作一类,计算出各个波段均差x i和方差σi,并按照式(1.13)计算分裂后的2个类的中心。

分别计算每个像元到中心点的距离,将像元划分到距离较近的类中,形成新类;再对新类分别求出每个波段的均值和方差,重新开始分裂,一旦有某个波段的方差大于阈值,新类就要继续分裂。

(3)动态聚类法

动态聚类法首先确定一批初始中心,将待分类的各个像元按某种准则不断地向中心点靠近,并根据类间可分性准则和类内离散度准则不断地进行合并和分类,重新确定类中心并分类,直至取得满意的分类效果。

(4)K均值算法

K均值算法也称为c均值算法,其基本思想是通过不断迭代的方法来逐渐调整每个类的中心,直至取得满意的结果。

假设图像数据集ϕ,像元向量为xixϕi ),分为 K 个互不相交的子集Γkk=1,2,⋅⋅⋅,K),Nk是第k聚类Γk中的样本数目,mk是这些样本的均值,即

Γ k中的各样本y与均值mk间的距离选择欧氏距离,所有类相加后为

其中,Je为价值函数,是样本集和类别集的函数。为了分类能够得到较好的效果,需要选出一定的代表样本点作为聚类的核心,再将剩余的点按照某种规则不断地归并到各个类中[113]

(5)ISODATA

ISODATA (iterative self-organizing data analysis techniques algorithm)也称迭代自组数据分析算法,由Ball等[114]提出。与K均值算法不同,ISODATA将所有样本都调整完毕后再计算各类样本的均值,因此被称为成批样本修正法。该算法可以自动地进行类别的分裂和合并,以得到合理的分类效果。

(6)模糊K均值聚类算法

确定性的分类要求图像的每个像元被准确地划分到某个类中,但自然界中有许多事物是无法被精确描述的。在模式识别中存在着 2 种情况,一种是地物可以被精确地描述,可以对地物像元进行精确划分;另一种情况是地物无法被精确描述,只能对地物像元进行模糊归纳与总结,这就是将模糊理论引入模式识别的重要原因[115-117],基于此,在遥感技术领域有大量研究人员在进行模糊分类的研究。运用模糊理论进行模式识别的最核心问题是隶属度函数的确定,可以根据实际需要进行适当的调整。

模糊K均值算法又称为模糊c均值(FCM,fuzzy c-means)算法,是一种基于划分的聚类算法,是普通K均值算法的改进。普通K均值算法对于数据的划分是硬性的;而模糊K均值算法则是一种柔性的模糊划分,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。

应用典型非监督分类算法对高光谱图像进行非监督分类前,先根据地物光谱分析特性进行波段选择,或利用PCA、MNF、ICA变换进行特征提取,通过这些方式提高图像信噪比、降低冗余、扩大不同类型地物光谱间距离,再进行图像非监督分类,这样不仅有利于提高分类效率,而且在一定程度上减少了噪声对分类结果的干扰,提高了分类结果的精度。