- 数据驱动的半导体制造系统调度
- 李莉 于青云 马玉敏 乔非
- 2003字
- 2025-02-18 00:06:56
3.1 概述
现代工业技术的发展使得制造过程、工艺、设备装置趋于复杂,已经很难通过机理模型这一传统建模方法为系统精确建模从而优化系统运作性能。例如对于硅片加工生产线[1],虽然运用了先进的调度思想,精心设计了调度算法并加以实现,但得到的仿真结果精度较差,难以指导实际的调度排程任务。而随着企业信息化程度的提高,制造型企业数据的实时性、精确性有显著提升,从而促进了基于数据的方法在过程控制[2]、在线监控与故障诊断[3]、调度优化[4]和管理决策等方面[5]的应用。尤其是在钢铁冶金领域,由于其关键性能指标无法由机理模型描述或在线监控检测,基于数据的预测方法得到了广泛的应用[6⁃8]。基于数据的调度方法侧重将数据驱动的方法和传统调度建模优化方法相结合来求解调度问题,本节将从复杂制造数据属性选择、复杂制造数据聚类以及复杂制造数据属性离散化三个方面进行阐述。
(1)复杂制造数据属性选择
条件属性冗余过多会导致分类或回归的精度下降,使生成的规则无法使用,规则之间的冲突亦较多。属性选择则是从条件属性中选取较为重要的属性。属性选择常用的方法包括粗糙集和计算智能。例如,Kusiak[9⁃11]针对半导体制造的质量问题,提出了基于粗糙集从样本数据中获取规则的方法,并应用特征转换和数据集分解技术,来提高缺陷预测的精度和效率;粗糙集的属性约简是一个NP难问题,Chen[12]等通过特征核的概念缩减了搜索空间,然后使用蚁群算法求得了属性集的约简,提高了知识约简的效率;Shiue[13⁃17]等建立了两阶段决策树自适应调度系统,将基于神经网络的权重特征选择算法和遗传算法用于调度属性选择,使用自组织映射(Self⁃Organizing Maps,SOM)进行数据聚类,应用决策树、神经网络及支持向量机三种学习算法对每个簇进行学习实现参数优化,提高了自适应调度知识库的泛化能力,并通过仿真验证了成果的有效性。
(2)复杂制造数据聚类
聚类是对样本数据按彼此之间的相似度进行分类的技术,使相似的样本属于同一类,而相似度低的样本属于不同的类。由于噪声数据会影响学习的精度,如C4.5在处理含有噪声的样本时会导致生成树的规模庞大,降低预测精度,需要做剪枝处理,因此对于大规模训练样本,可以使用聚类平滑噪声数据。聚类中常用的方法包括SOM、Fuzzy⁃C均值、K均值和神经网络等。例如,Hu[18]使用层次聚类的方法找出与成品率下降相关的设备;Chen[19⁃20]等使用Fuzzy⁃C均值、K均值等算法对训练样本进行聚类,然后对每个聚类训练神经网络,提升工件加工周期的预测精度。
(3)复杂制造数据属性离散化
部分算法和模型只能处理离散数据,如决策树、粗糙集等,因此有必要采用属性离散化技术将连续属性值转化为离散属性值。例如,Koonce[21]和Li[22]在挖掘优化调度方案时,根据面向属性规约算法和决策树的特点,对属性值进行了等距离散划分;Rafinejad[23]提出了基于模糊K均值算法的属性离散化方法,使得从优化调度方案中所提取的规则能够更好地逼近优化调度方案。
现有的复杂制造预处理技术主要集中于属性选择和数据聚类,而针对制造系统数据具有规模大、含噪声、样本分布复杂且存在缺失现象,输入变量数目多、类型多样,输入/输出变量间关系呈非线性、强耦合等特点的数据预处理技术还有待进一步深入研究。本章将针对含噪声、高冗余的生产调度数据,对应数据预处理任务提炼出数据规范化、缺失值填补、异常值检测、冗余变量检测等问题,如表3⁃1所示,并给出这些问题的求解方法,如图3⁃1所示。这些方法属于DSACMS中DataProcAnalyModule中的PreProcData。
表3⁃1 制造系统数据预处理任务


图3⁃1 制造系统数据预处理技术路线
对于基于数据的调度预测建模问题(例如调度参数预测),首先需要从多个异构数据源中获取相关数据,即在DSACMS的DataProcAnalyModule中定义的ETL。对象生产线的信息系统均采用关系数据库存储数据,因此数据集成可以通过结构化查询语言(Structured Query Language,SQL)实现。对于集成后的数据,需要将其转换为便于数据挖掘的形式。在下面的章节将分别介绍其中的方法。
本章将采用2个从实际制造信息系统采集的数据集验证上述方法。其中数据集D1是从FabSys的MES中采集的调度环境数据,调度环境由Xse,fab中的变量描述,包括67个状态属性,包括2012年1月1日~2012年5月2日的542条样本数据。D2是取自UCI(University of California Irvine)提供的机器学习公共测试数据集,数据集D2是从某半导体生产线的监控系统采集的传感器数据,原始数据包括591个表示传感器的属性和2008年7月19日~2008年10月15日的1567条样本数据,进行数据清理操作①~③后,D2中的数据包括440个传感器和1561条样本数据。
① 删除无效传感器:传感器的值恒定,传感器采集数据缺失值比率≥50%。
② 删除空缺值较多的样本数据:样本数据中≥30%的传感器属性值空缺。
③ 对剩余缺失值用传感器均值进行填补。
为了方便讨论,本文的数据集定义如下:数据集S是由M条记录所组成的集合S=,其中,记录xi描述一个特定对象,通常由N维属性向量表示,xi=(xi1,xi2,…,xiN),其中每一维表示一个属性,N表示属性向量的维度。属性是对象的抽象表示,从多元统计学的角度,第i个属性对应于(总体)随机变量Xi,而数据集S是(总体)随机向量X=(X1,X2,…,XN)的M个观测值组成的样本,这里所讨论的变量均为连续型随机变量。