- 数据驱动的半导体制造系统调度
- 李莉 于青云 马玉敏 乔非
- 470字
- 2025-02-18 00:06:56
3.2.2 变量异常值校正
在单个变量上,制造数据所包含的噪声体现在变量的数据值与其变量的总体分布产生偏离,这样的数据称之为异常值。这些异常值会严重影响规范化之后的数据分布的偏度。特别是最大最小规范化对变量异常值尤为敏感,z⁃score规范化的结果也会受异常值影响。本章将采用Rule 3.1对变量异常值进行校正。
Rule 3.1:
If xli>ubXi,Then xli=ubXi
If xli<lbXi,Then xli=lbXi
在Rule 3.1中,ubXi和lbXi分别是变量Xi的上界和下界,用来校正变量的异常值。由于历史数据量达到了一定规模,因此无法采用适用于小样本的散点图法和假设检验法来探测变量的异常值。对于ubXi和lbXi,本节介绍3σ法和四分展布法。
(1)3σ法
由切比雪夫不等式可知:P(|Xi-μXi|≥ε)≤σXi/ε2,当ε=3σXi,则P(|Xi-μXi|≥3σXi)≤σXi/9,当Xi服从正态分布时,P(|Xi-μXi|≥3σXi)=0.0027,由此可知,Xi以较大概率分布于以均值为中心的3σXi区间之内。因此将ubXi和lbXi设置如下:
ubXi=μXi+3σXi (3⁃3)
lbXi=μXi-3σXi(3⁃4)
(2)四分展布法
在异常值校正中,标准差容易受到异常值的影响,因此基于上下分位数距离的四分展布法也是异常值校正的常用方法。Q3Xi是变量的上四分位数,Q1Xi是变量的下四分位数,dF是上下分位数距离,称为极差。而ubXi和lbXi可设置如下:
dF=Q3Xi-Q1Xi(3⁃5)
ubXi=Q1Xi-1.5dF(3⁃6)
lbXi=Q3Xi+1.5dF(3⁃7)