| |
伍德和阿巴诺于1983年提出了新型的多元统计分析方法——偏最小二乘回归(PLS),它集多元线性回归分析、主成份分析、典型相关分析的基本功能为一体,很好地解决了普通多元回归无法解决的现实问题中普遍存在的自变量之间多重相关性和样本点容量过少的问题。其应用领域已经从最初的化工领域快速扩展到机械、生物、地质、医学、社会学以及经济学等领域。
一.PLS回归建模
设因变量Y和n个自变量构成的自变量集合X=[x1,x2, …,xn],为了研究因变量与自变量之间的统计关系,我们观测m个样本点,由此构成了由m维的因变量向量和n个自变量构成的m×n的观测矩阵X=[x1, …,xn]m×n。PLS回归方法是首先在矩阵X中提取成分t1 (t1为x1, …,xn的线性组合),要求t1应尽可能多的携带X中的变异信息,且与Y的相关程度最大。这样,t1尽可能好地综合了X的信息,同时对Y又有最强的解释能力。在第一个成分t1被提取后,PLS回归分别实施X对t1的回归及Y对t1的回归,如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被t1解释后的残余信息进行第二轮的成分提取,如此反复迭代,直到能达到一个较满意的精度为止,若最终对X共提取了k个成分t1, …,tk,PLS回归将通过实施Y对t1, …,tk的回归,然后表达成Y关于原变量x1, …,xn的回归方程。
二.主成份的确定
偏最小二乘法将多元校正的目标直接定位在预测上, 所以PEW软件提取主成份数量的原则定位于使预测误差平方和PRESS最小。值得一提的是,根据预测误差平方和PRESS最小的原则和根据交叉有效性Q2h≥0.0975的原则提取的主成份数量在绝大多数情况下是一致的。
三.辅助分析的内容
1.常用统计量
2.变量间相关系数
3.主成份数量确定的依据
4.标准化数据回归方程系数直方图
5.精度分析
6.自变量与因变量相关关系
7.自变量在解释因变量时的作用(VIPj)图
8.组间相关关系的结构分析
9.T2椭圆图与特异点的发现
10.数据重构的质量分析
11.偏最小二乘与普通最小二乘回归拟合比较
12.偏最小二乘与普通最小二乘去一回归预测比较
13.对成分的命名
14.原始数据回归方程回归系数表
15.偏最小二乘回归Bootstrap参数检验
16.偏最小二乘回归方程复相关系数R2
17.普通最小二乘回归Bootstrap参数检验
|