最新引言课件PPT课件 58页

  • 1.69 MB
  • 2022-04-29 14:35:43 发布

最新引言课件PPT课件

  • 58页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'引言课件 10.3数据的标准化处理(一)“中心化”处理—平移变换性质:不改变样本点集合中点与点的相互位置; PAC算法推导:不妨设变量   都是中心化的,求第主成分经过旋转变换得到的Y,是X的线性组合 因此  是矩阵 的特征向量,对应的特征值是 三.PCA的计算方法(一般情况下)(1)数据的标准化为方便起见,仍记。(2)计算标准化数据表的协方差矩阵V。(3)求V的前m个特征值λ1≥λ2≥…≥λm>0,以及对应的特征向量:u1,u2,…,um(主轴)它们是标准正交的: (4)在uh主轴上,ei的投影坐标是yh(i)第h主成分为:yh是原变量x1,…,xP的线性组合,组合系数为uh(1),…,uh(p) 四、主成分的统计特征第h主成分yh的均值为0。yh的方差等于h。yj与yk的协方差等于0: 总结:PCA算法的输入与输出①12……mVar(y1),Var(y2),…,Var(ym)②u1,u2,……,umRP(主轴)③y1,y2,……,ymRn(主成分)n个样本点,p个变量n个样本点,m个变量 总结:经过主成分分析, 10.5PCA的辅助分析技术一.怎样选取精度合适的主超平面1.m维主超平面的精度测量主成分分析前,Xnp数据中的全部变异信息:主成分分析后保留的数据变差:Var(y1)=1,Var(y2)=2,…,Var(ym)=m标准化 形象地看:方差:注意:所以,定义“累计贡献率”:标准化 2.、如何选取合适精度的u1,…,um。根据累计贡献率可以确定所要选取的成分的个数。(2)若希望Qm在80%左右,应选取3个主成分。一些科技问题的累计贡献率要求在90%以上。但对复杂的社会科学、行为科学或经济学中的数据,能达到60%也可以考虑。例.管理期刊评价 二.主成分的命名主成分y1,…,ym是原变量x1,…,xp的线性组合。原变量x1,…,xp都有明确的物理含意。问题:y1,…,ym的物理含意是什么?1.作用:指出影响系统结构的主要因素和主要特征。例①:分析各阶层人员生活状态发展中国家:y1——食品,y2——穿着发达国家:y1——住宅,y2——旅游以此可以划分不同社会阶层的生活档次。(在这个方向,人们的生活水平差距最大) 例②:中国城市经济分析:1984:y1—综合水平,y2——工农业投入国家。1988:y1—综合水平,y2——外贸,科技。中国改革开放以来,由于开放程度不同,使中国各地区经济水平差距逐渐拉大。所以,加大开放力度,发展高科技产业是城市发展的重要工作方面。2.方法:专业知识+数学手段数学手段:研究yh与x1,…,xp的相关关系。对于标准化数据可以证明: 所以:第一个主轴:由此可见,仅差一个常量倍:是y1与x1,…,xp的相关系数。因此,可以通过观察来确定y1的含意。 例.管理期刊分类评估 (2)相关圆图(ComponentPlot)若m=2y1y2xj ComponentPlot 三.判断“特异点”(ek)“特异点”:在PCA中,若有ek远离数据分布的平均水平,可以用“点对主成分方差的贡献”来测量。如:则定义“ei对Var(y1)的贡献”为: 一般地,定义“ei对Var(yh)的贡献”CTRh(i):CTR(i)过大解原因:(1)数据本身的特异性(BJ,SH,GZ,SZ,TJ)(2)数据统计上的错误处理方法:除去这些特异点,可以提高分析精度,图示也更加清楚。 四.主平面图 PCA将一个高维变量系统有效的降至1维例1:Kendall[英]评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x1)、大麦(x2)、燕麦(x3)、土豆(x4)、菜豆(x5)、马铃薯(x6)、萝卜(x7)、饲料甜菜(x8)、临时牧场干草(x9)、永久牧场干草(x10)。(精度:47.6%)Y1=0.39x1+0.37x2+0.39x3+0.27x4+0.22x5+0.30x6+0.32x7+0.26x8+0.24x9+0.34x10第一主成分y1与x1,…,x10均正相关。所以y1称为——“水平因子”,可用于评估排序。即:某个样本点在y1上取值很大时,它在x1,…,x10取值都会很大。10.6利用主成分分析构造评估函数 1、“主成分”是否等同于“主要因素”?例如:利用主成分分析构造评估函数(1)样本点:n个有关专家(2)变量:p个评估指标问题:用第一主成分构造的评估指标完全不符合人们对实际情况的认识。原因:第一主成分对应数据方差最大的方向,这是专家意见分歧最大的方向!2、y2一般不可以用于评估!!!应用中要注意的问题:例如:并不说明:沈阳(SY)的外贸比拉萨(LS)差。 10.7时序立体数据表分析平面数据表主成分分析:时序立体数据表主成分分析:PCA 时序立体数据表主成分分析方法:X1X2XTY1Y2YTPCA0y2y1 时序立体数据表分析内容1.主轴随时间的变化2.总体水平的运动轨迹3.类的生成与变化规律4.类轨迹的比较分析5.评估排序的比较研究6.群点运动预测模型 1985~1988,中国城市的国民生产总值平均年增长率为10.7%。1989年国民生产总值比上年增长4%。 10.8因素分析Varimax旋转0y1y2x1x2x8x5x6x7x4x3 学生代码数学物理化学语文历史英语1656172848179277777664705536763496567574806975747463574708084817467884756271647667167526557877715772867198310079416750…………………例10.1.这里有100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(只展示了部分,数据在student.sav)。 对学生成绩的数据进行主成分分析,得到下面的SPSS输出: 主成分分析的结果从SPSS的输出,得到用成分f1和f2与原来变量的相关系数 因子分析的结果(Varimax旋转后)从SPSS的输出,得到因子f1和f2与原来变量的相关系数 10.9主成分回归(讲座一)由于:主成分f1,…,fm是线性无关的变量做因变量y关于f1,…,fm的回归模型:问题:有时主成分f1,…,fm对y的解释性很差原因:关于名称的思维定势 建议的PCA回归方法采用OLS中的变量筛选方法,做因变量y关于f1,…,fp的回归模型.特点:可在变量严重多重相关的条件下回归建模;在模型中可以包含原有的所有变量。 10.10偏最小二乘回归(PLS)(讲座二)u1t1求回归模型:分别用Y1、X1取代Y、X,然后求第二个PLS成分。 PLS回归模型的主要特点1、多因变量对多自变量的回归模型2、可以在变量严重多重相关的条件下进行回归建模;3、可以在样本点个数少于变量的条件下进行回归建模;4、PLS回归模型中将包含原有的所有变量。5、提取的成分一般比PCA少(问题:PCA回归与PLS回归都依然受多重共线性影响) 6、PLS回归实现了预测分析与数据认识性分析的有机结合PLS回归+主成分分析(高维空间的降维处理)+典型相关分析(两组变量之间的相关关系)=回归建模(预测)YXu1u2ust1,t2ts应用软件:SIMCA-P 免耕法在我国沙尘暴的防治中的作用最新研究表明,我国沙尘暴的沙尘来源并非沙漠。据调查,影响京津地区的沙尘暴,70%左右的沙源就来自于内蒙古、山西、河北以及京津周边干旱裸露的农田。因此,为了有效地防治沙尘暴,对农田的风蚀进行研究就显得十分重要。研究人员在我国内蒙古的一些地区,对施行传统耕作、草地条件、沙地和施行免耕法的农田进行实地考察。通过建立偏最小二乘模型,发现关键因素,为防止农田沙化、降低风蚀提供理论依据。北京春天季风北京的海拔低于丰宁丰宁 数据:各样农田土壤风蚀量与影响因素序号风蚀量Y土壤含水量土壤颗粒直径地表覆盖率沙地传统耕作农田退化草地免耕法农田111.67383.62270.650612.41000213.81163.62270.650612.41000315.26003.62270.650612.41000412.15963.62270.650612.4100056.02106.29090.266013.8010068.59806.29090.266013.80100710.39526.29090.266013.8010087.33086.29090.266013.8010093.689010.21000.336645.40010105.338610.21000.336645.40010115.970610.21000.336645.40010124.893410.21000.336645.40010132.76808.88270.338658.50001144.16748.88270.338658.50001154.35728.88270.338658.50001164.11108.88270.338658.50001 土壤含水量土壤颗粒直径地表覆盖率沙地传统耕作农田退化草地免耕法农田土壤含水量1土壤颗粒直径-0.71101地表覆盖率0.84990-0.41601沙地-0.82970.98049-0.58161传统耕作农田-0.2196-0.5120-0.5412-0.33331退化草地0.6764-0.23800.37212-0.3333-0.33331免耕法农田0.37294-0.23030.75074-0.3333-0.3333-0.33331自变量的相关系数矩阵 PLS回归模型 平面图风蚀量与土壤颗粒直径高度正相关;与土壤含水量、地表覆盖率高度负相关。从不同类型的农田来看,风蚀量与与免耕法农田的负相关程度最大,说明了施行免耕法农田相对与其他农田类型对于保护土壤风蚀有着更好的效果。 拟合效果:观测值与拟合值曲线图施行免耕法的农田是风蚀程度最低的农田类型。采用该方法耕作的农田具有很高的农作物残茬覆盖率,能有效地避免农田沙化和防止水土流失。因此,免耕法在北京和我国沙尘暴防治中是十分值得推广的,而在农业生产中,也同样具有很强的现实意义。 PCA作业1、管理期刊遴选2、中国股市特征PCA '