七剑下天山,终结线性、非线性回归方程
时间:2021-10-16 09:31:47 来源:网友投稿
2020 版
七剑下天山,终结线性、非线性回归方程
唐宋 目录
一、线性回归方程 ................................................................. 2 二、非线性回归方程 ............................................................... 2 三、相关系数 ..................................................................... 3 四、相关指数 R2
................................................................... 3 五.经典题组 ...................................................................... 5
知识点 通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理. 求回归直线方程时,最好先计算好公式的基本量221 1n ni i ii ix y nxy nx x y x 、、 、 、 、 ,再代入公式求解.这样一是节省试卷的空间,另外是可以把握住得分点,尽量不要一次性计算,避免一步错步步错.
求非回归直线方程,相比建立线性回归方程模型,其本质在于,将非线性回归方程通过换元,转化为线性回归方程模型,然后除去新元,得到非线性回归方程。这个实际上,是数学中的转化的思想的具体运用
一、线性回归方程
(一)线性的基本模型和公式 1 2 311 2 311 122 21 11 1... x,1 1...( )( )( )vi nvi nn ni i i ii in ni ii ix x x x xn nx yy y y y y yn nx y nxy x x y ybx nx x xa y bx
(二)建立线性回归模型的基本步骤:
①确定研究对象,明确哪个是解释变量,哪个是预报变量;
②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系
③确定回归方程的类型
④按照公式计算回归方程中的参数(如最小二乘法),得到线性回归方程;
⑤得出结果后分析残差图是否有异常 二、非线性回归方程
(一)非线性的基本模型和公式 题型二 y c d x ,令 y y , x x ,则有 " " y a bx .
题型三 axb ym 1,令 " y y ,m**1 ,则有 " " y a bx . 题型四 a bx y 2,令 y y ,2x x ,则有 " " y a bx . 题型五 ln y a b x ,令 " y y , " ln x x ,则有 " " y a bx . 题型六by ax ,令 " ln y y , " ln x x , " ln a a ,则有 " " " y a bx . 题型七:bxy ae ,令 " ln y y , " x x , " ln a a ,则有 " " " y a bx .
(二)建立非线性回归模型的基本步骤:
①确定研究对象,明确哪个是解释变量,哪个是预报变量;
②确定非线性回归方程的类型
③通过换元,将非线性回归方程模型转化为线性回归方程模型;
④按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
⑤消去新元,得到非线性回归方程;
⑥得出结果后分析残差图是否有异常.
三、相关系数
①作用:用它来衡量两个变量间的线性相关关系. ②计算:12 21 1( )( )( ) ( )ni iin ni ii ix x y yrx x y y . 12 21 1ni iin ni ii ix x y yrx x y y ③正负:当 r >0 时,表明两个变量正相关;当 r <0 时,表明两个变量负相关; ④强弱:
r 的绝对值越接近 1,表明两个变量的线性相关性越强; r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系. 通常当| r |>0.75 时,认为两个变量有很强的线性相关关系.
四、相关指数 R2
①作用::用相关指数 R2 来刻画回归的效果
②计算:22121( )1( )niiniiy yRy y , ③效果:
R2 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好. 在线性回归模型中, R2表示解释变量对预报变量变化的贡献率, R2越接近于 1,表示回归效果越好.
五.经典 7 个题组
题型一:
y bx a
1.一次考试中,五名学生的数学、物理成绩如下表所示:
学生 A 1
A 2
A 3
A 4
A 5
数学(x 分)
89 91 93 95 97 物理(y 分)
87 89 89 92 93 (1)请在所给的直角坐标系中画出它们的散点图; (2)并求这些数据的线性回归方程 y =bx+a. 附:线性回归方程 y bx a 中, 1 12221 1,n ni i i ii in ni ii ix x y y x y nxyb a y b** x x nx 其中 x , y 为样本平均值,线性回归方程也可写为 y bx a .
2.(2016 年全国 III)下图是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (Ⅱ)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量. 附注:参考数据:719.32iiy,7140.17i iit y,721( ) 0.55iiy y , 7 ≈2.646. 参考公式:相关系数12 21 1( )( )( ) (y y)ni iin ni ii it t y yrt t ,
回归方程 y a bt 中斜率和截距的最小二乘估计公式分别为:
121( )( )( )ni iiniit t y ybt t , = . a y bt
题型二:
x b a y ,令 y y , x x ,则有 " " y a bx .
1.(2019·山东模拟)***总书记在十九大报告中指出,必须树立和践行“绿水青山就是金山银山”的生态文明发展理念,某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第 x 天的高度为 ycm,测得一些数据图如下表所示:
第 x 天 1 4 9 16 25 36 49 高度 y/cm 0 4 7 9 11 12 13 作出这组数的散点图如下
(1)请根据散点图判断, y ax b 与 y c x d 中哪一个更适宜作为幼苗高度 y 关于时间 x 的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立 y 关于 x的回归方程,并预测第 144 天这株幼苗的高度(结果保留 1位小数). 附:12 21ˆni iiniix y nxybx nx,ˆây bx
参考数据:
71iix 71iix 71iiy 71( )i iix y 140 28 56 283
2.(2015 新课标 1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x (单位:千元)对年销售量 y (单位:t)和年利润 z (单位:千元)的影响,对近 8 年的年宣传费ix 和年销售量iy ( i =1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x
y
w
821( )iix x 821( )iiw w 81( )( )i iix x y y 81( )( )i iiw w y y 46.6 563 6.8 289.8 1.6 1469 108.8 表中i iw x , w
=1881iiw. (Ⅰ)根据散点图判断, y a bx 与 y c d x 哪一个适宜作为年销售量 y 关于年宣传费 x 的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立 y 关于 x 的回归方程; (Ⅲ)已知这种产品的年利率 z 与 x 、 y 的关系为 0.2 z y x .根据(Ⅱ)的结果回答下列问题:
(ⅰ)年宣传费 x =49 时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费 x 为何值时,年利率的预报值最大? 附:对于一组数据1 1( , ) u v ,2 2( , ) u v , , ( , )n nu v ,其回归线 v u 的斜率和截距的最小二乘估计分别为 121( )( )ˆ( )ni iiniiu u v vu u ,ˆˆ v u .
题型三:
axb ym 1,令 " y y ,m**1 ,则有 " " y a bx . 1.(2018 山西模拟)在一次抽样调查中测得样本的 5 个样本点,数值如下表:
x
0.25 0.5 1 2 4 y
16 12 5 2 1
(1)根据散点图判断,ky a bx y cx 与 哪一个适宜作为 y 关于 x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果试建立 y 与 x 之间的回归方程.(注意 , a b 或 , c k 计算结果保留整数)
(3)由(2)中所得设 z= y + x 且 4, x ,试求 z 的最小值。
参考数据及公式如下:
5123i iix y,5 52 21 121.3125, 430i ii ix y , 1 122 21 1n ni i i ii in ni ii ix x y y x y nxybx x x nx a y bx $ $
2.(2019·重庆八中高三(理))**在种植棉花有着得天独厚的自然条件,土质呈碱性,夏季温差大,阳光充足,光合作用充分,生长时间长,这种环境下种植的棉花绒长、品质好、产量髙,所以**棉花举世闻名.每年五月份,**地区进入灾害天气高发期,灾害天数对当年棉花产量有着重要影响,根据过去五年的数据统计,得到相关数据如下表: 灾害天气天数 x (天) 2 3 4 5 8 棉花产量 y (吨/公顷) 3.2 2.4 2 1.9 1.7 根据以上数据,技术人员分别借助甲、乙两种不同的回归模型,得到两个回归方程, 方程甲:(1)41.1 yx ,方程乙:(2)26 41.6 yx . (1)为了评价两种模型的拟合效果,完成以下任务: ① 完成下表;(计算结果精确到 0.1) ②分别计算模型甲与模型乙的残差平方和1Q 及2Q ,并比铰1 2, Q Q 的大小,判断哪个模型拟合效果更好? 灾害天气天数 x (天) 2 3 4 5 8 棉花产量 y (吨公顷) 3.2 2.4 2 1.9 1.7 模型甲 估计值(1)iy
2.4 2.1
1.6 残差(1)i e
0 0.1
0.1 模型乙 估计值(2)ˆ i y
2.3 2 1.9
残差(2)ˆ i e
0.1 0 0
(2)根据天气预报,今年五月份** M 市灾害天气是 6 天的概率是 0.5,灾害天气是 7 天的概率为 0.4,灾害天气是 10 天的概率为 0.1,若何女士在** M 市承包了 15公顷地种植棉花,请你根据第(1)问中拟合效果较好的模型估计一下何女士今年棉花的产量.(计算过程中所有结果精确到 0.01)
题型四:
a bx y 2,令 y y ,2x x ,则有 " " y a bx . 1.******在十九大报告中指出,必须树立和践行“绿水青山就是金山银山”的生态文明发展理念,这将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源乘用车的年销售量数据及其散点图:
年份 2013 2014 2015 2016 2017 年份代码 x
1
2
3
4
5
新能源乘用车年销量 y (万辆)
1.5
5.9
17.7
32.9
55.6
(1)请根据散点图判断, y ax b 与2y cx d 中哪一个更适宜作为年销售量 y 关于年份代码 x 的回归方程类型? (给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程,并预测 2018 年我国新能源乘用车的销售量(精确到 0.1 ). 附:1.最小二乘法估计公式:121( )( )ˆ ˆˆ ,( )wi iiwiit t y yb a y btt t y
251( )iiw w 51( )( )i iix x y y 51( )( )i iiw w y y 22.72
374
135.2
851.2
其中2i iw x
2.(2019·重庆巴蜀中学高三月考(理))2019 年双十一落下帷幕,天猫交易额定格在 268(单位:十亿元)人民币(下同),再创新高,比去年 218(十亿元)多了50(十亿元),这些数字的背后,除了是消费者买买买的表现,更是购物车里中国新消费的奇迹,为了研究历年销售额的变化趋势,一机构统计了 2010 年到 2019年天猫双十一的销售额数据 y (单位:十亿元).绘制如下表 1: 年份 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 编号 x
1 2 3 4 5 6 7 8 9 10 销售额y
0.9 8.7 22.4 41 65 94 132.5 172.5 218 268 根据以上数据绘制散点图,如图所示.
(1)根据散点图判断, ya bx 与2y cx d 哪一个适宜作为销售额 y 关于 x 的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及下表中的数据,建立 y 关于 x 的回归方程,并预测 2020 年天猫双十一销售额;(注:数据保留小数点后一位) (3)把销售额超过 10(十亿元)的年份叫“畅销年”,把销售额超过 100(十亿元)的年份叫“狂欢年”,从2010 年到 2019 年这十年的“畅销年”中任取 3个,求取到的“狂欢年”个数 的分布列与期望. 参考数据:2i it x . 1011020iiy 1018088i iix y 101385iit 102125380iit 10167770i iit y 21483 t
参考公式:对于一组数据 1 1, u v , 2 2, u v ,…, ,n nu v ,其回归直线 va u 的斜率和截距的最小二乘估计公式分别为1221 111niniu v nuvu nu,v u .
题型五:
ln y a b x ,令 " y y , " ln x x ,则有 " " y a bx . 1.(2019·河北期中)某地区不同身高 x cm 的未成年男孩的体重平均值 y kg 如下表:
身高 x cm
60 70 80 90 100 体重 y kg
6.13 7.90 9.99 12.15 15.02 已知 ln y 与 x 之间存在很强的线性相关性, (1)据此建立 y 与 x 之间的回归方程; (2)若体重超过相同身高男性体重平均值的 1.2倍为偏胖,低于 0.8 倍为偏瘦,那么这个地区一名身高150cm 体重为 45kg 的在校男生的体重是否正常? 参考数据:
51ln 940i iix y ,51ln 11.5iiy,3.740.5 e 附:对于一组数据 1 1,v , 2 2,v ,…, ,n nv ,其回归直线 vbx a 中的斜率和截距的最小二乘估计分别为12 21ˆni iiniiv n vbn ,ˆâv b .
2.(2019·山东高考模拟(理))混凝土具有原材料丰富、抗压强度高、耐久性好等特点,是目前使用量最大的土木建筑材料.抗压强度是混凝土质量控制的重要技术参数,也是实际工程对混凝土要求的基本指标.为了解某型号某批次混凝土的抗压强度(单位: MPa )随龄期(单位:天)的发展规律,质检部门在标准试验条件下记录了10组混凝土试件在龄期 ( 1,2, ,10)ix i 分别为2,3,4,5,7,9,12,14,17,21时的抗压强度iy 的值,并对数据作了初步处理,得到下面的散点图及一些统计量的值.
表中 lni iw x ,101110iiw w. (1)根据散点图判断 ya bx 与 ln y c d x 哪一个适宜作为抗压强度 y 关于龄期 x 的回归方程类型?选择其中的一个模型,并根据表中数据,建立 y 关于 x 的回归方程; (2)工程中常把龄期为28天的混凝土试件的抗压强度28f 视作混凝土抗压强度标准值.已知该型号混凝土设置的最低抗压强度标准值为 40MPa . (ⅰ)试预测该批次混凝土是否达标? (ⅱ)由于抗压强度标准值需要较长时间才能评定,早期预测在工程质量控制中具有重要的意义.经验表明,该型号混凝土第 7 天的抗压强度7f 与第 28 天的抗压强度28f 具有线性相关关系28 71.2 7 f f ,试估计在早期质量控制中,龄期为 7 天的试件需达到的抗压强度. 附: 121...
[七剑下天山,终结线性、非线性回归方程]相关文章