当前位置：首页 > news >正文

【项目实战】Python实现多元线性回归模型(statsmodels OLS算法)项目实战

news 来源：原创 2024/5/5 6:09:04

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

回归问题是一类预测连续值的问题，而能满足这样要求的数学模型称作回归模型，本项目介绍的线性回归就是回归模型中的一种。线性回归模型属于经典的统计学模型，该模型的应用场景是根据已知的变量（即自变量）来预测某个连续的数值变量（即因变量）。例如餐厅根据每天的营业数据（包括菜谱价格、就餐人数、预定人数、特价菜折扣等）预测就餐规模或营业额；网站根据访问的历史数据（包括新用户的注册量、老用户的活跃度、网页内容的更新频率等）预测用户的支付转化率；医院根据患者的病历数据（如体检指标、药物服用情况、平时的饮食习惯等）预测某种疾病发生的概率。本项目应用OLS多元线程回归模型进行广告销售收入的预测分析。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：

数据详情如下(部分展示)：

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据：

关键代码：

3.2数据缺失查看

使用Pandas工具的info()方法查看数据信息：

从上图可以看到，总共有4个变量，数据中无缺失值。

关键代码：

3.3数据描述性统计

通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。

关键代码如下：

4.探索性数据分析

4.1 Sales变量的折线图

用Matplotlib工具的plot()方法绘制折线图：

4.2 相关性分析

从上图中可以看到，数值越大相关性越强，正值是正相关、负值是负相关。

4.3 散点图拟合线分析

从上面图中可以看到，TV变量和Sales变量成线性相关，在电视渠道投放的广告金额越大，产品的销售额也越大。

5.构建多元线性回归模型

主要使用OLS算法，用于目标回归。

5.1模型构建

关键代码如下：

模型总结输出：

结果显示，有两种广告渠道的回归系数为正值（TV和Radio），说明这两种渠道的广告可以给销售额带来正向的支撑，而报纸渠道却无法使销售额得到提升（其回归系数为6.647e-05 无限接近于0）。所以，可以得到多元线性回归模型：

在返回的模型概览中，包含F检验和t检验的结果，其中F统计量值为563.4，对应的概率值p（4.64e-93）远远小于0.05，说明应该拒绝原假设，认为模型是显著的；在各自变量的t统计量中，唯有Newspaper变量所对应的概率值p(0.928)大于0.05，说明不能拒绝原假设，认为该变量是不显著的，无法认定其是影响销售额的重要因素。

对于F检验来说，如果无法拒绝原假设，则认为模型是无效的，通常的解决办法是增加数据量、改变自变量或选择其他的模型；对于t检验来说，如果无法拒绝原假设，则认为对应的自变量与因变量之间不存在线性关系，通常的解决办法是剔除该变量或修正该变量（如因变量与自变量存在非线性关系时，选择对应的数学转换函数，对其修正处理）。根据返回的fit模型的概览信息，由于Newspaper变量的t检验结果是不显著的，故可以探索其与因变量Sales之间的散点关系，如果二者确实没有线性关系，可以将Newspaper从模型中剔除。

报纸广告与销售额之间的散点关系图图中自变量Newspaper与因变量Sales之间的散点关系并没有呈现明显的线性关系或非线性关系，故可以认为两者不存在互相依赖关系。既然如此，接下来要做的就是将Newspaper变量从模型中剔除。

5.2模型优化

关键代码：

模型摘要输出：

多元线性回归模型拟合后的概览信息对模型重新调整后，得到的新模型仍然通过了显著性检验，而且每个自变量所对应的系数也是通过显著性检验的。故最终得到的模型为：

对于该回归模型中的系数是这样解释的：在其他条件不变的情况下，TV渠道的成本每增加一个单位，将使销售额增加0.0120个单位；广播渠道的成本每增加一个单位，会使销售0.0134个单位。

5.3基于回归模型识别异常点

回归模型其计算过程会依赖于自变量的均值，，均值的最大弊端是其容易受到异常点（或极端值）的影响。所以，如果建模数据中存在异常点，一定程度上会影响到模型的有效性，那么该如何利用模型来识别样本中的异常点，并对其做相应的处理呢？对于线性回归模型来说，通常利用帽子矩阵、DFFITS准则学生化残差进行异常点检测。

学生化残差需要注意的是，在DFFITS准则的公式中，乘积的第二项实际上是学生化残差，它也可以用来判定第i个样本是否为异常点，判断标准如下：

关键代码：

这里使用学生化残差，当学生化残差大于2时，即认为对应的数据点为异常值。结果显示，通过学生化残差识别出了异常值，并且异常比例为3.68%。由于异常比例非常小，故可以考虑将其直接从数据集中删除，由此继续建模将会得到更加稳定且合理的模型。具体代码如下：

模型摘要信息：

多元线性回归模型的概览信息如图所示，排除异常点之后得到模型，不管是模型的显著性检验还是系数的显著性检验，各自的概率p值均小于0.05，说明它们均通过显著性检验。

5.4模型预测

关键代码：

预测结果：

6.模型评估

6.1评估指标及结果

评估指标主要包括可解释方差值、平均绝对误差、均方误差、R方值等等。

从上表可以看出，R方为93.67%% 可解释方差值为93.71%，OLS多元线性回归模型比较优秀，效果非常好。

关键代码如下：

6.2 真实值与预测值对比图

从上图可以看出真实值和预测值波动基本一致，模型拟合效果非常棒。

7.结论与展望

综上所述，本文采用了OLS多元线性回归模型，最终证明了我们提出的模型效果良好。可用于日常产品销售额的研究。

本次机器学习项目实战所需的资料，项目资源如下：

项目说明：
链接：https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w
提取码：bcbp

网盘如果失效，可以添加博主微信：zy10178083

graphviz安装教程（2022最新版）初学者适用

1、首先在官网下载graphviz 下载网址：https://www.graphviz.org/download/ 2、安装。打开第一步已经下载好的软件。点击下一步，在安装路径选择时可将安装路径修改为 D:\graphviz 接着一直点下一步，即可安装完成。 3、配置环境变量右键…...

编程日记 2024/5/5 5:21:03

【Windows】搭建Pytorch环境(GPU版本，含CUDA、cuDNN)，并在Pycharm上使用（零基础小白向）

文章目录前言一、安装CUDA1、检查电脑是否支持CUDA2、下载并安装CUDA3、下载并安装cuDNN二、安装Pytorch1、安装Anaconda2、切换清华镜像源3、创建环境并激活4、输入Pytorch安装命令5、测试三、在Pycharm上使用搭建好的环境参考文章前言本人纯python小白，第一次使用…...

编程日记 2024/4/22 14:49:19

Tensorflow与CUDA、cudnn版本对应关系

不同版本的Tensorflow需对应不同的CUDA和cudnn版本，否者容易安装失败。可按下图所示，根据想要安装的Tensorflow版本，选择对应版本的CUDA和cudnn。其中CUDA的下载链接为： CUDA Toolkit Archive | NVIDIA Developer cudnn下载链…...

编程日记 2024/5/5 4:30:31

ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:\Anaconda\envs\tensorflow\lib\typing.py)

报错背景： 因为安装tensorflow-gpu版本需要，我把原来的新建的anaconda环境（我的名为tensorflow）中的python3.8降为了3.7。在导入seaborn包时，出现了以下错误： ImportError: cannot import name Literal …...

编程日记 2024/4/30 8:03:55

100天精通Python（数据分析篇）——第67天：Pandas数据连接、合并、加入、添加、重构函数（merge、concat、join、append、stack、unstack）

文章目录一、数据连接（pd.merge）1. left、right2. how3. on4. left_on、right_on5. sort6. suffixes7. left_index、right_index二、数据合并（pd.concat）1. index 没有重复的情况2. index 有重复的情况3. DataFrame合并时同时查看行索引和列索引有无重复三、数据加入（pd.…...

编程日记 2024/4/26 16:55:01

yolov5 优化系列（三）：修改损失函数

1.使用 Focal loss 在util/loss.py中，computeloss类用于计算损失函数 # Focal lossg h[fl_gamma] # focal loss gammaif g > 0:BCEcls, BCEobj FocalLoss(BCEcls, g), FocalLoss(BCEobj, g)其中这一段就是开启Focal loss的关键！！&…...

编程日记 2024/4/28 9:01:32

Python中数组切片的用法详解

Python中数组切片的用法详解一、python中“::-1”代表什么？二、python中“:”的用法三、python中数组切片三、numpy中的整数数组索引四、numpy中借助【切片 : 或 …与索引数组】组合进行复杂切片五、布尔索引六、花式索引一、python中“::-1”代表什么？ …...

编程日记 2024/4/26 12:05:40

python 安装whl文件

前言 WHL文件是以Wheel格式保存的Python安装包，Wheel是Python发行版的标准内置包格式。在本质上是一个压缩包，WHL文件中包含了Python安装的py文件和元数据，以及经过编译的pyd文件，这样就使得它可以在不具备编译环境的条件下&#…...

编程日记 2024/4/22 14:49:20

Pycharm中安装pytorch

配置虚拟环境为什么要安装虚拟环境？虚拟环境：把一部分内容独立出来，称之为容器。在容器中，安装我们自己想要的东西，比如不容版本的依赖包。各容器之间相互独立，互不影响。比如下载完 Anaconda 之后&#…...

编程日记 2024/4/22 14:49:20

Package | 解决 module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

. 问题背景由于这个问题出现了两回，决定记录一下。实验背景是使用opencv python库进行数据预处理，遇到报错信息如下： “ import cv2 File “/opt/conda/lib/python3.8/site-packages/cv2/init.py”, line 181, in bootstrap() File “/op…...

编程日记 2024/4/26 23:34:27

如何在项目中搭建python接口自动化框架？

文章目录前言一、框架目录介绍1、common模块读取Excel代码读取yaml代码（支持场景关联）jsonpath断言封装代码requests二次封装（get、post）configparser读取配置文件递归遍历字典常用方法log日志封装2、conf模块3、data模块4、case模…...

编程日记 2024/4/22 14:49:20

应用统计432考研复试复试提问总结精简版【一】

一、区间估计与假设检验的联系与区别联系：二者利用样本进行推断，都属于推断统计区别： 原理： 前者是基于大概率，后者基于小概率；统计量：前者是构造枢轴量（不含未知参数，…...

编程日记 2024/4/22 14:49:20

Pytorch模型量化

在深度学习中，量化指的是使用更少的bit来存储原本以浮点数存储的tensor，以及使用更少的bit来完成原本以浮点数完成的计算。这么做的好处主要有如下几点： 更少的模型体积，接近4倍的减少；可以更快的计算，由于…...

编程日记 2024/4/22 14:49:20

已解决Encountered error while trying to install package.＞ lxml

已解决（pip安装第三方模块lxml模块报错）Building wheels for collected packages: lxml Building wheel for lxml (setup.py) … error error: subprocess-exited-with-error python setup.py bdist_wheel did not run successfully. note: This error o…...

编程日记 2024/5/5 5:06:31

距离度量 —— 闵可夫斯基距离(Minkowski Distance)

Python学习系列文章：👉 目录 👈 文章目录一、概述二、计算公式1. 闵氏距离公式2. 闵氏距离的参数 p3. 闵氏距离的缺点一、概述闵可夫斯基距离 (Minkowski Distance)，也被称为闵氏距离。它不仅仅是一种距离，而是将多…...

编程日记 2024/4/22 14:49:21

python（模块）xlwt

目录一、xlwt简介二、xlwt语法1、模块安装2、模块导入3、向xls文件中写入内容4、设置写入文件的格式4.1 字体设置（font）4.2 背景颜色设置（pattern）4.3 边框设置（borders）4.4 对齐方式设置（align…...

编程日记 2024/4/22 14:49:21

Pytorch中torch.unsqueeze()和torch.squeeze()函数解析

一. torch.squeeze()函数解析 1. 官网链接 torch.squeeze()，如下图所示： 2. torch.squeeze()函数解析 torch.squeeze(input, dimNone, outNone) squeeze()函数的功能是维度压缩。返回一个tensor（张量），其中 input…...

编程日记 2024/5/3 0:32:12

python绘制相关系数热力图

python绘制相关系数热力图一.数据说明和需要安装的库二.准备绘图三.设置配色，画出多幅图全部代码：本文讲述如何利用python绘制如上的相关系数热力图一.数据说明和需要安装的库数据是31个省市有关教育的12个指标，如下所示。，在文…...

编程日记 2024/4/14 12:13:53

DeepSpeed使用指南(简略版)

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会OOM，更别提后面的训练优化。作为传统pytorch Dataparallel的一种替代，D…...

编程日记 2024/5/4 15:06:59

【Python】tqdm 介绍与使用

文章目录一、tqdm 简介二、tqdm 使用1. 基于迭代对象运行: tqdm(iterator)2. tqdm(list)3. trange(i)4. 手动更新参考链接一、tqdm 简介 tqdm 是一个快速，可扩展的 Python 进度条，可以在 Python 长循环中添加一个进度提示信息，用户只需要封装…...

编程日记 2024/4/30 15:22:58

Pytorch机器学习（十）—— 目标检测中k-means聚类方法生成锚框anchor

Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor 目录 Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor 前言一、K-means聚类 k-means代码 k-means算法二、YOLO中使用k-means聚类生成anchor 读取VO…...

编程日记 2024/4/19 22:11:54

Python的占位格式符

对于print函数里的语句 print("我的名字是%s, 年龄是%d"%(name, age)) 中的%s和%d叫做占位符，它们的完整形态是 %[(name)][flags][width][.precision]typecode 其中带有[]的前缀都是可以省略的。 [(name)]: (name)表示, 根据, 制定的名称(…...

编程日记 2024/4/22 2:10:09

关于sklearn库的安装

对于安装sklearn真的是什么问题都被我遇到了例如pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(hostfiles.pythonhosted.org, port443): Read timed out.遇到了这种也遇到了Requirement already satisfied: numpy in c:\users\yjq\appdata\roamin…...

编程日记 2024/4/22 5:08:17

accuracy_score函数

1.acc计算原理 sklearn中accuracy_score函数计算了准确率。在二分类或者多分类中，预测得到的label，跟真实label比较，计算准确率。在multilabel（多标签问题）分类中，该函数会返回子集的准确率。如果对于一…...

编程日记 2024/4/21 12:47:35

怎么成为稚晖君？

如何成为IT大佬稚晖君——电子系统设计应具备的基本技能和方法论快速提高电子技术的必经之路_一些老生常谈的道理嵌入式AI入坑经历稚晖君软件硬件开发环境总结首先，机器学习深度学习这些和硬件是两个领域的内容，个人不建议一起学，注意力…...

编程日记 2024/4/22 0:18:15

Pandas库

Pandas是python第三方库，提供高性能易用数据类型和分析工具。Pandas基于NumPy实现，常与NumPy和Matplotlib一同使用。pandas库引用： import pandas as pd 包括两个数据类型：Series（相当于一维数据类型）&…...

编程日记 2024/4/22 3:42:52

通过两道一年级数学题反思自己

背景做完这两道题我开始反思自己，到底是什么限制了我？是我自己？是曾经教导我的老师？还是我的父母？ 是考试吗？还是什么？ 提目 1、正方体个数问题 2、相碰可能性过程静态思维： …...

编程日记 2024/4/5 3:49:36

深度学习—卷积神经网络（CNN）全笔记，附代码

本文内容为哔站学习笔记【卷积神经网络-CNN】深度学习（唐宇迪带你学AI）：卷积神经网络理论详解与项目实战，计算机视觉，图像识别模块实战_哔哩哔哩_bilibili 目录深度学习基础什么是深度学习？ 机器学习流…...

编程日记 2024/4/28 23:05:41

Building wheel for mmcv-full (setup.py) ... error解决办法！

mmdetection 安装后，根据官方给的程序安装mmcv时，出现：Building wheel for mmcv-full (setup.py) … error 环境：CUDA11.3, Pytorch1.11 安装根据官网给的安装程序：pip install mmcv-full -f https://download.openmm…...

编程日记 2024/4/25 3:21:08

联邦学习开山之作代码解读与收获

参考：联邦学习代码解读，超详细_一只揪的博客-CSDN博客_联邦学习代码参考文献：[1602.05629] Communication-Efficient Learning of Deep Networks from Decentralized Data (arxiv.org) 参考代码：GitHub - AshwinRJ/Federated-L…...

编程日记 2024/4/23 23:22:49

Python安装第三方库常用方法超详细~

Python安装第三方库常用方法前言安装方法1. 通过pychram安装2. pip安装大法3. 下载whl文件到本地离线安装3.1 补充4.其他方法4.1 Python官方的Pypi菜单4.2 国内镜像源解决pip安装过慢的问题小结前言在pyhton的学习中，相信大家通常都会碰到第三方库的安装问题&…...

编程日记 2024/4/26 23:32:18

Python--找出字符串中出现次数最多的字符及其出现的次数

方法一： 1、循环遍历列表或字符串，如果字符在字典中则值加1，如果不在则创建（key,value) 2、找到字典中，最大的value值 3、根据最大的value值，找对应的key值，打印出出现次数最多的字符 str &qu…...

编程日记 2024/4/23 17:36:09

滤波笔记一：卡尔曼滤波（Kalman Filtering）详解

本笔记是总结了B站DR_CAN的卡尔曼滤波器的课程，他的B站主页为：DR_CAN的个人空间_哔哩哔哩_bilibili PS:虽然我不是学自控的，但是老师真的讲的很好！ 目录 Lesson1 递归算法 Lesson2 数学基础_数据融合_协方差矩阵_状态空间方程…...

编程日记 2024/4/29 0:51:11

利用Python求斐波那契数列的第N项以及前N项和（循环、递归、集合）

著名的斐波那契数列，即从第三项开始，每一项都等于前两项之和。之前写过利用Java语言来编写，由于最近正在学Python，所以将自己的想法记录在此，有需要的朋友可以参考一下。写在前面：这里的三个方法其实思…...

编程日记 2024/4/28 14:53:17

一文速学(十八)-数据分析之Pandas处理文本数据(str/object)各类操作+代码一文详解(三)

目录前言一、子串提取提取匹配首位子串提取所有匹配项（extractall）...

编程日记 2024/4/29 23:32:36

Python数据分析-数据预处理

数据预处理文章目录数据预处理1.前言2.数据探索2.1缺失值分析2.2 异常值分析2.2.1 简单统计量分析2.2.2 3$\sigma$原则2.2.3 箱线图分析2.3 一致性分析2.4 相关性分析3.数据预处理3.1 数据清洗3.1.1 缺失值处理3.1.2 异常值处理3.2 数据集成3.2.1 实体识别3.2.2 冗余属性识别3…...

编程日记 2024/4/23 3:07:00

【Python】AES加解密代码，文章还有加密串等你来解密，等你来挑战

🍦🍦写这篇AES文章也是有件趣事，有位小伙伴发了段密文，看看谁解密速度快，学过Python的小伙伴一下子就解开来了，内容也挺有趣的。 🍟🍟原来加解密也可以这么有趣，虽然看起…...

编程日记 2024/4/26 7:25:59

朴素贝叶斯模型及案例（Python）

目录 1 朴素贝叶斯的算法原理 2 一维特征变量下的贝叶斯模型 3 二维特征变量下的贝叶斯模型 4 n维特征变量下的贝叶斯模型 5 朴素贝叶斯模型的sklearn实现 6 案例：肿瘤预测模型 6.1 读取数据与划分 6.1.1 读取数据 6.1.2 划分特征变量和目标变量 6.2 模型…...

编程日记 2024/5/4 12:03:31

python之Tkinter详解

Python之Tkinter详解文章目录Python之Tkinter详解1、Tkinter是什么2、Tkinter创建窗口①导入 tkinter的库 ，创建并显示窗口②修改窗口属性③创建按钮④窗口内的组件布局3、Tkinter布局用法①基本界面、label(标签)和button(按钮)用法②entry(输入)和text(文本)用法…...

编程日记 2024/4/22 0:29:38

【python】python进行debug操作

文章目录前言一、debug环境介绍二、debug按钮介绍2.1、step into:单步执行（遇到函数也是单步）2.2、step over:单步执行（遇到函数，全部运行）2.3、step into my code:（直接跳到下一个断点）2.4、st…...

编程日记 2024/4/27 11:26:19

Python安装tensorflow过程中出现“No matching distribution found for tensorflow”的解决办法

在Pycharm中使用pip install tensorflow安装tensorflow时报错： ERROR: Could not find a version that satisfies the requirement tensorflow(from versions: none) ERROR: No matching distribution found for tensorflow搜了好多帖子有的说可能是网络的问题&…...

编程日记 2024/4/30 3:46:08

pandas中的read_csv参数详解

1.官网语法 pandas.read_csv(filepath_or_buffer, sepNoDefault.no_default**,** delimiterNone**,** headerinfer’, namesNoDefault.no_default**,** index_colNone**,** usecolsNone**,** squeezeFalse**,** prefixNoDefault.no_default**,** mangle_dupe_colsTrue**,** dty…...

编程日记 2024/5/4 23:11:09

1.项目背景

2.数据获取

3.数据预处理

4.探索性数据分析

5.构建多元线性回归模型

6.模型评估

7.结论与展望

相关文章：