当前位置：首页 > news >正文

Python数据标准化

news 来源：原创 2024/5/5 6:48:46

一.数据标准化方式

1.实现中心化和正态分布的Z-Score

2.实现归一化的Max-Min

3.用于稀疏数据的MaxAbs

4.针对离群点的RobustScaler

二.Python针对以上几种标准化方法处理数据

三.总结

一.数据标准化方式

1.实现中心化和正态分布的Z-Score

Z-Score标准化是基于原始数据的均值和标准差进行的标准化，假设原转换的数据为x，新数据为x'，那么x'=(x-mean)/std，其中mean和std为x所在列的均值和标准差。

这种方法适合大多数类型的数据，也是很多工具的默认标准化方法。标准化之后的数据是以0为均值，方差为1的正态分布。但是Z-Score方法是一种中心化方法，会改变原有数据的分布结构，不适合用于对稀疏数据做处理。

在很多时候，数据集会存在稀疏性特征，表现为标准差小。并有很多元素的值为0.最常见的稀疏数据集是用来做协同过滤的数据集，绝大部分的数据都是0，仅有少部分数据为1。对稀疏数据做标准化，不能采用中心化的方式，否则会破坏稀疏数据的结构。

2.实现归一化的Max-Min

Max-Min标准化方法是对原始数据进行线性变换，假设原转换的数据为x，新数据为x'，那么x'=(x-min)/(max-min)，其中min和max为x所在列的最小值和最大值。

这种标准化方法的应用非常广泛，得到的数据会完全落入[0,1]，区间内（Z-Score则没有类似区间），这种方法能使数据归一化而落到一定的区间内，同时还能较好地保持原有数据结构。

3.用于稀疏数据的MaxAbs

最大值绝对值标准化(MaxAbs)即根据最大值的绝对值进行标准化，假设原转换的数据为x，新数据为x'，那么x'=x/|max|，其中max为x所在列的最大值。

MaxAbs方法跟Max-Min用法类似，也是将数据落入一定区间，但该方法的数据区间为[-1,1]。MaxAbs也具有不破坏原有数据分布结构的特点，因此也可以用于稀疏数据、稀疏的CSR或CSC矩阵。

4.针对离群点的RobustScaler

某种情况下，假如数据集中有离群点，我们可以使用Z-Score进行标准化，但是标准化之后的数据并不理想，因为异常点的特征往往在标准化之后便容易失去离群特征。此时可以使用RobustScaler针对离群点做标准化处理，该方法对数据中心化和数据的缩放健壮性有更强的参数控制能力。

二.Python针对以上几种标准化方法处理数据

import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt
data=np.loadtxt(r"F:\小橙书\chapter3\data6.txt",delimiter='\t')

# Z-Score标准化
zscore_scaler=preprocessing.StandardScaler()
data_scaler_1=zscore_scaler.fit_transform(data)
# Max-Min标准化
minmax_scaler=preprocessing.MinMaxScaler()
data_scaler_2=minmax_scaler.fit_transform(data)
# MaxAbs标准化
maxabs_scaler=preprocessing.MaxAbsScaler()
data_scaler_3=maxabs_scaler.fit_transform(data)
# RobustScaler准化
robust_scaler=preprocessing.RobustScaler()
data_scaler_4=robust_scaler.fit_transform(data)

data_list=[data,data_scaler_1,data_scaler_2,data_scaler_3,data_scaler_4]
scaler_list=[15,10,15,10,15,10] #创建点尺寸列表
color_list=['pink','green','red','orange','blue']
marker_list=['o',',','+','s','p']
title_list=['source data','zscore_scaler','minmax_scaler','maxabs_scaler','robust_scaler']
plt.figure(figsize=(15,8))
for i,data_single in enumerate(data_list):
    plt.subplot(2,3,i+1)
    plt.scatter(data_single[:,0],data_single[:,-1]
               ,s=scaler_list[i]
               ,marker=marker_list[i]
               ,c=color_list[i])
    plt.title=title_list[i]
plt.suptitle("row data and standardized data")
plt.show()

三.总结

（1）如果要做中心化处理，并且对数据分布有正态需求，则使用Z-Score方法。

（2）如果要进行0-1标准化或要指定标准化后的数据分布范围，Max-Min标准化或MaxAbs标准化是比较好的选择。

（3）如果要对稀疏数据进行处理，Max-Min标准化或MaxAbs标准化仍是理想方法。

（4）如果要最大限度保留数据集中的异常，则使用RobustScaler方法。

Pycharm无法下载汉化包，一招教你搞定

Pycharm无法下载汉化包，一招教你搞定Pycharm直接导入汉化包Pycharm 无法采用自带的插件安装汉化包Pycharm直接导入汉化包 Pycharm 是可以直接导入汉化包的，这为很多初学者省区了不少麻烦。具体就是： 1：点击pycharm界面右上角的设…...

编程日记 2024/4/22 14:49:19

python成功实现“高配版”王者小游戏？【赠源码】

前言嗨喽~大家好呀，这里是魔王呐 ❤ ~! 本游戏完整源码、素材: 点击此处跳转文末名片获取咳咳，又是一款新的小游戏，就是大家熟悉的王者~ 来看我用python来实现高（di）配版的王者是一款拿到代码运行后，…...

编程日记 2024/5/3 15:42:42

【项目实战】Python实现多元线性回归模型(statsmodels OLS算法)项目实战

说明：这是一个机器学习实战项目（附带数据代码文档视频讲解），如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景回归问题是一类预测连续值的问题，而能满足这样要求的数学模型称作回归模型，本项…...

编程日记 2024/5/5 6:09:04

graphviz安装教程（2022最新版）初学者适用

1、首先在官网下载graphviz 下载网址：https://www.graphviz.org/download/ 2、安装。打开第一步已经下载好的软件。点击下一步，在安装路径选择时可将安装路径修改为 D:\graphviz 接着一直点下一步，即可安装完成。 3、配置环境变量右键…...

编程日记 2024/5/5 5:21:03

【Windows】搭建Pytorch环境(GPU版本，含CUDA、cuDNN)，并在Pycharm上使用（零基础小白向）

文章目录前言一、安装CUDA1、检查电脑是否支持CUDA2、下载并安装CUDA3、下载并安装cuDNN二、安装Pytorch1、安装Anaconda2、切换清华镜像源3、创建环境并激活4、输入Pytorch安装命令5、测试三、在Pycharm上使用搭建好的环境参考文章前言本人纯python小白，第一次使用…...

编程日记 2024/4/22 14:49:19

Tensorflow与CUDA、cudnn版本对应关系

不同版本的Tensorflow需对应不同的CUDA和cudnn版本，否者容易安装失败。可按下图所示，根据想要安装的Tensorflow版本，选择对应版本的CUDA和cudnn。其中CUDA的下载链接为： CUDA Toolkit Archive | NVIDIA Developer cudnn下载链…...

编程日记 2024/5/5 4:30:31

ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:\Anaconda\envs\tensorflow\lib\typing.py)

报错背景： 因为安装tensorflow-gpu版本需要，我把原来的新建的anaconda环境（我的名为tensorflow）中的python3.8降为了3.7。在导入seaborn包时，出现了以下错误： ImportError: cannot import name Literal …...

编程日记 2024/4/30 8:03:55

100天精通Python（数据分析篇）——第67天：Pandas数据连接、合并、加入、添加、重构函数（merge、concat、join、append、stack、unstack）

文章目录一、数据连接（pd.merge）1. left、right2. how3. on4. left_on、right_on5. sort6. suffixes7. left_index、right_index二、数据合并（pd.concat）1. index 没有重复的情况2. index 有重复的情况3. DataFrame合并时同时查看行索引和列索引有无重复三、数据加入（pd.…...

编程日记 2024/4/26 16:55:01

yolov5 优化系列（三）：修改损失函数

1.使用 Focal loss 在util/loss.py中，computeloss类用于计算损失函数 # Focal lossg h[fl_gamma] # focal loss gammaif g > 0:BCEcls, BCEobj FocalLoss(BCEcls, g), FocalLoss(BCEobj, g)其中这一段就是开启Focal loss的关键！！&…...

编程日记 2024/4/28 9:01:32

Python中数组切片的用法详解

Python中数组切片的用法详解一、python中“::-1”代表什么？二、python中“:”的用法三、python中数组切片三、numpy中的整数数组索引四、numpy中借助【切片 : 或 …与索引数组】组合进行复杂切片五、布尔索引六、花式索引一、python中“::-1”代表什么？ …...

编程日记 2024/4/26 12:05:40

python 安装whl文件

前言 WHL文件是以Wheel格式保存的Python安装包，Wheel是Python发行版的标准内置包格式。在本质上是一个压缩包，WHL文件中包含了Python安装的py文件和元数据，以及经过编译的pyd文件，这样就使得它可以在不具备编译环境的条件下&#…...

编程日记 2024/4/22 14:49:20

Pycharm中安装pytorch

配置虚拟环境为什么要安装虚拟环境？虚拟环境：把一部分内容独立出来，称之为容器。在容器中，安装我们自己想要的东西，比如不容版本的依赖包。各容器之间相互独立，互不影响。比如下载完 Anaconda 之后&#…...

编程日记 2024/4/22 14:49:20

Package | 解决 module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

. 问题背景由于这个问题出现了两回，决定记录一下。实验背景是使用opencv python库进行数据预处理，遇到报错信息如下： “ import cv2 File “/opt/conda/lib/python3.8/site-packages/cv2/init.py”, line 181, in bootstrap() File “/op…...

编程日记 2024/4/26 23:34:27

如何在项目中搭建python接口自动化框架？

文章目录前言一、框架目录介绍1、common模块读取Excel代码读取yaml代码（支持场景关联）jsonpath断言封装代码requests二次封装（get、post）configparser读取配置文件递归遍历字典常用方法log日志封装2、conf模块3、data模块4、case模…...

编程日记 2024/4/22 14:49:20

应用统计432考研复试复试提问总结精简版【一】

一、区间估计与假设检验的联系与区别联系：二者利用样本进行推断，都属于推断统计区别： 原理： 前者是基于大概率，后者基于小概率；统计量：前者是构造枢轴量（不含未知参数，…...

编程日记 2024/4/22 14:49:20

Pytorch模型量化

在深度学习中，量化指的是使用更少的bit来存储原本以浮点数存储的tensor，以及使用更少的bit来完成原本以浮点数完成的计算。这么做的好处主要有如下几点： 更少的模型体积，接近4倍的减少；可以更快的计算，由于…...

编程日记 2024/4/22 14:49:20

已解决Encountered error while trying to install package.＞ lxml

已解决（pip安装第三方模块lxml模块报错）Building wheels for collected packages: lxml Building wheel for lxml (setup.py) … error error: subprocess-exited-with-error python setup.py bdist_wheel did not run successfully. note: This error o…...

编程日记 2024/5/5 5:06:31

距离度量 —— 闵可夫斯基距离(Minkowski Distance)

Python学习系列文章：👉 目录 👈 文章目录一、概述二、计算公式1. 闵氏距离公式2. 闵氏距离的参数 p3. 闵氏距离的缺点一、概述闵可夫斯基距离 (Minkowski Distance)，也被称为闵氏距离。它不仅仅是一种距离，而是将多…...

编程日记 2024/4/22 14:49:21

python（模块）xlwt

目录一、xlwt简介二、xlwt语法1、模块安装2、模块导入3、向xls文件中写入内容4、设置写入文件的格式4.1 字体设置（font）4.2 背景颜色设置（pattern）4.3 边框设置（borders）4.4 对齐方式设置（align…...

编程日记 2024/4/22 14:49:21

Pytorch中torch.unsqueeze()和torch.squeeze()函数解析

一. torch.squeeze()函数解析 1. 官网链接 torch.squeeze()，如下图所示： 2. torch.squeeze()函数解析 torch.squeeze(input, dimNone, outNone) squeeze()函数的功能是维度压缩。返回一个tensor（张量），其中 input…...

编程日记 2024/5/3 0:32:12

python绘制相关系数热力图

python绘制相关系数热力图一.数据说明和需要安装的库二.准备绘图三.设置配色，画出多幅图全部代码：本文讲述如何利用python绘制如上的相关系数热力图一.数据说明和需要安装的库数据是31个省市有关教育的12个指标，如下所示。，在文…...

编程日记 2024/4/14 12:13:53

DeepSpeed使用指南(简略版)

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会OOM，更别提后面的训练优化。作为传统pytorch Dataparallel的一种替代，D…...

编程日记 2024/5/4 15:06:59

【Python】tqdm 介绍与使用

文章目录一、tqdm 简介二、tqdm 使用1. 基于迭代对象运行: tqdm(iterator)2. tqdm(list)3. trange(i)4. 手动更新参考链接一、tqdm 简介 tqdm 是一个快速，可扩展的 Python 进度条，可以在 Python 长循环中添加一个进度提示信息，用户只需要封装…...

编程日记 2024/4/30 15:22:58

Pytorch机器学习（十）—— 目标检测中k-means聚类方法生成锚框anchor

Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor 目录 Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor 前言一、K-means聚类 k-means代码 k-means算法二、YOLO中使用k-means聚类生成anchor 读取VO…...

编程日记 2024/4/19 22:11:54

Python的占位格式符

对于print函数里的语句 print("我的名字是%s, 年龄是%d"%(name, age)) 中的%s和%d叫做占位符，它们的完整形态是 %[(name)][flags][width][.precision]typecode 其中带有[]的前缀都是可以省略的。 [(name)]: (name)表示, 根据, 制定的名称(…...

编程日记 2024/4/22 2:10:09

关于sklearn库的安装

对于安装sklearn真的是什么问题都被我遇到了例如pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(hostfiles.pythonhosted.org, port443): Read timed out.遇到了这种也遇到了Requirement already satisfied: numpy in c:\users\yjq\appdata\roamin…...

编程日记 2024/4/22 5:08:17

accuracy_score函数

1.acc计算原理 sklearn中accuracy_score函数计算了准确率。在二分类或者多分类中，预测得到的label，跟真实label比较，计算准确率。在multilabel（多标签问题）分类中，该函数会返回子集的准确率。如果对于一…...

编程日记 2024/4/21 12:47:35

怎么成为稚晖君？

如何成为IT大佬稚晖君——电子系统设计应具备的基本技能和方法论快速提高电子技术的必经之路_一些老生常谈的道理嵌入式AI入坑经历稚晖君软件硬件开发环境总结首先，机器学习深度学习这些和硬件是两个领域的内容，个人不建议一起学，注意力…...

编程日记 2024/4/22 0:18:15

Pandas库

Pandas是python第三方库，提供高性能易用数据类型和分析工具。Pandas基于NumPy实现，常与NumPy和Matplotlib一同使用。pandas库引用： import pandas as pd 包括两个数据类型：Series（相当于一维数据类型）&…...

编程日记 2024/4/22 3:42:52

通过两道一年级数学题反思自己

背景做完这两道题我开始反思自己，到底是什么限制了我？是我自己？是曾经教导我的老师？还是我的父母？ 是考试吗？还是什么？ 提目 1、正方体个数问题 2、相碰可能性过程静态思维： …...

编程日记 2024/4/5 3:49:36

深度学习—卷积神经网络（CNN）全笔记，附代码

本文内容为哔站学习笔记【卷积神经网络-CNN】深度学习（唐宇迪带你学AI）：卷积神经网络理论详解与项目实战，计算机视觉，图像识别模块实战_哔哩哔哩_bilibili 目录深度学习基础什么是深度学习？ 机器学习流…...

编程日记 2024/4/28 23:05:41

Building wheel for mmcv-full (setup.py) ... error解决办法！

mmdetection 安装后，根据官方给的程序安装mmcv时，出现：Building wheel for mmcv-full (setup.py) … error 环境：CUDA11.3, Pytorch1.11 安装根据官网给的安装程序：pip install mmcv-full -f https://download.openmm…...

编程日记 2024/4/25 3:21:08

联邦学习开山之作代码解读与收获

参考：联邦学习代码解读，超详细_一只揪的博客-CSDN博客_联邦学习代码参考文献：[1602.05629] Communication-Efficient Learning of Deep Networks from Decentralized Data (arxiv.org) 参考代码：GitHub - AshwinRJ/Federated-L…...

编程日记 2024/4/23 23:22:49

Python安装第三方库常用方法超详细~

Python安装第三方库常用方法前言安装方法1. 通过pychram安装2. pip安装大法3. 下载whl文件到本地离线安装3.1 补充4.其他方法4.1 Python官方的Pypi菜单4.2 国内镜像源解决pip安装过慢的问题小结前言在pyhton的学习中，相信大家通常都会碰到第三方库的安装问题&…...

编程日记 2024/4/26 23:32:18

Python--找出字符串中出现次数最多的字符及其出现的次数

方法一： 1、循环遍历列表或字符串，如果字符在字典中则值加1，如果不在则创建（key,value) 2、找到字典中，最大的value值 3、根据最大的value值，找对应的key值，打印出出现次数最多的字符 str &qu…...

编程日记 2024/4/23 17:36:09

滤波笔记一：卡尔曼滤波（Kalman Filtering）详解

本笔记是总结了B站DR_CAN的卡尔曼滤波器的课程，他的B站主页为：DR_CAN的个人空间_哔哩哔哩_bilibili PS:虽然我不是学自控的，但是老师真的讲的很好！ 目录 Lesson1 递归算法 Lesson2 数学基础_数据融合_协方差矩阵_状态空间方程…...

编程日记 2024/4/29 0:51:11

利用Python求斐波那契数列的第N项以及前N项和（循环、递归、集合）

著名的斐波那契数列，即从第三项开始，每一项都等于前两项之和。之前写过利用Java语言来编写，由于最近正在学Python，所以将自己的想法记录在此，有需要的朋友可以参考一下。写在前面：这里的三个方法其实思…...

编程日记 2024/4/28 14:53:17

一文速学(十八)-数据分析之Pandas处理文本数据(str/object)各类操作+代码一文详解(三)

目录前言一、子串提取提取匹配首位子串提取所有匹配项（extractall）...

编程日记 2024/4/29 23:32:36

Python数据分析-数据预处理

数据预处理文章目录数据预处理1.前言2.数据探索2.1缺失值分析2.2 异常值分析2.2.1 简单统计量分析2.2.2 3$\sigma$原则2.2.3 箱线图分析2.3 一致性分析2.4 相关性分析3.数据预处理3.1 数据清洗3.1.1 缺失值处理3.1.2 异常值处理3.2 数据集成3.2.1 实体识别3.2.2 冗余属性识别3…...

编程日记 2024/4/23 3:07:00

【Python】AES加解密代码，文章还有加密串等你来解密，等你来挑战

🍦🍦写这篇AES文章也是有件趣事，有位小伙伴发了段密文，看看谁解密速度快，学过Python的小伙伴一下子就解开来了，内容也挺有趣的。 🍟🍟原来加解密也可以这么有趣，虽然看起…...

编程日记 2024/4/26 7:25:59

朴素贝叶斯模型及案例（Python）

目录 1 朴素贝叶斯的算法原理 2 一维特征变量下的贝叶斯模型 3 二维特征变量下的贝叶斯模型 4 n维特征变量下的贝叶斯模型 5 朴素贝叶斯模型的sklearn实现 6 案例：肿瘤预测模型 6.1 读取数据与划分 6.1.1 读取数据 6.1.2 划分特征变量和目标变量 6.2 模型…...

编程日记 2024/5/4 12:03:31

python之Tkinter详解

Python之Tkinter详解文章目录Python之Tkinter详解1、Tkinter是什么2、Tkinter创建窗口①导入 tkinter的库 ，创建并显示窗口②修改窗口属性③创建按钮④窗口内的组件布局3、Tkinter布局用法①基本界面、label(标签)和button(按钮)用法②entry(输入)和text(文本)用法…...

编程日记 2024/4/22 0:29:38

【python】python进行debug操作

文章目录前言一、debug环境介绍二、debug按钮介绍2.1、step into:单步执行（遇到函数也是单步）2.2、step over:单步执行（遇到函数，全部运行）2.3、step into my code:（直接跳到下一个断点）2.4、st…...

编程日记 2024/4/27 11:26:19

Python安装tensorflow过程中出现“No matching distribution found for tensorflow”的解决办法

在Pycharm中使用pip install tensorflow安装tensorflow时报错： ERROR: Could not find a version that satisfies the requirement tensorflow(from versions: none) ERROR: No matching distribution found for tensorflow搜了好多帖子有的说可能是网络的问题&…...

编程日记 2024/4/30 3:46:08

pandas中的read_csv参数详解

1.官网语法 pandas.read_csv(filepath_or_buffer, sepNoDefault.no_default**,** delimiterNone**,** headerinfer’, namesNoDefault.no_default**,** index_colNone**,** usecolsNone**,** squeezeFalse**,** prefixNoDefault.no_default**,** mangle_dupe_colsTrue**,** dty…...

编程日记 2024/5/4 23:11:09

一.数据标准化方式

1.实现中心化和正态分布的Z-Score

2.实现归一化的Max-Min

3.用于稀疏数据的MaxAbs

4.针对离群点的RobustScaler

二.Python针对以上几种标准化方法处理数据

三.总结

相关文章：