数据归一化方法及公式(机器学习数据归一化全方法总结)

一、介绍

数据归一化是将不同范围的数据映射到相同的标准范围内,常见的归一化方法有线性归一化、均值方差归一化等。这些方法在数据挖掘、机器学习等领域中广泛应用。

二、线性归一化

线性归一化即将数据映射为0-1之间的数值,应用最广泛,也是最简单的归一化方法。具体公式如下:

def linear_scale(data):
    max_val = max(data)
    min_val = min(data)
    return [(val - min_val) / (max_val - min_val) for val in data]

该函数接收一个列表类型的数据,返回一个经过线性归一化后的列表。

三、均值方差归一化

1. 均值方差归一化介绍

均值方差归一化是将数据映射为均值为0、方差为1的正态分布数据。该方法要求数据服从正态分布,且对异常值比较敏感。均值方差归一化的公式如下:

x’是归一化后的结果,x是原始数据,μ是均值,σ是方差。

2. 均值方差归一化代码示例

import numpy as np

def mean_std_scale(data):
    std_val = np.std(data)
    mean_val = np.mean(data)
    return [(val - mean_val) / std_val for val in data]

该函数接收一个列表类型的数据,返回一个经过均值方差归一化后的列表。

四、小数定标归一化

小数定标归一化是用科学计数法表示数据,通过移动小数点的位置把数值映射到[-1, 1)之间。具体公式如下:

x’是归一化后的结果,x是原始数据,j是移动的位数,通常j取数据中绝对值最大的项的位数。

3. 小数定标归一化代码示例

def decimal_scale(data):
    j = len(str(int(max(data))))
    return [val / (10 ** j) for val in data]

该函数接收一个列表类型的数据,返回一个经过小数定标归一化后的列表。

五、总结

数据归一化是将不同范围的数据映射到相同的标准范围内,常见的归一化方法有线性归一化、均值方差归一化和小数定标归一化。通过数据归一化,可以更好地处理数据,提高算法的精度和泛化能力。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注