分类模型评估中,通过各类损失(loss
)函数的分析,可以衡量模型预测结果与真实值之间的差异。
不同的损失函数可用于不同类型的分类问题,以便更好地评估模型的性能。
本篇将介绍分类模型评估中常用的几种损失计算方法。
1. 汉明损失
Hamming loss
(汉明损失)是一种衡量分类模型预测错误率的指标。
它直接衡量了模型预测错误的样本比例,因此更直观地反映出模型的服务器托管网预测精度,
而且,它对不平衡数据比较敏感,也适用于多分类的问题,不仅限于二分类问题。
1.1. 计算公式
(L(y, hat{y}) = frac{1}{n * m} sum_{i=0}^{n-1} sum_{j=0}^{m – 1} 1(hat{y}_{i,j} not= y_{i,j}))
其中,(n)是样本数量,(m)是标签数量,(y_{i,j})是样本(i)的第(j)个标签的真实值,(hat{y}_{i,j})是对应的预测值,
(1(x)) 是指示函数。
1.2. 使用示例
from sklearn.metrics import hamming_loss
import numpy as np
n = 100
y_true = np.random.randint(1, 10, n)
y_pred = np.random.randint(1, 10, n)
s = hamming_loss(y_true, y_pred)
print("hamming loss:{}".format(s))
# 运行结果
hamming loss:0.8
2. 铰链损失
Hinge loss
(铰链损失)常用于“最大间隔”分类,其最著名的应用是作为支持向量机(SVM)的目标函数。Hinge loss
主要用于二分类问题,并且通常与特定的算法(如SVM)结合使用。
2.1. 计算公式
(L(y, w) = frac{1}{n} sum_{i=0}^{n-1} maxleft{1 – w_i y_i, 0right})
其中,(n)是样本数量,(y_i)是真实值, (w_i)是相应的预测决策(由 decision_function
方法输出)。
2.2. 使用示例
from sklearn.metrics import hinge_loss
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
import numpy as np
n = 100
X = np.random.randint(0, 2, size=(n, 1))
y = np.random.randint(0, 2, n)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)
reg = LinearSVC(dual="auto")
reg.fit(X_train, y_train)
y_pred_decision = reg.decision_function(X_test)
s = hinge_loss(y_test, y_pred_decision)
print("hinge loss:{}".format(s))
# 运行结果
hinge loss:1.0136184446302712
上面的示例中,首先构建一个支持向量机的训练模型和随机的样本数据。
最后在测试集上计算hinge loss
。
3. 对数损失
对数损失(log loss
)通过考虑模型预测的概率与实际标签的对数误差来评估模型的性能。
它特别关注模型对于每个样本的预测概率的准确性,对于错误的分类,Log loss
会给予较大的惩罚。
对数损失的值越小,表示模型的预测概率越接近实际标签,模型的性能越好。
3.1. 计算公式
(LL = – frac{1}{N} sum_{i=0}^{N-1} sum_{k=0}^{K-1} y_{i,k} log p_{i,k})
其中,(N)是样本数量,(K)是分类标签的数量,
(y_{i,k})是第(i)个样本在标签(k)上的真实值,(p_{i,k})是对应的概率估计。
3.2. 使用示例
from sklearn.metrics import log_loss
import numpy as np
n = 100
k = 10
y_true = np.random.randint(0, k, n)
y_prob = np.random.rand(n, k)
# 这一步转换后,
# y_prob 每一行的和都为1
for i in range(len(y_prob)):
y_prob[i, :] = y_prob[i, :] / np.sum(y_prob[i, :])
s = log_loss(y_true, y_prob)
print("log loss:{}".format(s))
# 运行结果
log loss:2.6982702715125466
上面的示例中,(n)是样本数量,(k)是标签数量。
4. 零一损失
零一损失(zero-one loss
)非常直观,直接对应着分类判断错误的个数,能很清晰地反映出模型预测错误的比例。
它计算简单,易于理解和实现,对于二分类问题特别直观,但是对于非凸性质不太适用。
4.1. 计算公式
(L(y, hat{y}) = frac{1}{n} sum_{i=0}^{n-1} 1(hat{y}_i not= y_i))
其中,(n)是样本数量,(y_i)是真实值,(hat{y_i})是预测值,
(1(x)) 是指示函数。
4.2. 使用示例
from sklearn.metrics import zero_one_loss
import numpy as np
n = 100
y_true = np.random.randint(1, 10, n)
y_pred = np.random.randint(1, 10, n)
s1 = zero_one_loss(y_true, y_pred)
s2 = zero_one_loss(y_true, y_pred, normalize=False)
print("zero-one loss比率:{}nzero-one loss数量:{}".format(s1, s2))
# 运行结果
zero-one loss比率:0.89
zero-one loss数量:89
5. Brier 分数损失
Brier 分数损失(Brier score loss
)关注模型预测的概率与实际结果之间的差异。
与只关注预测类别的其他指标不同,它衡量了预测概率的可靠性;
与一些仅适用于二分类问题的评估指标相比,Brier score loss可以应用于多类别分类问题。
它的数值越小,表示模型的概率预测越准确,具有很好的解释性。
5.1. 计算公式
(BS = frac{1}{n} sum_{i=0}^{n – 1}(y_i – p_i)^2)
其中,(n)是样本数量,(y_i)是真实值,(p_i)是预测概率估计的均方误差。
5.2. 使用示例
from sklearn.metrics import brier_score_loss
import numpy as np
n = 100
y_true = np.random.randint(0, 2, n)
y_prob = np.random.rand(n)
s = brier_score_loss(y_true, y_prob)
print("brier score loss:{}".format(s))
# 运行结果
brier score loss:0.3141953858083935
示例中计算损失用的模拟数据中,y_true
表示真实值,y_prob
表示预测概率的均服务器托管网方误差。
6. 总结
本篇归纳总结了分类模型中关于损失函数的一些使用方式:
- 汉明损失,Hamming loss
- 铰链损失,Hinge loss
- 对数损失,log loss
- 零一损失,zero one loss
- Brier 分数损失,Brier score loss
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
相关推荐: Asp .Net Core 系列: 集成 Consul 实现 服务注册与健康检查
目录 什么是 Consul? 安装和运行 Consul Asp .Net Core 如何集成 Consul 实现服务注册和健康检查 Consul.AspNetCore 中的 AddConsul 和 AddConsulServiceRegistration 方法…