学习机器学习过程中,总是会遇到交叉熵这个名词。通过交叉熵损失作为损失函数来优化模型也是学习过程中必然会遇到的场景。但是,每次当和同门或者其它人遇到或者讨论什么是交叉熵的时候,总是无法从0到1讲出来,往往就是说这句话:“衡量预测结果和标签之间的分布差异,从而优化模型,使得我们的模型预测的结果能够与真实结果同分布。”
本文出于此目的,想要把交叉熵从原理到机器学习中的应用捋一遍,方便以后回顾以及和网上的你们进行不断的探讨学习。
离散型随机变量X的概率分布=分布律=概率函数;
而离散型随机变量的概率分布函数F(x)就是把概率函数累加,因此又称之为累积概率函数;
举例加深对交叉熵的理解:
从例子中可以看出,给出的正确预测概率值越高的那个预测,标签对预测结果的交叉熵其实是最小的。
补充:0*任何数都是零;真是标签使用one hot编码的意义就是,表示的是随机变量(样本)的概率分布;交叉熵对于连续变化的信号(连续型随机变量的信号的效果是很差的,连续的一般用均方差),离散型一般用交叉熵,效果也较好。
q
(
c
i
)
q(c_i)
q(ci)代表预测为真实标签的概率。
补充:(源自深度之眼:Line讲解)
其中lg和log在计算机中默认是以10为底。
其实就是像素级别的分类问题,对每个像素分类结果求交叉熵之后,求和取平均。
参考内容:pytorch语义分割中CrossEntropyLoss()损失函数的理解与分析
bilibili一个视频彻底搞懂交叉熵、信息熵、相对熵、KL散度、交叉熵损失、交叉熵损失函数、softmax
【公开课-85集全】可汗学院:统计学(强烈推荐)
你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧