当前位置：首页 > 编程日记 > 正文

讲解PyTorch 多分类损失函数

编程日记 2023-12-17 23:30:08

讲解PyTorch多分类损失函数

在机器学习中，多分类问题是指将样本分为两个以上的类别。为了对多分类问题进行有效的训练，我们需要使用适当的损失函数来度量模型预测与真实标签之间的差异。PyTorch是一个流行的深度学习框架，提供了多种多分类损失函数的实现。本文将带您了解PyTorch中一些常用的多分类损失函数及其用法。

1. 交叉熵损失函数（CrossEntropyLoss）

交叉熵损失函数是最常用的多分类损失函数之一，适用于将模型输出映射为概率分布的情况。在PyTorch中，通过使用torch.nn.CrossEntropyLoss类来实现交叉熵损失函数。以下是使用交叉熵损失函数进行模型训练的示例代码：

pythonCopy code
import torch
import torch.nn as nn
import torch.optim as optim
# 假设有10个类别
num_classes = 10
# 创建模型
model = YourModel()
# 定义交叉熵损失函数
criterion = nn.CrossEntropyLoss()
# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01)
# 训练循环
for inputs, labels in dataloader:
    # 前向传播
    outputs = model(inputs)
    
    # 计算损失
    loss = criterion(outputs, labels)
    
    # 梯度清零
    optimizer.zero_grad()
    
    # 反向传播
    loss.backward()
    
    # 更新权重
    optimizer.step()

在上述示例代码中，我们首先创建了一个模型对象，然后使用nn.CrossEntropyLoss类创建了一个交叉熵损失函数的实例。接下来，我们创建了一个优化器（例如SGD）来更新模型参数。在训练循环中，通过将模型输出和真实标签作为参数传递给交叉熵损失函数，计算出当前的损失值。然后，通过调用loss.backward()方法计算梯度，并通过optimizer.step()方法更新模型的权重。

2. 负对数似然损失函数（NLLLoss）

负对数似然损失函数也是用于多分类问题的常见损失函数之一。与交叉熵损失函数不同的是，负对数似然损失函数要求模型输出的是一个对数概率分布。在PyTorch中，通过使用torch.nn.NLLLoss类来实现负对数似然损失函数。以下是使用负对数似然损失函数进行模型训练的示例代码：

pythonCopy code
import torch
import torch.nn as nn
import torch.optim as optim
# 假设有10个类别
num_classes = 10
# 创建模型
model = YourModel()
# 定义负对数似然损失函数
criterion = nn.NLLLoss()
# 定义优化器
optimizer = optim.SGD(model.parameters(), lr=0.01)
# 训练循环
for inputs, labels in dataloader:
    # 前向传播
    log_probs = model(inputs).log()
    
    # 计算损失
    loss = criterion(log_probs, labels)
    
    # 梯度清零
    optimizer.zero_grad()
    
    # 反向传播
    loss.backward()
    
    # 更新权重
    optimizer.step()

在上述示例代码中，我们首先创建了一个模型对象，并通过nn.NLLLoss类创建了一个负对数似然损失函数的实例。在训练循环中，我们首先计算模型输出的对数概率分布（通过调用log()方法），然后将此对数概率分布和真实标签传递给负对数似然损失函数，计算当前的损失值。接下来的梯度计算、梯度清零、反向传播和权重更新与交叉熵损失函数的示例代码相似。

3. 其他多分类损失函数

除了交叉熵损失函数和负对数似然损失函数，PyTorch还提供了其他许多多分类损失函数的实现。例如，如果您的模型输出是二进制的概率分布（0或1），可以使用torch.nn.BCELoss类来计算二分类交叉熵损失。另外，torch.nn.BCEWithLogitsLoss类结合了Sigmoid函数和二分类交叉熵损失的计算，适用于针对二分类问题的模型训练。您可以在PyTorch的官方文档中查找更多多分类损失函数的信息。希望本文对您理解PyTorch中的多分类损失函数有所帮助。使用适当的损失函数，可以帮助您训练出更准确的多分类模型。在实际应用中，您可能会根据具体任务的特点选择不同的损失函数。通过不断尝试和实践，您将能够选择最适合您的多分类问题的损失函数。

当处理实际的多分类问题时，我们需要根据具体的应用场景来选择合适的损失函数。下面我将以一个图像分类的示例场景为例，演示如何使用PyTorch来应用多分类损失函数。假设我们要训练一个图像分类模型，将输入的图像分为10个不同的类别。我们可以使用预训练的ResNet模型作为我们的基础模型，并使用交叉熵损失函数来训练模型。

pythonCopy code
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision.datasets import CIFAR10
import torchvision.transforms as transforms
import torchvision.models as models
# 加载训练数据集
transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])
train_dataset = CIFAR10(root='./data', train=True, download=True, transform=transform_train)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
# 加载测试数据集
transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])
test_dataset = CIFAR10(root='./data', train=False, download=True, transform=transform_test)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)
# 创建模型
model = models.resnet18(pretrained=True)
num_ftrs = model.fc.in_features
model.fc = nn.Linear(num_ftrs, 10)
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
# 训练模型
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
for epoch in range(10):
    running_loss = 0.0
    for i, (inputs, labels) in enumerate(train_loader):
        inputs, labels = inputs.to(device), labels.to(device)
        
        optimizer.zero_grad()
        
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
        if i % 200 == 199:    
            print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 200))
            running_loss = 0.0
print('Finished training')
# 测试模型
correct = 0
total = 0
with torch.no_grad():
    for inputs, labels in test_loader:
        inputs, labels = inputs.to(device), labels.to(device)
        outputs = model(inputs)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()
print('Accuracy of the network on the 10000 test images: %.2f %%' % (100 * correct / total))

在上面的代码中，我们首先加载了CIFAR10数据集，并对训练集和测试集进行了相应的预处理。然后，我们使用预训练的ResNet模型作为基础模型，将最后一层的全连接层替换为一个具有10个输出节点的线性层，以适应我们的分类任务。接下来，我们定义了交叉熵损失函数和SGD优化器。然后，我们将模型移动到可用的设备（GPU或CPU）上，并开始训练模型。最后，我们在测试集上计算模型的准确率。这个示例展示了如何使用PyTorch中的多分类损失函数和预训练模型来构建一个图像分类模型，并进行训练和测试。在实际应用中，您可以根据具体的场景和需求，选择适合的模型和损失函数，并根据需要进行相应的调整和优化。

多分类损失函数是一种用于评估多分类问题中模型预测结果与真实标签之间差异的函数。它在训练过程中用于优化模型参数，以最小化预测结果与真实标签之间的差异，从而提高模型的准确性。在深度学习中，常用的多分类损失函数包括交叉熵损失函数、负对数似然损失函数等。交叉熵损失函数（Cross Entropy Loss）是多分类问题中最常用的损失函数之一。它可以衡量模型的输出概率分布与真实标签之间的差异。交叉熵损失函数通过将预测的概率分布与真实标签的one-hot编码进行比较，计算模型预测错误的程度。假设我们有N个训练样本和C个类别，对于第i个样本，其真实标签为one-hot向量yi=[y1, y2, ..., yc]，其中yi=1表示该样本属于第i类，其他元素为0。模型对该样本的预测结果为向量pi=[p1, p2, ..., pc]，其中pi表示模型预测样本属于第i类的概率。交叉熵损失函数的计算公式如下： $$ \text{CE}(y, p) = - \sum_{i=1}^{C} y_i * \log(p_i) $$ 其中，$y_i$表示第i个类别的真实标签，$p_i$表示模型预测样本属于第i类的概率。交叉熵损失函数的特点是对错误的预测结果惩罚较大，对正确的预测结果惩罚较小。因此，在训练过程中，通过最小化交叉熵损失函数，模型可以逐渐调整参数，提高对样本的分类准确性。在实际应用中，交叉熵损失函数常与Softmax函数结合使用。Softmax函数可以将模型的原始输出转化为概率分布，使得各个类别的预测概率之和为1。通过将模型的输出经过Softmax函数得到概率分布，再与真实标签计算交叉熵损失，可以同时优化模型的预测结果和概率分布。除了交叉熵损失函数，负对数似然损失函数（Negative Log Likelihood Loss）也常用于多分类问题。它与交叉熵损失函数的计算方法相似，不同之处在于负对数似然损失函数假设模型的输出服从多项分布。负对数似然损失函数在某些情况下可以更加适用，例如对于具有严格互斥的类别，每个样本只能属于一个类别的情况。总的来说，多分类损失函数是用于评估模型预测结果与真实标签之间差异的函数。选择合适的多分类损失函数可以帮助模型更准确地进行分类任务，并优化模型的预测结果。交叉熵损失函数和负对数似然损失函数是常用的多分类损失函数，根据具体的问题和需求选择合适的损失函数对模型进行训练和优化。

pytorch分类人工智能

https://www.dkcj.cn/info/401.html

Yolov11-detect训练自己的数据集

至此，整个YOLOv11的训练预测阶段完成，与YOLOv8差不多。欢迎各位批评指正。

编程日记2024/11/14 15:00:04

YOLOv10训练自己的数据集

至此，整个YOLOv10的训练预测阶段完成，与YOLOv8差不多。欢迎各位批评指正。

编程日记2024/06/03 11:00:02

YOLOv10环境搭建、模型预测和ONNX推理

运行后会在文件yolov10s.pt存放路径下生成一个的yolov10s.onnxONNX模型文件。安装完成之后，我们简单执行下推理命令测试下效果，默认读取。终端，进入base环境，创建新环境。（1）onnx模型转换。

编程日记2024/05/27 16:00:02

YOLOv7-Pose 姿态估计-环境搭建和推理

终端，进入base环境，创建新环境，我这里创建的是p38t17(python3.8，pytorch1.7)安装pytorch：（网络环境比较差时，耗时会比较长）下载好后打开yolov7-pose源码包。imgpath：需要预测的图片的存放路径。modelpath:模型的存放路径。Yolov7-pose权重下载。打开工程后，进入设置。

编程日记2024/03/15 17:00:02

深度学习硬件基础：CPU与GPU

CPU：叫做中央处理器（central processing unit）作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。[^3]可以形象的理解为有25%的ALU(运算单元)、有25%的Control(控制单元)、50%的Cache(缓存单元)GPU：叫做图形处理器。

编程日记2024/02/04 13:00:04

YOLOv8-Detect训练CoCo数据集+自己的数据集

至此，整个训练预测阶段完成。此过程同样可以在linux系统上进行，在数据准备过程中需要仔细，保证最后得到的数据准确，最好是用显卡进行训练。有问题评论区见！

编程日记2024/02/02 17:00:03

Java中的四种访问权限（private,public,protected,无修饰）

/实体类属性和数据库字段名称不一致//实体类属性和数据库字段名称不一致return id;return age;emp.test();//直接调用public修饰的变量//private修饰的变量进行赋值//调用private修饰的变量1、public修饰符定义的属性和方法通过对象实例化进行调用，2、private修饰的属性通过set、get方法进行调用。

编程日记2024/01/24 19:57:12

基于深度学习的细胞感染性识别与判定

通过引入深度学习技术，我们能够更精准地识别细胞是否受到感染，为医生提供更及时的信息，有助于制定更有效的治疗方案。基于深度学习的方法通过学习大量样本，能够自动提取特征并进行准确的感染性判定，为医学研究提供了更高效和可靠的手段。通过引入先进的深度学习技术，我们能够实现更快速、准确的感染性判定，为医学研究和临床实践提供更为可靠的工具。其准确性和效率将为医学研究带来新的突破，为疾病的早期诊断和治疗提供更可靠的支持。通过大规模的训练，模型能够学到细胞感染的特征，并在未知数据上做出准确的预测。

编程日记2024/01/21 18:24:14

Jetson AGX Orin安装archiconda、Pytorch

编程日记2024/01/16 20:24:07

windows安装conda环境，开发openai应用准备，运行第一个ai程序

作者开发第一个openai应用的环境准备、第一个openai程序调用成功，做个记录，希望帮助新来的你。第一次能成功运行的openai程序，狠开心。

编程日记2024/01/14 15:10:13

一文详解TensorFlow模型迁移及模型训练实操步骤

当前业界很多训练脚本是基于TensorFlow的Python API进行开发的，默认运行在CPU/GPU/TPU上，为了使这些脚本能够利用昇腾AI处理器的强大算力执行训练，需要对TensorFlow的训练脚本进行迁移。

编程日记2024/01/12 09:04:56

将 OpenCV 与 gdb 驱动的 IDE 结合使用

能力这个漂亮的打印机可以显示元素类型、标志和（可能被截断的）矩阵。众所周知，它可以在 Clion、VS Code 和 gdb 中工作。Clion 示例安装移入 .放在方便的地方，重命名并移动到您的个人文件夹中。将“source”行更改为指向您的路径。如果系统中安装的 python 3 版本与 gdb 中的版本不匹配，请使用完全相同的版本创建一个新的虚拟环境，相应地安装并更改 python3 的路径。用法调试器中以前缀为前缀的字段是为方便起见而添加的伪字段，其余字段保持原样。

编程日记2024/01/11 10:38:44

改进的yolov5目标检测-yolov5替换骨干网络-yolo剪枝（TensorRT及NCNN部署）

改进的yolov5目标检测-yolov5替换骨干网络-yolo剪枝（TensorRT及NCNN部署）2021.10.30 复现TPH-YOLOv52021.10.31 完成替换backbone为Ghostnet2021.11.02 完成替换backbone为Shufflenetv22021.11.05 完成替换backbone为Mobilenetv3Small2021.11.10 完成EagleEye对YOLOv5系列剪枝支持2021.11.14 完成MQBench对YOLOv5系列量

编程日记2024/01/10 16:00:51

PyTorch中nn.Module的继承类中方法foward是自动执行的么？

在 PyTorch的 nn.Module中，forward方法并不是自动执行的，但它是在模型进行前向传播时必须调用的一个方法。当你实例化一个继承自torch.nn.Module的自定义类并传入输入数据时，需要通过调用该实例来实现前向传播计算，这实际上会隐式地调用forward方法。

编程日记2024/01/06 15:39:23

文本挖掘的几种常用的方法

1. 文本预处理：首先对文本数据进行清洗和预处理，如去除停用词（如“的”、“是”等常用词）、标点符号和特殊字符，并进行词干化或词形还原等操作，以减少数据噪声和提取更有意义的特征。3. 文本分类：将文本数据分为不同的类别或标签。文本挖掘是一种通过自动化地发现、提取和分析大量文本数据中的有趣模式、关联和知识的技术。这些示例代码只是简单的演示了各种方法的使用方式，具体的实现还需要根据具体的需求和数据进行适当的调整和优化。8. 文本生成：使用统计模型或深度学习模型生成新的文本，如机器翻译、文本摘要和对话系统等。

编程日记2024/01/06 09:02:47

智能革命：揭秘AI如何重塑创新与效率的未来

编程日记2024/01/05 23:16:26

一文搞懂深度信念网络！DBN概念介绍与Pytorch实战

深度信念网络（Deep Belief Networks, DBNs）是一种深度学习模型，代表了一种重要的技术创新，具有几个关键特点和突出能力。首先，DBNs是由多层受限玻尔兹曼机（Restricted Boltzmann Machines, RBMs）堆叠而成的生成模型。这种多层结构使得DBNs能够捕获数据中的高层次抽象特征，对于复杂的数据结构具有强大的表征能力。其次，DBNs采用无监督预训练的方式逐层训练模型。

编程日记2024/01/03 19:33:19

人工智能在现代科技中的应用和未来发展趋势

未来，深度学习将进一步发展，能够应用于更多的领域，如自动驾驶、智能制造和医疗辅助等。图像识别和计算机视觉：人工智能在图像识别和计算机视觉领域取得了巨大突破，能够自动识别和分类图像中的物体和场景。未来，随着人工智能技术的发展，自动化和机器人技术将实现更高的智能化程度，能够完成更加复杂的任务。语音识别和自然语言处理：人工智能已经实现了高度准确的语音识别技术，使得我们可以通过语音与智能助理交互，如苹果的Siri和亚马逊的Alexa。未来，语音识别技术将变得更加智能和自然，能够理解和回答更加复杂的问题。

编程日记2024/01/02 12:24:47

在云计算环境中，如何利用 AI 改进云计算系统和数据库系统性能

2023年我想大家讨论最多，热度最大的技术领域就是 AIGC 了，AI绘画的兴起，ChatGPT的火爆，在微软背后推手的 OpenAI 大战 Google几回合后，国内各种的大语言模型产品也随之各家百花齐放，什么文心一言、通义千问、科大讯飞的星火以及华为的盘古等等，一下子国内也涌现出几十种人工智能的大语言模型产品。ChatGPT 爆火之后，你是否有冷静的思考过 AIGC 的兴起对我们有哪些机遇与挑战？我们如何将AI 应用到我们现有的工作学习中？_aigc k8s

编程日记2024/01/01 10:04:22

神经网络中的分位数回归和分位数损失

分位数回归是一种强大的统计工具，对于那些关注数据分布中不同区域的问题，以及需要更加灵活建模的情况，都是一种有价值的方法。本文将介绍了在神经网络种自定义损失实现分位数回归，并且介绍了如何检测和缓解预测结果的"扁平化"问题。Quantile loss在一些应用中很有用，特别是在金融领域的风险管理问题中，因为它提供了一个在不同分位数下评估模型性能的方法。作者：Shiro Matsumoto。

编程日记2023/12/31 19:25:38

基于神经网络——鸢尾花识别（Iris）

鸢尾花识别是学习AI入门的案例，这里和大家分享下使用Tensorflow2框架，编写程序，获取鸢尾花数据，搭建神经网络，最后训练和识别鸢尾花。

编程日记2023/12/28 22:30:03

深度学习知识点全面总结

深度学习定义：一般是指通过训练多层网络结构对未知数据进行分类或回归深度学习分类：有监督学习方法——深度前馈网络、卷积神经网络、循环神经网络等；无监督学习方法——深度信念网、深度玻尔兹曼机，深度自编码器等。深度神经网络的基本思想是通过构建多层网络，对目标进行多层表示，以期通过多层的高层次特征来表示数据的抽象语义信息，获得更好的特征鲁棒性。神经网络的计算主要有两种：前向传播（foward propagation, FP）作用于每一层的输入，通过逐层计算得到输出结果；

编程日记2023/12/28 22:00:02

为什么深度学习神经网络可以学习任何东西

尽管如此，神经网络在处理一些对计算机而言极具挑战性的任务上表现出色，特别是在需要直觉和模糊逻辑的领域，如计算机视觉和自然语言处理，神经网络已经彻底改变了这些领域的面貌。在探讨神经网络如何学习的过程中，我们首先遇到了一个基本问题：如果我们不完全知道一个函数的形式，只知道它的部分输入和输出值，我们能否对这个函数进行逆向工程？重要的是，只要知道了这个函数，就可以针对任意输入x计算出对应的输出y。一种简单而有力的思考世界的方式，通过结合简单的计算，我们可以让计算机构造任何我们想要的功能，神经网络，从本质上讲，

编程日记2023/12/28 11:32:19

如何使用JuiceSSH实现手机端远程连接Linux服务器

处于内网的虚拟机如何被外网访问呢?如何手机就能访问虚拟机呢?cpolar+JuiceSSH 实现手机端远程连接Linux虚拟机(内网穿透,手机端连接Linux虚拟机)

编程日记2023/12/26 09:08:31

深度学习与神经网络

神经网络是一种模拟人脑神经元行为的计算模型，神经网络由大量的神经元（在计算领域中常被称为“节点”或“单元”）组成，并且这些神经元被分为不同的层，分别为输入层、隐藏层和输出层。每一个神经元都与前一层的所有神经元相连接，连接的强度（或权重）代表了该连接的重要性。神经元接收前一层神经元的信息（这些信息经过权重加权），然后通过激活函数（如Sigmoid、ReLU等）处理，将结果传递到下一层。输入层接收原始数据，隐藏层负责处理这些数据，而输出层则将处理后的结果输出。

编程日记2023/12/25 23:30:02

程序，进程，线程，超线程之间的联系和区别

当我们谈到计算机程序的执行时，经常会涉及到“程序”，“进程”，“线程”和“超线程”这些概念。通过理解这些概念及其之间的联系和区别，可以帮助我们更好地理解计算机程序的执行方式和并发处理机制。来源：6547网 http://www.6547.cn/blog/442。

编程日记2023/12/25 15:39:32

绝地求生电脑版的最低配置要求？

更好的方式是通过官方的渠道购买游戏账号，并遵守游戏的规则和使用协议，以保证自己的游戏体验和账号安全性。但请注意，游戏的配置要求可能随着游戏的更新而有所改变，建议您在购买或升级电脑时，参考官方的配置要求以获得最佳游戏体验。如果您的电脑配备了更高性能的处理器，游戏的运行体验将更为流畅。绝地求生是一款较为复杂的游戏，需要较大的内存来加载游戏资源并确保游戏的流畅运行。所以在安装游戏之前，确保您的电脑有足够的存储空间。这些推荐配置可以使您在绝地求生中获得更高的帧率和更好的画面表现，提供更加顺畅和逼真的游戏体验。

编程日记2023/12/25 10:14:22

labelme安装与使用教程（内附一键运行包和转格式代码）

Labelme是一个开源的图像标注工具，由麻省理工学院的计算机科学和人工智能实验室（CSAIL）开发。它主要用于创建计算机视觉和机器学习应用所需的标记数据集。LabelMe让用户可以在图片上标注对象和区域，为机器学习模型提供训练数据。它支持多种标注类型，如矩形框、多边形和线条等。它是用 Python 编写的，并使用 Qt 作为其图形界面。

编程日记2023/12/24 22:51:03

讲解mtrand.RandomState.randint low ＞= high

第一个例子生成了一个介于 0 和 10 之间（不包括 10）的随机整数，而第二个示例生成了一个形状为 (3, 2) 的二维数组，其中的元素是介于 1 和 100 之间（不包括 100）的随机整数。这样，我们就可以在实际的密码重置场景中使用 generate_reset_code() 函数来生成一个随机验证码，并将其发送给用户进行密码重置操作。这段代码的预期目标是生成一个范围为 [low, high) 的随机整数，即在 5 到 3 之间（不包括 3）生成一个整数。的问题，并生成所需范围内的随机整数。

编程日记2023/12/23 20:30:10

讲解opencv检测黑色区域

本文介绍了使用OpenCV检测黑色区域的两种方法：阈值方法和颜色范围方法。阈值方法通过将图像转换为灰度图像并应用阈值处理来检测黑色区域。颜色范围方法通过在RGB或HSV颜色空间中定义合适的颜色范围来检测黑色区域。这些方法对于图像处理、目标定位和计算机视觉任务都非常有用。当用OpenCV检测黑色区域的一个实际应用场景是汽车驾驶辅助系统中的车道检测。import cv2# 转换为灰度图像# 应用阈值处理# 查找车道线轮廓# 找出最长的轮廓（假设为车道线）# 拟合多项式曲线。

编程日记2023/12/23 20:30:10