当前位置：首页 > news >正文

【机器学习】机器学习的基本分类-监督学习-逻辑回归-Sigmoid 函数

news 2025/7/3 18:26:19

Sigmoid 函数是一种常用的激活函数，尤其在神经网络和逻辑回归中扮演重要角色。它将输入的实数映射到区间 (0, 1)，形状类似于字母 "S"。

1. 定义与公式

Sigmoid 函数的公式为：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

特点

输出范围：(0, 1)，适合用于概率预测。
单调性：是一个单调递增函数。
对称性：以 x = 0 为中心，对称于 y = 0.5。

2.Sigmoid 函数的推导过程

2-1. 目标与需求

我们希望构造一个函数 f(x) 满足以下性质：

输出范围：f(x) 的值限定在区间 (0, 1)，便于解释为概率。
平滑性：函数连续且可导，以便使用梯度下降进行优化。
单调性：函数值随着输入 x 的增大而增大。
对称性：以 x = 0 为对称中心，输入为 0 时，输出为 0.5，表示不偏不倚的概率。

2-2. 构造 Sigmoid 函数

为了满足这些性质，可以使用指数函数 $e^x$ 的形式，因为指数函数本身是平滑的、单调递增的。

构造输出范围

首先，为了限制输出范围在 (0, 1)，我们构造如下函数：

$f(x) = \frac{1}{1 + g(x)}$

其中 g(x) > 0 保证分母大于 1，因此 f(x) 始终在 (0, 1)。

选择 $g(x) = e^{-x}$ ，得到：

$f(x) = \frac{1}{1 + e^{-x}}$

性质验证

输出范围：
- 当 $x \to \infty$ ， $e^{-x} \to 0$ ， $f(x) \to 1$ ；
- 当 $x \to -\infty$ ， $e^{-x} \to \infty$ ， $f(x) \to 0$ 。
单调性：指数函数 $e^{-x}$ 单调递减，分母 $1 + e^{-x}$ 随 x 增大而变大，分数值变小，因此 f(x) 单调递增。
对称性：令 x = 0，
$f(0) = \frac{1}{1 + e^0} = \frac{1}{2}$
满足 f(0) = 0.5，以 x = 0 为中心对称。

2-3. 导数推导

公式

导数计算如下：

$f(x) = \frac{1}{1 + e^{-x}}$

对 f(x) 求导：

分母求导法则：
$\frac{\mathrm{d}}{\mathrm{d}x} \frac{1}{u} = -\frac{1}{u^2} \cdot \frac{\mathrm{d}u}{\mathrm{d}x}$
应用到 f(x)：设 $u = 1 + e^{-x}$ ，则：
$f'(x) = -\frac{1}{(1 + e^{-x})^2} \cdot (-e^{-x}) = \frac{e^{-x}}{(1 + e^{-x})^2}$
进一步化简：
$f'(x) = \frac{1}{1 + e^{-x}} \cdot \left(1 - \frac{1}{1 + e^{-x}}\right)$
记 $\sigma(x) = \frac{1}{1 + e^{-x}}$ ，得：
$f'(x) = \sigma(x) \cdot (1 - \sigma(x))$

2-4. 推导的直观解释

概率建模视角

Sigmoid 函数可以看作将线性模型的输出 $z = w^T x + b$ 转换为概率值的过程：

$P(y=1|x) = \frac{1}{1 + e^{-z}}$

当 $z \to \infty$ ，预测概率接近 1；当 $z \to -\infty$ ，预测概率接近 0。

对称性与平滑性

对称性来源于指数函数的性质：负指数 $e^{-x}$ 的曲线是正指数 $e^{x}$ 的镜像。
平滑性来源于指数函数的连续和可导性。

3. Sigmoid 的性质

导数

Sigmoid 的导数具有简洁的形式：

$\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x))$

这使得计算变得高效。

梯度消失问题

当 x 的绝对值较大时，σ(x) 的值接近 0 或 1，导数接近于 0。这会导致梯度更新过慢的问题，特别是在深层神经网络中。

4. Sigmoid 的用途

逻辑回归：
- 用于将线性回归的结果转化为二分类概率。
神经网络：
- 作为激活函数，尤其是输出层，用于预测概率值。
概率建模：
- 用于模型的概率预测或生成。

5. 缺点

梯度消失：
- 绝对值较大的输入导致梯度趋于 0，影响深层网络的训练。
非零均值：
- Sigmoid 输出的均值不为零，可能导致下一层神经元的输入分布偏移。

6. 代码实现

以下是 Sigmoid 函数的实现及其应用示例。

Sigmoid 函数

import numpy as np
import matplotlib.pyplot as plt# Sigmoid 函数
def sigmoid(x):return 1 / (1 + np.exp(-x))# Sigmoid 导数
def sigmoid_derivative(x):s = sigmoid(x)return s * (1 - s)# 绘图
x = np.linspace(-10, 10, 100)
y = sigmoid(x)
y_prime = sigmoid_derivative(x)plt.plot(x, y, label='Sigmoid Function')
plt.plot(x, y_prime, label='Sigmoid Derivative', linestyle='--')
plt.title("Sigmoid and Its Derivative")
plt.xlabel("x")
plt.ylabel("f(x)")
plt.legend()
plt.grid()
plt.show()

逻辑回归示例

# 导入必要的库
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 生成一个模拟的二分类数据集
# 这里详细说明了数据集的特性：样本数、特征数、类别数、信息特征数、冗余特征数、重复特征数和随机种子
X, y = make_classification(n_samples=100, n_features=4, n_classes=2, n_informative=2, n_redundant=1, n_repeated=0,random_state=0)# 将数据集分为训练集和测试集，测试集大小为30%，并设置了随机种子以保证结果的可重复性
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 初始化逻辑回归模型
model = LogisticRegression()
# 使用训练集数据训练模型
model.fit(X_train, y_train)# 使用训练好的模型对测试集进行预测
y_pred = model.predict(X_test)
# 打印模型的准确率
print("Accuracy:", accuracy_score(y_test, y_pred))

输出结果

Accuracy: 0.9

7. Sigmoid 的替代品

为了克服 Sigmoid 的缺点，神经网络中常用以下替代激活函数：

ReLU（Rectified Linear Unit）： f(x) = max(0, x)
Leaky ReLU： $f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$
Tanh： $f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ 输出范围为 (-1, 1)。

Sigmoid 函数虽然简单，但由于其梯度问题和计算开销，在深度学习中逐渐被其他激活函数所取代。不过，它在概率建模等领域仍然非常实用！

【机器学习】机器学习的基本分类-监督学习-逻辑回归-Sigmoid 函数

Sigmoid 函数是一种常用的激活函数，尤其在神经网络和逻辑回归中扮演重要角色。它将输入的实数映射到区间 (0, 1)，形状类似于字母 "S"。 1. 定义与公式 Sigmoid 函数的公式为： 特点输出范围：(0, 1)，适合用…...

编程日记 2024/12/1 8:23:42

EasyDarwin搭建直播推流服务

学习链接 easydarwin官网 - 这里看介绍 easydarwin软件下载地址 - 百度网盘 easydarwin视频 B站文章目录学习链接使用下载EasyDarwin压缩包，并解压到目录启动EasyDarwin点播直播easyplayer.jsapidocffmpeg推流rtsp & ffplay拉流使用下载EasyDarwin压缩包…...

编程日记 2024/12/1 8:19:38

无人机数据处理系统:原理与核心系统

一、数据处理系统的运行原理数据获取：无人机在飞行过程中，通过搭载的传感器（如相机、激光雷达等）采集到各种类型的数据，例如图像、点云等。这些数据是后续处理和分析的基础。数据传输：采集到的数据会通…...

编程日记 2024/12/1 8:18:35

DLL中的inline static成员变量：Windows开发中的常见陷阱

在Windows平台进行C开发时，DLL（动态链接库）是一个非常重要的概念。它让我们能够实现代码的模块化和动态加载，提高了程序的灵活性和维护性。然而，当我们在DLL中使用C17引入的inline static成员变量时，可能会…...

编程日记 2024/12/1 8:16:33

pandas 读写excel

在Python中，使用Pandas库读写Excel文件是一个常见的操作。Pandas提供了read_excel和to_excel方法来分别实现读取和写入Excel文件的功能。以下是一些基本的示例： ### 读取Excel文件 python import pandas as pd # 读取Excel文件 df pd.read_excel(pat…...

编程日记 2024/12/1 8:15:33

编写ThreadLocal工具类 package com.jjking.jplan.context;public class BaseContext<T> {public static final ThreadLocal threadLocal new ThreadLocal();//存储用户public static void set(Object t) {threadLocal.set(t);}//获取用户public static <T> T ge…...

编程日记 2024/12/1 8:14:31

2024 ccpc 辽宁省赛 E(构造思维？)L（二分+一点点数论知识？）

E 题意： 可以注意到： 我的两种方格都四个方格的大小。所以如果存在一种摆放方式那么 4|nm。再考虑一种特殊的情况 22 ，此时虽然我的积是4 但是无法摆放的。 1>对于 4 | n,或者 4 | m.我直接摆放第二种方格就可以了。如果我n 是4 的…...

编程日记 2024/12/1 8:11:28

【iOS】设计模式的六大原则

【iOS】设计模式的六大原则文章目录【iOS】设计模式的六大原则前言开闭原则——OCP单一职能原则——SRP里氏替换原则——LSP依赖倒置原则——DLP接口隔离原则——ISP迪米特法则——LoD小结前言笔者这段时间看了一下有关于设计模式的七大原则，下面代码示例均为OC…...

编程日记 2024/12/1 8:10:27

网络安全：攻防技术-Google Hacking的实现及应用

前言 google hacking其实并算不上什么新东西，在早几年我在一些国外站点上就看见过相关的介绍，但是由于当时并没有重视这种技术，认为最多就只是用来找找未改名的mdb或者别人留下的webshell什么的，并无太大实际用途。但是前段时间仔…...

编程日记 2024/12/1 8:08:25

输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数。-多语言

目录 C 语言实现 Python 实现 Java 实现 Js 实现 Ts 实现题目：输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数。程序分析：利用while语句,条件为输入的字符不为\n。 C 语言实现 #include <stdio.h>int mai…...

编程日记 2024/12/1 8:06:22

2-2-18-9 QNX系统架构之文件系统（三）

阅读前言本文以QNX系统官方的文档英文原版资料为参考，翻译和逐句校对后，对QNX操作系统的相关概念进行了深度整理，旨在帮助想要了解QNX的读者及开发者可以快速阅读，而不必查看晦涩难懂的英文原文，这些文章将会作为一个…...

编程日记 2024/12/1 8:02:18

各大浏览器（如Chrome、Firefox、Edge、Safari）的对比

浏览器如Chrome、Firefox、Edge等在功能、性能、隐私保护等方面各有特点。以下是对这些浏览器的详细对比，帮助你选择合适的浏览器。 1. Google Chrome 市场份额：Chrome是目前市场上最流行的浏览器，约占全球浏览器市场的65%以上。性能&#…...

编程日记 2024/12/1 7:52:08

nginx搭建直播推流服务

文章目录学习链接步骤使用nginx搭建直播推流服务安装依赖库下载nginx-http-flv-module模块下载nginx解压nginx，进入nginx目录设置nginx编译配置编译并安装配置nginx rtmp服务启动nginx 准备另外一台电脑下载OBS下载OBS windows | linux 安装vlc观看直播flv协议hls协…...

编程日记 2024/12/1 7:46:02

单片机-- 松瀚sonix学习过程

硬件：松瀚sn8f5701sg、SN-LINK 3 Adapter模拟器、sn-link转接板软件： keil-c51（v9.60）：建立工程，编辑，烧录程序 SN-Link_Driver for Keil C51_V3.00.005：安装sonix设备包和snlin…...

编程日记 2024/12/1 7:44:00

循环神经网络：从基础到应用的深度解析

🍛循环神经网络（RNN）概述循环神经网络（Recurrent Neural Network, RNN）是一种能够处理时序数据或序列数据的深度学习模型。不同于传统的前馈神经网络，RNN具有内存单元，能够捕捉序列中前后信息…...

编程日记 2024/12/1 7:42:59

从扩散模型开始的生成模型范式演变--SDE

SDE是在分数生成模型的基础上，将加噪过程扩展时连续、无限状态，使得扩散模型的正向、逆向过程通过SDE表示。在前文讲解DDPM后，本文主要讲解SDE扩散模型原理。本文内容主要来自B站Up主deep_thoughts分享视频Score Diffusion Model分数扩散模型…...

编程日记 2024/12/1 7:41:58

【python使用kazoo连ZooKeeper基础使用】

from kazoo.client import KazooClient, KazooState from kazoo.exceptions import NoNodeError,NodeExistsError,NotEmptyError import json# 创建 KazooClient 实例，连接到 ZooKeeper 服务器 zk KazooClient(hosts127.0.0.1:2181) zk.start()# 定义节点路径 path…...

编程日记 2024/12/1 7:36:54

【设计模式系列】解释器模式（十七）

一、什么是解释器模式解释器模式（Interpreter Pattern）是一种行为型设计模式，它的核心思想是分离实现与解释执行。它用于定义语言的文法规则，并解释执行语言中的表达式。这种模式通常是将每个表达式抽象成一个类，并通…...

编程日记 2024/12/1 7:35:53

只出现一次的数字

只出现一次的数字给你一个非空整数数组 nums ，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。你必须设计并实现线性时间复杂度的算法来解决此问题，且该算法只使用常量额外空间。示例 1 &#xff…...

编程日记 2024/12/1 7:32:50

SpringMVC-08-json

8. Json 8.1. 什么是Json JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式，目前使用特别广泛。采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写&#xf…...

编程日记 2024/12/1 7:31:49

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/6/21 5:31:03

day52 ResNet18 CBAM

在深度学习的旅程中，我们不断探索如何提升模型的性能。今天，我将分享我在 ResNet18 模型中插入 CBAM（Convolutional Block Attention Module）模块，并采用分阶段微调策略的实践过程。通过这个过程，我不仅提升…...

编程新知 2025/6/17 21:15:23

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求，由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面： 🏛️ 一、组织架构与职责质量体系明确组织内各部门、岗位的职责与权限，形成层级清晰的管理网络&#xf…...

编程新知 2025/6/27 1:45:53

c#开发AI模型对话

AI模型前面已经介绍了一般AI模型本地部署，直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。微软提供了ML.NET来开发和使用AI模型，但是目前国内可能使用不多，至少实践例子很少看见。开发训练模型就不介绍了&am…...

编程新知 2025/6/26 5:40:36

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

华为云FlexusDeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建前言如今大模型其性能出色，华为云 ModelArts Studio_MaaS大模型即服务平台华为云内置了大模型，能助力我们轻松驾驭 DeepSeek-V3/R1，本文中将分享如何…...

编程新知 2025/6/29 16:04:04

【JavaWeb】Docker项目部署

引言之前学习了Linux操作系统的常见命令，在Linux上安装软件，以及如何在Linux上部署一个单体项目，大多数同学都会有相同的感受，那就是麻烦。核心体现在三点： 命令太多了，记不住软件安装包名字复杂&…...

编程新知 2025/6/27 18:11:04

稳定币的深度剖析与展望

一、引言在当今数字化浪潮席卷全球的时代，加密货币作为一种新兴的金融现象，正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而，加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下，稳定…...

编程新知 2025/6/20 12:51:17

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

编程新知 2025/6/28 13:44:45

宇树科技，改名了！

提到国内具身智能和机器人领域的代表企业，那宇树科技（Unitree）必须名列其榜。最近，宇树科技的一项新变动消息在业界引发了不少关注和讨论，即： 宇树向其合作伙伴发布了一封公司名称变更函称，因…...

编程新知 2025/6/25 1:25:32

（一）单例模式

一、前言单例模式属于六大创建型模式，即在软件设计过程中，主要关注创建对象的结果，并不关心创建对象的过程及细节。创建型设计模式将类对象的实例化过程进行抽象化接口设计，从而隐藏了类对象的实例是如何被创建的，封装了软件系统使用的具体对象类型。六大创建型模式包括…...

编程新知 2025/6/16 16:54:17