当前位置：首页 > news >正文

机器学习 -逻辑回归的似然函数

news 2026/2/9 0:19:05

公式如下：

$L(\theta) = \prod_{i=1}^m P(y_i | x_i; \theta) = \prod_{i=1}^m (h_\theta(x_i))^{y_i} (1 - h_\theta(x_i))^{1 - y_i}$

$L(\theta)$ ：似然函数，表示给定参数 $\theta$ 的情况下，观测到数据的概率。
$\prod_{i=1}^m$ ：累乘符号，表示从 $i = 1$ 到 $i = m$ 的所有项的乘积。
$P(y_i | x_i; \theta)$ ：在给定输入 $x_i$ 和参数 $\theta$ 的情况下，输出 $y_i$ 的概率。
$h_\theta(x_i)$ ：逻辑回归模型的预测函数，给定输入 $x_i$ 和参数 $\theta$ 的情况下，预测输出 $y_i = 1$ 的概率。通常表示为：

$h_\theta(x_i) = \frac{1}{1 + e^{-\theta^T x_i}}$
$y_i$ ：第 $i$ 个样本的实际标签，取值为0或1。
$1 - y_i$ ：第 $i$ 个样本实际标签的补集。

似然函数：
- $L(\theta)$ 是给定参数 $\theta$ 的情况下，所有观测数据的联合概率。对于逻辑回归，假设每个样本的概率是独立的，我们可以将每个样本的条件概率相乘。
条件概率：
- $P(y_i | x_i; \theta)$ 表示在给定输入 $x_i$ 和参数 $\theta$ 的情况下，观测到标签 $y_i$ 的概率。
- 如果 $y_i = 1$ ，则 $P(y_i = 1 | x_i; \theta) = h_\theta(x_i)$ 。
- 如果 $y_i = 0$ ，则 $P(y_i = 0 | x_i; \theta) = 1 - h_\theta(x_i)$ 。
联合概率：
- 对于所有样本，我们计算每个样本的条件概率的乘积，得到联合概率。这通过累乘符号 $\prod$ 表示。
对数似然：
- 在实际计算中，通常会取对数来简化计算。取对数之后，乘积会变成和，对数似然函数为：
  
  $\log L(\theta) = \sum_{i=1}^m [y_i \log(h_\theta(x_i)) + (1 - y_i) \log(1 - h_\theta(x_i))]$

我们有如下的似然函数（Likelihood function）：

$L(\theta) = \prod_{i=1}^m P(y_i | x_i; \theta) = \prod_{i=1}^m (h_\theta(x_i))^{y_i} (1 - h_\theta(x_i))^{1 - y_i}$

我们需要将其转换成对数似然函数（Log-Likelihood function）。

由于对数具有将乘积转化为和的性质，即 $\log(a \cdot b) = \log(a) + \log(b)$ ，我们对似然函数取对数：

$\log L(\theta) = \log \left( \prod_{i=1}^m (h_\theta(x_i))^{y_i} (1 - h_\theta(x_i))^{1 - y_i} \right)$

将累乘号 $\prod$ 转换为累加号 $\sum$ ：

$\log L(\theta) = \sum_{i=1}^m \log \left( (h_\theta(x_i))^{y_i} (1 - h_\theta(x_i))^{1 - y_i} \right)$

对数的另一个性质是 $\log(a^b) = b \cdot \log(a)$ ，我们将其应用于每一项：

$\log L(\theta) = \sum_{i=1}^m \left[ y_i \log(h_\theta(x_i)) + (1 - y_i) \log(1 - h_\theta(x_i)) \right]$

上面的公式就是对数似然函数：

$l(\theta) = \log L(\theta) = \sum_{i=1}^m \left[ y_i \log(h_\theta(x_i)) + (1 - y_i) \log(1 - h_\theta(x_i)) \right]$

将似然函数转换为对数似然函数的过程利用了对数的基本性质：对数将乘法转换为加法，并将指数转换为乘法。这种转换简化了复杂的乘积运算，使得梯度计算和优化问题变得更容易处理。对数似然函数在机器学习算法中尤为常用，尤其是逻辑回归中，用于最大化似然估计（MLE）。

该公式描述了逻辑回归的似然函数，表示在给定参数 $\theta$ 的情况下，观测到数据集的概率。理解这些符号和公式的含义是逻辑回归的重要基础，进一步的优化和参数估计都是基于这个似然函数进行的。通过最大化似然函数或最小化负对数似然函数，我们可以找到最优的参数 $\theta$ 。