激活函数选择与优化PPT

在神经网络中，激活函数的选择和优化是非常重要的。合适的激活函数可以提高网络的表达能力，优化训练过程，并提高模型的性能。下面我们将探讨一些常见的激活函数，以...

在神经网络中，激活函数的选择和优化是非常重要的。合适的激活函数可以提高网络的表达能力，优化训练过程，并提高模型的性能。下面我们将探讨一些常见的激活函数，以及它们各自的优缺点和适用场景。 Sigmoid函数Sigmoid函数是一个常用的激活函数，它可以将输入值映射到0到1之间。由于它的输出范围有限，Sigmoid函数在处理非常大的输入值时可能会导致梯度消失的问题。这通常在深度神经网络中引发了梯度消失的问题，因此限制了Sigmoid函数在这些网络中的使用。然而，Sigmoid函数在输出需要具有概率解释的场景中是有用的，例如在二元分类任务中。此外，由于Sigmoid函数的导数在其激活范围内近似于1，因此在一些早期的神经网络层次中，Sigmoid函数可以提供有效的梯度传播。 Tanh函数Tanh函数与Sigmoid函数类似，可以将输入值映射到-1到1之间。因此，Tanh函数在一定程度上避免了Sigmoid函数的梯度消失问题。在深度神经网络中，Tanh函数通常比Sigmoid函数更受欢迎，因为它提供的非线性更强，可以使网络学习更复杂的模式。然而，Tanh函数也有一些缺点。首先，它的输出范围有限，不能很好地处理极值。其次，Tanh函数的导数在饱和区（即接近-1或1的地方）非常小，这可能导致在这些区域的梯度消失问题。 ReLU函数ReLU（Rectified Linear Unit）函数是一种非常流行的激活函数，它对负输入值输出0，而对正输入值输出与输入值相同的值。由于ReLU函数的这种简单性和有效性，它常常被用作其他激活函数的基础。ReLU函数的优点包括：简单、高效、计算速度快、易于实现、没有饱和问题等。然而，ReLU函数也有一些缺点。首先，它在负数区没有导数，这可能导致一些梯度消失问题。其次，虽然ReLU函数在训练早期阶段表现良好，但在训练后期阶段可能会出现神经元“死亡”的问题，导致模型性能下降。 Leaky ReLU函数为了解决ReLU的这些问题，人们提出了Leaky ReLU函数。Leaky ReLU允许在输入为负值时有一个小的正输出，以此来缓解ReLU没有负数导数的问题。这种激活函数在处理具有大量负数的数据集时特别有用，它可以提高模型的性能和训练速度。 ELU函数指数线性单元（ELU）是另一种解决ReLU问题的激活函数。ELU函数的公式是：f(x) = alpha * (exp(x) - 1) for x < 0 和 f(x) = x for x >= 0。ELU通过引入指数部分允许更小的负值输出，从而增加了负数的导数。这可以在一定程度上缓解ReLU的问题。 SELU函数Scaled Exponential Linear Unit (SELU) 是 ELU 的变体，其公式为：f(x) = alpha * exp(x) - alpha for x < 0 和 f(x) = x for x >= 0。SELU通过缩放指数部分和负数部分的差值来解决ELU可能导致的数值问题。 Swish激活函数Swish是一种新型的激活函数，由Google的研究人员提出。Swish函数的公式是：f(x) = x * sigmoid(beta * x)，其中beta是一个可学习的参数。Swish的特点是在输入值非常大或非常小的时候都具有良好的梯度传播特性，同时保持了ReLU的优点。Swish由于其优秀的性能和效果被许多现代神经网络模型所采用。 Parametric ReLU (PReLU)PReLU是ReLU的扩展版本，其特点是引入了参数化学习。PReLU允许在正数区域进行线性操作，而在负数区域进行非线性操作。具体来说，PReLU的公式是：f(x) = alpha * x for x < 0 和 f(x) = x for x >= 0。其中alpha是一个可以学习的参数，允许模型对不同区域的权重进行学习。PReLU可以缓解ReLU可能出现的神经元“死亡”问题。 MaxoutMaxout是一种基于多个线性切片的激活函数。每个线性切片对应一个特定的权重和偏置，这样Maxout就可以在输入空间中找到最适合的线性近似。Maxout的优点是提供了模型更多的灵活性，但由于其计算复杂度较高，因此在实践中不如ReLU和Tanh等函数