用于欺诈检测的机器学习算法

欺诈者一直存在，试图阻止他们的反欺诈者也是如此。不过，两者采用的方法会随着时间而改变。随着人工智能在过去十年中占据中心位置，使用机器学习进行欺诈检测已在许多行业中流行起来。

在本文中，我们将探讨如何使用机器学习进行欺诈检测、一些最常用的算法和实践，以便您充分利用这种强大的技术。需要注意的是，虽然我们在这篇文章中主要提到了财务欺诈的例子，但这些概念也适用于更广泛的领域。

使用机器学习相对于传统方法的好处

在深入研究如何使用它来检测欺诈之前，让我们先简要定义一下机器学习是什么。机器学习是人工智

能的一种应用，它使系统能够从经验中学习和改进，而无需明确编程。

欺诈检测有两种方法。最常见的是基于规则的方法，而最有效的是使用机器学习。基于规则的检测已经存在了一段时间并且仍然被广泛使用，但它对不断变化的欺诈环境的反应较小。此外，使用规则意味着你必须撒大网，这通常会导致许多诚实的交易被标记为欺诈。例如，风险分析师可以根据位置创建规则并阻止源自假定有风险的位置的交易。

机器学习改进了规则。正如其定义中所述，通过机器学习，系统可以从以前的经验（数据）中学习，这正是您与欺诈者打交道时所需要的。这绝不意味着规则没有用或已经过时。事实上，结合使用这两种方法可以让你在与欺诈者战斗时获得最佳机会。

使用机器学习进行欺诈检测

在使用机器学习检测欺诈时，通常有两种方法可以解决。第一个是异常检测，它从无监督学习的角度解决问题。另一种是分类，这是一种有监督的学习方法。

异常检测

一般来说，异常检测，也称为聚类，是一种用于识别异常行为的机器学习技术。表明异常行为的遥远数据点被称为点异常。在检测金融欺诈时，重要的是要了解大多数金融交易（超过 99%）不是欺诈性的。因此，欺诈者实际进行的交易中只有一小部分是点异常。这些是您的系统需要标记的事务。

分类

在机器学习中使用分类来检测欺诈从不同的角度解决问题。在这里，您训练一个模型来学习好交易和坏交易的特征，以便对进来的新交易进行分类。重要的是要注意，这意味着您需要有足够的过去标记好的和坏交易的数据这样系统才能知道交易是否具有欺诈性。

机器学习欺诈检测算法

您可以使用多种算法进行欺诈检测。但是，没有最好的欺诈检测机器学习算法，因为使用哪一种取决于您手头的数据。下面是一些比较流行的算法，但这绝不是一个详尽的列表。

逻辑回归

逻辑回归是最基本但功能最强大的算法，可用于预测真假（二进制）值。它通过将数据拟合到逻辑函数来从一组自变量中估计离散值（通常是欺诈/无欺诈等二进制值）。

决策树

决策树是另一种流行的算法，它学习规则来分割或分类数据。使决策树特别有趣的是，该模型是一组易于解释的规则。为了使事情变得更好，您可以采用这些规则并创建基于规则的系统。但是，该模型绝不是基于规则的系统，因为基础数据的微小变化可能会导致一组完全不同的规则。

随机森林

随机森林是一种基于多个决策树的算法，可提供更准确的分类。它通过平均单个决策树的结果来做到这一点，因此它的预测能力是优越的。随机森林适用于具有大量输入变量的非常大的训练数据集。

另一方面，随机森林比决策树更难解释。您最终会得到许多规则，而不是一套规则。这可能会造成问题，尤其是当需要对系统合规性或其他监管要求进行解释时。

K-近邻算法 (KNN)

这是一个简单的算法，它存储所有可用案例，并通过对其 k 个最佳邻居进行多数投票来对任何新案例进行分类。为此，它使用了像欧几里得距离这样的距离函数。训练过程并不完全生成模型。相反，“训练”和“分类”是即时发生的。

这使得 KNN 算法在欺诈检测方面比其他机器学习算法的计算密集度更高。

K-均值

这是一种解决聚类问题的无监督学习算法（不同于 KNN）。该算法通过将给定的数据集分组到多个集群中来工作，以使集群中的数据点尽可能相似。与 KNN 类似，它利用了距离函数。

在欺诈检测中使用机器学习的挑战

标签不平衡

在现实世界的欺诈检测中，几乎可以肯定您将不得不处理不平衡的数据集。这是非常简单的原因，即欺诈条目仅占少数。如果您正在应用有监督的机器学习，这是一个问题，因为算法最适合平衡数据。一种常见的解决方案是使用上采样等技术来增加少数欺诈样本或使用下采样来减少大多数合法样本。

非平稳数据

与欺诈者打交道时，这确实是一场猫捉老鼠的游戏。他们的行为会迅速发生变化，这也会导致数据发生变化。这意味着不断训练新模型很重要。一种有效的方法是建立一个模型再训练过程，以更快地适应并更好地捕捉欺诈行为。

结论

在本文我们向您展示了使用机器学习检测欺诈的基础知识。我们首先将欺诈检测视为一个机器学习问题，研究了一些流行的算法，最后讨论了要考虑的关键挑战。

联系我们

全天高效服务

Demo申请