机器学习--保险反欺诈风控实践--其乐融融的IT技术小站

一、保险行业关于反欺诈的痛点及常见案例

保险行业欺诈问题日益严重，据统计，欺诈渗漏率已达到20%。保险欺诈的特征主要表现为形式多样、手段专业化和主体团伙化。该行业面临的痛点包括发现难、确认难和追偿难。

发现难：随着黑产和保险欺诈形式的多元化，欺诈行为变得越来越难以发现。
确认难：在传统金融行业中，为了服务好客户，遇到风险问题时无法直接从模型端阻拦。因此，需要通过更多的画像来辅助业务人员发现欺诈或相关风险，以提高模型行为的可解释性。
追偿难：由于保险理赔需求的特殊性，许多理赔案件在理赔完成后才发现存在风险。此外，在追偿历史案件时，还需应对时效问题。

下面介绍一下保险行业中高发领域的车险和健康险的含义及其识别方法。

1、车险

车险主要是团伙类风险。车险主要包括内外部勾结、摆放现场、伪造交通事故风险，为了对抗以上风险，我们通常采用图谱方式进行防范。然而，对于低品质修复套取高品质配件、重复理赔类风险，仅靠保险公司内部数据可能还不足支援，需引入行业大数据做进一步防范。此外，倒签单、驾驶员酒驾调包、虚报盗抢类可以通过构建风险画像、评分模型进行识别。

2、健康险

健康险同样存在团伙类和侥幸个案类的风险。对于团伙类风险，例如医患勾结、冒名顶替等，我们可以通过图谱方式进行防范。对于侥幸个案类的风险，如带病投保、虚假理赔材料等，我们会用评分卡模型对理赔案件进行打分，从而识别这种风险。另外，对于过度医疗、滥用药物以及夸大损失这类不合理医疗行为的风险，我们会建立不合理医疗识别引擎，通过医学图谱结合费用预测模型进行识别。

二、保险反欺诈核心能力建设方案

针对以上风险，太平金科相应地构建了保险反欺诈的核心能力，主要包括以下三个方面：

1、欺诈识别核心引擎

我们积极探索前沿技术，如大数据、机器学习和AI算法，构建保险欺诈识别核心引擎。

2、风险评分、画像、提示

我们的关注点在于如何让引擎服务好业务人员，辅助他们发现风险，而不是完全依靠模型来阻断风险。因此，我们需要将引擎能力转化为一种评分、画像和风险提示的形式，以便业务人员能够发现风险并据此完成审案、核赔、质检等工作。

3、事中化识别与处置

为了解决事后发现风险涉及追偿难的问题，我们需要将引擎能力嵌入各个业务流程中，通过与业务全流程的融合，实现事中化发现风险、对抗风险的作用，从而实现早发现、早确认和早追偿。

三、保险反欺诈故事

下面介绍两个保险反欺诈的案例，一个是车险团伙欺诈，另一个是健康险团伙欺诈。

首先，我们来看车险欺诈案例。我们的前端识别引擎发现了三个风险：第一个是通过图谱发现胡某驾驶不同车辆多次出险；第二个是通过图像识别引擎使用以图搜图的方式，识别出胡某驾驶两辆不同车子碰撞了同样的石墩；第三个是通过评分模型根据案件已触发的条件计算得到高风险分数预警。进一步地，通过画像引擎关联该案件的标记车、驾驶员、被保人以及相关历史关联案件，呈现给理赔业务员。从画像可以看出，该理赔案件已经关联到了历史的28个案件，扩展到了17辆车，而且自然语言算法提示案件的出险人员都是姓胡。最后，我们会去调取一些外部数据，比如关联银保信的数据，同时将该团伙扩展到其他保险公司的历史案件。经以上操作发现，该团伙涉及199个案件、9家保险公司。

接下来，我们看一个健康险欺诈案例，是关于代理人联合医院资源骗取津贴费的情况。我们可以通过图谱中代理人与医院的关联情况、出险频率、出险类型(骨折类、呼吸道类、背部疾病)就可以完成风险识别和预警。

四、反欺诈核心能力平台蓝图

目前，我们正在构建反欺诈核心能力平台，整体蓝图由数据基础层、能力层、平台层和产品层构成。

1、数据基础

我们将利用整个寿、财、养客户及业务的数据、集团的数据、外部行业的大数据来构建数据基础层。

2、能力层

能力层可以分成以下三个方面的能力：

（1）数字化

我们将直接使用底层集成的数据来构建风险画像标签体系和知识图谱，或者通过隐私计算对接各种行业大数据。同时，我们还将收集用户实时数据，通过可穿戴设备和物联网设备等手段来构建我们的数字化能力；

（2）模型化

我们将对画像标签进行数据分析、大数据建模，构建各种类型的模型来应用于定价、核保、运营、理赔等业务环节，完成模型决策；

（3）智能化

我们将通过构建图像自动分类、影像数据结构化、影像件重复理赔、图像PS检测、语音情绪识别和语音声纹识别等能力来对抗欺诈风险。

3、平台层

在技术层面，我们的平台提供了四个核心模块：健康险风险识别引擎、车险风险识别引擎、财产险风险识别引擎以及保险智能风控平台。

（1）健康险风险识别引擎

主要负责赔付预测模型、理赔案件分层模型、图谱反欺诈模型、不合理医疗行为识别模型和影像件风险识别模型等任务。这些模型能够帮助我们更好地评估和管理健康险风险。

（2）车险风险识别引擎

构建了一个车险业务领域的风险评分、画像和提示的全流程体系。这个系统可以有效地评估车险欺诈风险。

（3）财产险风险识别引擎

关注相关企业风险图谱的构建，同时还开展了物联网(IoT)的风险监控和AI数字农险的一些预研工作。这些功能有助于我们更好地评估和管理财产险风险。

（4）保险智能风控平台

面向风险定价环节、智能核保环节、赔付预测、风险预警、赔中防渗漏和赔后风险图谱等多个方面。这个平台可以帮助我们更有效地管理保险风险，提高业务效率。

4、产品层面

我们为客户提供了“核保”智能助手、“物联”风险管家和“理赔”保险分等服务。这些产品旨在赋能业务，而不是仅仅通过模型来完成阻断。通过与业务公司的紧密合作，我们希望为客户提供更优质的服务，共同应对保险行业的挑战。

五、车险风险识别引擎

基于以上平台，下面详细介绍一下车险风险识别引擎的构建方法。

对于案件风险的识别，首先，我们利用大数据机器学习建模能力，建立类似银行用的评分卡模型对案件进行评分预测。通过分析报案电话、标的车和被保人的维度风险评分，我们可以实现案件的分流，提高客户服务体验。

在查勘环节，车险分产品会提供给查勘人员关于当前案件的风险提示以及收集风险信息的操作指引。查勘人员根据这些指引收集完信息后，这些信息可以用到后续的理赔环节，也可以作为风险评分模型的新证据。我们的车险风险识别引擎致力于简化服务流程和理赔流程，因此，在没有发现风险的情况下，查勘人员可以快速查勘。但一旦发现预警风险，查勘人员需针对性取证。例如，当发现被保人出现多辆标的车、驾驶员不是被保人等改变运营性质的风险时，我们会让查勘人员在线下确认标的车的使用性质，并做录音取证。当发现标的车为8年的老旧车、近期已理赔多次等重复理赔风险时，我们会把标的车的历史理赔图像发给查勘人员，并通过车险分工具展示其历史碰撞部位，让查勘人员根据风险提示去针对性拍照确认是否为旧痕。如果发现有摆放现场嫌疑风险，我们会让查勘人员着重拍一些环境照，通过以图搜图的方式检索是否有相似的环境照或碰撞物体。

对于团伙类的风险识别，我们先会构建一个关联图谱，该图谱是基于历史上的报案手机号、标的车、标的驾驶员、作业人员和修理厂等信息的。然后，在关联图谱的基础上，针对业务风险点构建关联模式完成风险挖掘。与互联网行业通过端到端的图神经网络和机器学习算法来阻拦理赔案件不同，我们更注重发现风险模式。例如，我们可以通过关联报案手机号、被保人、驶人员、三者人员以及修理厂等信息，进行后续针对性质检。

以报案手机号关联模式为例，我们通过关联历史风险案件并应用以图搜图、以脸搜脸的技术来发现风险。然而，如果我们在海量案件数据中直接使用以图搜图技术，可能会导致误报率较高。为了解决这个问题，我们引入了图谱的关联模式。通过将关联手机号划分区域并缩小范围，我们可以降低误报率，提高召回率。

在AI算法应用方面，我们使用度量学习方来完成人脸识别和图像识别。针对我们自己的保险场景、查勘图片及影像的特点，通过环境比对和特征抽取来提高效率。例如，对于相同环境中可能存在不同车辆的情况，我们通常采用语义分割技术对车辆进行马赛克或填充，然后再抽取环境的特征。对于石墩、电线杆、树桩等交通路障，我们会针对性地进行目标检测，并使用特征抽取算法提取相应的特征。最后，我们将抽取的特征存储到向量库中进行检索。

通过将以图搜索功能赋能给查勘人员，他们可以核查当前理赔案件是否有历史上的相似案件。这种方法不仅提高了工作效率，还有助于减少误判和欺诈行为的发生。

为了进一步提高车险识别的准确性，我们还引入了外部大数据，如银保信和车联网的数据。此外，我们设计了一套评分机制，用于将外部大数据纳入我们的画像指标中，以便进行风险预警。最后，我们通过雷达图的方式展示分数及其作为风险提示的解读。这种方式使得我们能够更直观地了解各项指标的得分情况，并快速识别潜在的风险。

六、健康险反欺诈引擎

基于我们的平台，下面介绍一下健康反欺诈的构建方式。

为了提高健康险反欺诈的准确性，首先，我们从客户维度、保单机构维度、本案与过往维度、疾病维度和代理人维度构建了一个健康险反欺诈的画像指标，健康险个案类反欺诈评分模型更侧重于风险标签的挖掘与构建。事实上，保险领域欺诈案件的标签很少，更多的是拒付类标签。因此，我们根据历史拒付情况和风险标签画像体系通过机器学习获取评分卡模型。

相比于以前只根据医学背景知识判断反欺诈风险，我们引入了大数据技术和大数据维度。通过学习拒付案例，让模型可以学到客群维度、销售人员维度指标对拒赔的影响，将风险标签呈现给作业人员。同时，我们将入参因子应用到运营环节去管理客户和监控销售人员。

我们通过构建画像标签做评分卡模型的目的不是去找欺诈，而是辅助业务人员发现欺诈。我们不光是做核赔核保的风险识别，还希望风险识别的评分项可以作为运营指标辅助业务进行管理和监控。

在构建完图谱后，我们会去围绕手机号、医院代理人、疾病类型、收款账号去发现风险集或风险模式。

与端到端发现风险模式不同的是，我们是通过模型算法发现某种风险模式后，将其固定化为规则再应用到线上。我们的目标是发现更多的风险模式，而不是通过图算法直接端到端地预警案件的风险。这是因为保险金融服务行业要求风险的可解释，我们不能仅根据风险直接阻断案件，而是要提供有理有据的风险提示给相关作业人员。

我们对复杂的图谱关系简单抽象化后，可以将健康反欺诈模式简单归类为疾病类和事件类。在疾病类中，节点主要包括业务员、被保人、疾病和医院。就诊行为雷同模式的维度包括同时住院和出院；伪造单据模式的维度包括费用相似和挂床模式的维度包括住院时间的不合理；过度医疗模式的维度包括费用的不合理。

另外，对于时效性事件类，我们可以通过图谱关联方式去发现短期出险风险和高频出险风险。

在健康险领域，我们也尝试做了AI算法的应用，除了以图搜图发现重复理赔的应用场景外，我们还引用了OCR技术识别篡改风险，如票据大小写不一致、票据模板不一致等。

此外，我们还探索了影像造假PS检测技术。在这个场景中，我们不追求召回率很高，而是希望查准率很高，提升预警案件的调查成功率，来降低调查成本。由于保险行业的票据大多数过度压缩，通过AI算法的手段去发现篡改区域是我们目前要突破的一个难点。

七、与业务流程深度融合的事中化风险管理机制

尽管以上所述主要涉及的是技术手段，但我们的实际工作更着重于将这些技术手段嵌入到业务环境中。

以车险为例，在续保时，我们会根据历史客户建立的风险指标体系对客户进行评分，并提供风险提示。出险时，我们通过情绪识别来判断对方是否酒驾。在电话报案时，根据声纹识别来判断对方是否为修理厂人员或黑名单员。在查勘时，我们会使用评分模型。在定损时，我们通过环境照识别、PS检测和以图搜图等手段进行相关风险预警。最后，我们通过知识图谱的方式进行事后质检。

总之，我们是面向服务类的，通过风险产品的风险评分和画像提示来辅助作业人员识别风险，而不是完全提供技术手段直接阻断风险。我们希望我们的能力体现在我们的产品中，让业务人员通过我们的产品发现更多维度的画像，并基于这些画像辅助他们在现场发现风险。