58智能风险控制和未知风险感知 总投资收益率

股票资讯  2021-03-16 08:53:36

58同一个城市的业务涉及很多场景。随着平台业务越来越广泛,业务安全的责任和挑战也越来越大。本文将向您展示58的业务风险控制面临的挑战,以及58如何利用人工智能和大数据技术推动风险控制,并将深入技术细节,阐述发现风险控制未知风险的实践。

主要内容包括:

58风险控制业务背景智能风险控制架构设计未知风险感知总结与展望0158风险控制业务背景58同城提供信息分类服务。作为本土生活服务的入口之一,产品体系涵盖房地产、招聘、二手车、本土服务等行业。每条业务线不断垂直,从线上延伸到线下,形式复杂。

相比电商交易,信息分类场景是低频交易,比如线下买房买车,不是日常行为。账户的信用积累和平台约束对客户来说比较弱,而有些业务交易必须线下完成,平台很难获得完整的闭环数据,容易滋生黑产品。

随着专业黑产行为越来越隐蔽,防守方需要在强势对抗中占据主动,攻防双方都在不断升级。通常意义上的风险控制安全主要是指内容安全和业务安全,也就是地图表面的部分。今天的分享也集中在这两个方面,那么58平台在这方面会遇到什么风险呢?这里有两个简单的例子来说明。

①非法排水

比如一个平台上发布的租房信息,只看图片和提供的信息,内容本身没有问题。然而,当用户点击微聊与楼主交流时,他问道:“你好吗?什么时候可以看房子?”,对方可能会回复:“不经常”,然后抛出一个联系方式或者二维码,引导客户到其他渠道。这个操作很有可能是黑中介的欺诈行为,存在很大的安全隐患。

2内容违规

在第二个例子中,有五张违规的图片。因为可能涉及诈骗或者非法引流,所以大部分平台不允许图片上有联系方式。同样,规定了图片和联系方式的标准格式,但从图片中可以看出,诈骗手段正在不断从纯色背景向自然背景、从横排文字向弯斜文字逐步升级。

总体来说,面对业务复杂、黑产品隐蔽性强、安全对抗性强三大挑战,如何才能主动掌握在自己手中?

02智能风控架构要设计一个完整的风控系统,就要在风控的基础平台上智能地组织数据和识别算法。

数据的组织能力是指数据整合、再加工、数据流的效率,决定了风险识别的上限,而算法的识别能力决定了风险识别的基线。

算法的识别能力不是单一的模式。不同类型的控风场景都有相应的、有针对性的识别方法,不能一概而论。

58智能风险控制业务架构

为了更好的支持数据组织能力和算法识别能力,58设计了三层业务架构,分别是大数据的技术平台、业务支持的支撑层和公共应用层,如下图所示。

大数据平台主要为上层业务提供基础资源保障,如数据资源、模型资源、推理框架等。以上两层分为两个不同的方向:行为安全和内容安全。

行为类识别是支持全站行为应用的核心,主要包括三个中心:数据中心、诊断分析中心和知识中心。

数据中心保证了整个数据的兼容性和及时性,提供了任意时间段、任意时间窗的数据采集能力。目前每天的接入通话量在1000亿量级,响应时间在毫秒量级。

诊断分析中心为整个风控系统提供完善的数据判断能力,如线索采集,从而有效表征风控策略或用户。58是低频非闭环场景,很难客观判断定义的信息是好是坏。需要不断提高客观判断信息或用户的能力。比如在对抗黑产过程中,黑产的行为其实越来越隐蔽,需要不断优化识别能力。

知识中心是整个58的风险控制知识的沉淀,把整个58的风险控制系统看成一个生态。其参与角色包括审计、操作、数据分析、算法工程师等。它将在日常工作中产生风险控制的知识。经过系统的表示和统一的管理,可以形成多样化的知识类型。知识管道用于打开线路上不同数据流之间的调用链,保证多个数据源的兼容性。最后通过知识管理形成工作合力和知识积累,在未来突发风险中可以快速重用。

在三个中心的基础上,行为应用分为四个方面,即风险控制策略自动化、反欺诈、反欺诈和账户安全。风控自动化主要是通过建立自动感知、自动识别和自动评估能力,不断完善和构建一些常见的能力和模式,实现自动对抗。后三个主要与业务有关,不再赘述。

右边的内容安全部分主要通过算法解决图像、音视频载体的问题,分为博彩、赌博等底层安全能力,广告、吸粉等业务安全能力。

应用层没有通用的解决方案,需要具体问题具体分析。一种算法永远不能指望解决所有问题。比如根据一些业务管控力度,可以区分平战。不同的时间玩不同的游戏。比如在战时,我们需要进行一些有针对性的精确打击。

03未知风险感知1。如何感知未知风险

接下来是练习,介绍如何感知未知风险。这是一个非常重要但又容易被忽视的环节。

如上图,风险控制本身就是一个对抗的过程,“1”黑产品对平台发起攻击,发现自己被攻击;“2”平台进行数据分析研究,生成有效的拦截策略和在线策略;“3”平台开始防御攻击,直到黑产品发现攻击失败;“4”黑产品尝试了新的攻击方式,发动了攻击,这是一个循环的过程。

“1”是风险感知,“2”是风险识别。作为一个平台,总体目标是缩短“1+2”的时间,延长“3+4”的时间。但是“3+4”的长度是不受控制的,最多用一些延迟判断或者延迟处理来稍微延长“3”,但是“1+2”对于平台的可操作空间很大。大多数团队把时间放在“2”上,即发现有效的策略,而忽略了环节“1”,即风险感知。据统计,如果省略链接“1”,对有效策略的平均响应时间将延长6小时。

2.风险感知策略和识别策略的区别是什么

那么风险感知策略和识别策略有什么区别呢?下图从五个方面回答了两者的区别。

感性策略识别未召回(在线暴露的风险,机器无法识别但人可以判断,主要是因为黑产品用户的行为面或内容面发生了很大变化)和未定义(人和机器无法判断,是一种新型问题,需要业务线重新定义标准并纳入已知范畴,或者确认此类交易不需要召回),更加注重召回的覆盖面和抗噪性。无论是风险转移还是通过行为改变来改进攻击策略,都应该能够有效识别,对时效性和准确性要求不高。而风险识别策略主要解决的是不召回的问题。为了保证策略的可解释性和准确性,时效性要求很高。一个好的风险识别策略只需要回忆具体的风险。

感知策略不是机器直接处理的,而是要指导下游决策,这样才能真正识别策略的输出;但是,一个好的识别策略应该是能够回忆尽可能多的内容。如果一个策略的召回不是模型想要召回的结果,就不能说是好策略。

风险感知模块的技术架构如下图所示,分为数据层、风险召回层和风险发现层三层。

数据层负责结构化整个数据,完成外部数据的特征,将细节存储在地面,方便上层计算使用。

风险回忆层是整个未知风险感知框架的核心部分。面对不同的风险问题,它会使用不同的感知能力来挖掘,分为常规风险和突发风险。在识别之前,需要判断问题的类型。一般来说,传统的风险检测可以细分为群体风险、独立风险或可变性风险,这些风险从已知问题突变为不可召回的问题。右侧异常波动检测主要检测持续波动的风险,最后注入疑似风险池,在发现层净化。

一般在检测到不同类型的风险后,风险发现层会形成大量碎片化的风险,并通过一些算法进行关系扩展的二次计算。

3.风险回忆层的两种检测方法

常规风险检测

对于聚类和离群点检测的常规检测,58家选择了拼接网格密度和孤立森林方案。patchwork对任意分布的问题具有良好的聚集能力,能够有效滤除部分噪声,计算复杂度为线性,能够支持大规模并行计算。孤立森林也是一种线性复杂度的算法,主要用于发现未定义的问题,识别效果更好。

在处理非召回问题方面,我们使用PU学习算法进行召回,它由三个集合组成,即P集合(确认的异常数据,即正样本集合)、U集合(大量未标记集合)和RN集合(正常数据,即确认的负样本集合)。在该算法中,可疑风险,即U-RN,最终通过挑选RN集合得到。主要处理流程是从P集合中训练一些间谍样本,并将其划分为U集合。经过分类训练,我们可以找到间谍样本的最小阈值,利用这个阈值从U集合中挑出负样本,放入RN集合中。通过挑选出RN集,可疑风险就是U集-RN集,它是对未召回风险的一种识别。

异常波动检测

未知异常波动检测面临两个问题,一是如何感知波动,二是如何定位原因。例如,在某个时刻,流量瞬间爆发,超过了上限和下限。在这种情况下,会设置波动警报。算法中使用了Prophet(波动检测)+HotSpot(根本原因分析)。前者用于动态阈值调整和波动预测,后者用于根本原因分析,确定是哪个维度的指标导致了问题。

整个过程是这样的。我们已经有了一套通用的监测指标。在分析全局流量时,我们使用先知算法进行实时预测。如果在某个时间超过了阈值,我们需要向根本原因分析模块发送指令。根本原因分析模块收到指令后,会获取前几分钟的时间序列数据,包括一些交叉验证因子、期望值和实际值,输入到HotSpot,最终计算出具体的根本原因子维度

简单介绍一下这两种算法的特点以及为什么要作为技术支持。首先,脸书的先知算法已经被广泛用于监控实时预测。在实时预测中,对缺失数据和异常值有很好的适应性,无需数据标注即可预测数据。与其他连续预测算法相比,整体拟合效果也非常好。

多维根本原因分析主要面临两个挑战。第一个是如何度量和表达根本原因。热点的潜在得分可以消除传染因素,很好地衡量根本原因的独立性。二是解决空间搜索过度的问题。HOTSPOT算法有内置的蒙特卡洛树搜索和内置的分层剪枝方法,提高了搜索速度。因为它解决了多维根本原因分析的定位问题,算法的准确性和速度满足了我们对风险感知的要求。

由于这两种算法满足了异常波动检测的精度和速度要求,所以一起使用。

04总结与展望今天我们介绍了三个方面,整个58风控的背景,风控架构的设计思路,以及一次未知风险感知的实践。

首先,根据58的业务和信息安全的特点,给出了两个例子,引出了58风险控制面临的一个挑战,即业务复杂度高、行动隐蔽性强、攻防对抗。

其次,智能风控架构的理论部分强调数据分组能力和数据算法识别能力,两者同等重要。数据组织能力代表了一个风控辨识的上限,算法辨识代表了风控安全辨识能力的基线。

在风险认知中。本文介绍了为什么要做风险感知,它的重要性和总体设计思路。我讲了常规检测,波动检测,风险发现的58个做法。

最后做一个简单的展望,在用户行为预训练模型和基于强化学习的风控引擎上做一些投资,为后续的信息安全智能工作做准备。作为集团的信息安全中心,需要对数百条业务线进行风险控制管理,挑战非常大。但是不同业务场景中的作弊有一些相似的模式,因此未来会针对黑产品的运营模式构建一些通用的培训模型,并在一些新场景中重用和微调,以达到快速部署新业务场景和风险控制能力的目的。

作者:张鹏,58城市安全情报部信息安全处处长,2010年加入58城市,有多年风险控制行业经验。目前,他主要负责通过算法和大数据技术提高整个58集团的业务风险控制能力。


以上就是58智能风险控制和未知风险感知总投资收益率的全部内容了,喜欢我们网站的可以继续关注梅贵股票网其他的资讯!

相关推荐

8月10日,杭州路桥(870892)发布2017年半年报。2017年上半年,公司实现营业收入5.2亿元,比上年同期减少2.74亿...
4月30日,首都新闻,君实生物(833330.OC)发布2019年一季度报告。报告显示,君实生物2019年一季度营收7907.5...
10月18日,智华信(831802)公告,其全资子公司广州亿华科技有限公司(以下简称"广州亿华")被列入异常经营名单。广州亿华当...
7月19日,首都报讯,辅仁药业(600781)发布关于冻结控股股东股份的公告。据公告,2019年7月19日,辅仁药业收到中国证券...
新OTC在线消息3月28日,易通文教(430223)发布关于公司首次公开募股上市流程及中方股东转让股份的提示公告。公告显示,公司...
4月20日,商通科技(837839)公告,鉴于公司业务发展战略的调整,经与安信证券友好协商,双方同意终止辅导,并于2018年4月...
当人口红利开始消退时,中国服装企业终于告别了躺着赚钱的日子。那确实是一个怀旧的时代。靠着"明星代言%252B大量广告活动",女装...
11月19日,首都报讯,大华新材料(837763)11月16日发布关于公司对外担保逾期情况的风险提示公告。2016年10月,公司...
6月29日,首创获悉,同益股份(300538.SZ)发布公告称,公司拟向特定对象发行股票募集资金不超过68,239.89万元(含...

友情链接