初来咋到
- 积分
- 0
- 比特币
- 1286
- 威望
- 0
- 注册时间
- 2019-2-13
|
信贷场景为什么要做反团伙欺诈,针对个人维度的风控不够吗?我们已经有各种身份验证方式、反欺诈策略和模型了,哪里还有什么坏人?!尽管有道理,但一般的风控都是针对个体,一些有组织有纪律有预谋的团伙欺诈,往往会绕开一般的风控策略,来集体骗贷。怎么防范呢?当前的主流方法之一就是构建关联网络和团簇挖掘。那具体怎么做,来看一看融慧金科的智能风控。$ l/ x# L9 |. @# c% T
) x+ e4 a3 Q( q. f. C
第一步:构建关联网络
' I: _& R; t- o) N, ?+ ?, ^: V* X6 j/ M: e8 @* M
问:为什么要构建关联网络?
/ u$ y/ X5 \. c- n# H
0 Z1 E4 o$ e j! ^9 F, |: p 答:为了发现贷款用户的关联关系。; N( g0 b6 |- k0 c8 I/ V* E! _
5 [; b- t2 v6 c( F( x! R( m# q$ N 第一阶段:设计节点以及关系
% I# b! x" O- s8 h! T0 T . J$ P/ p5 Q# C' F2 m2 d; E
& v* C ^6 I7 D9 `" }1 t8 v" N
第二阶段:模糊匹配
! m! T, Z% n" R) q( C, ]1 D
+ x$ [! P# Q9 X: v# q8 ^ 问:怎么能够找出节点之间潜在的关系呢?* M9 `) l# w1 M! }4 e$ s
/ z1 ]7 U% y+ `+ z6 A 答:用户在贷款平台的申请信息中,有许多文本信息,这些文本信息可能字面不一样,但内容是相同的,这个时候在关联网络中,需要进行模糊匹配,发现其中共享的节点。4 S" U/ h( m2 u, _
6 g; \' \3 Y0 j' P% w
如果按照下图前半部分进行分析,两个人公司名称不一样,并无关联。然而在这种情况下,“萌萌公司”和“萌萌有限公司”很可能是同一家公司,只是用户在填写时没有写清楚,这个时候我们需要进行模糊匹配,再进行关联,便能找出关系。
% z; l( q! g5 L( Y) C
' M' d! k) i+ w8 n$ o/ e7 p( X 一般我们常用三种方式结合进行模糊匹配:
2 A. T" n7 [" C* I* w! @/ `# n( V4 |8 m
①基于规则补全信息,如在公司名称信息中,补全“有限公司”等场景特有字眼;
7 h$ N6 k8 c/ b. T0 y8 u
0 D/ d( e1 g& ^, [+ @ ② 计算文本相似度,方法有很多,比较有效和快速的如 minhash法和 simhash法;
% V* y* T0 f1 v( z6 [7 Q
* a1 i- M! u/ S4 L K ③ 基于语料库,如公司名称库,地址库等。 E/ v2 L1 \+ C+ Y- P- U% }) B$ F" r
, l0 f0 _6 d6 s" I
9 f* V9 l+ U) |$ h* ~( v3 w! b& q 第三阶段:补全隐藏关系
' \! z3 E1 D7 K. p: g! a& {& M: T2 i) z+ K
模糊匹配后,只是将用户所填信息进行充分挖掘,然而贷款平台上的用户申请信息虽然没有关联关系,但可能他们在现实生活中存在联系。
$ L* A1 e6 L& o, y8 w! N; H# O, z0 M" D( B1 _! {
示例:8 m D- H/ B) D3 X! ~
6 G, a* D( e8 D$ i D' U' w 如果是团伙过来平台欺诈,申请信息不会露出可疑点。当我们找到他们实际有所关联,关联网络就能展示出两人的关系,我们就至少能推测出他们是相互认识的。
! l5 ?9 [( r4 H* |/ \! q $ [- g3 t; K1 h$ Y
. Z) b( Y. Y) b0 j# N4 f; X: F. R, @3 r
但有的时候,捕捉的数据可能被恶意篡改,如刷机等行为,融慧金科依靠海量数据源,精准定位到用户的各种画像数据,帮助合作准确构造关联网络,感兴趣的读者可以官网找融慧君。/ g: K1 G% L+ E4 q. ^
% d8 R% {5 v( Z+ r" J; c4 h 第二步:团簇挖掘和分析
: }: {3 }( |% n/ Z ~6 W" I
7 R0 N1 a7 }6 c' N; u 构建好关联网络后,下一步需要缩小关联网络中的团簇范围,然后再分析挖掘这些团簇。
0 E0 R8 h& K. o9 {; h; a
5 K: S5 D! x m: {' { 第一阶段:团簇发现
+ m( X/ G/ ~' e! G2 {" Z' D' U0 }* ?1 d
问:为什么我们要做“团簇发现”呢? 4 i- R# C) E9 T
* m& P6 a8 n8 j) R3 @! @' S) p 答:团簇过大,会导致节点间原本并不直接相关,却被误杀错判的情况,所以要缩小范围。
3 ?% f3 ]# \& u$ \+ a3 q8 g, Q0 `, U 例如融慧金科认识在看文章的你,那融慧金科和融慧金科的朋友以及你和你的朋友都有关联关系。但融慧金科的朋友和你的朋友并不认识,所以要将这个大团簇进行分割,剩下你和你的朋友是一个团簇,以及融慧金科和融慧金科的朋友是一个团簇。2 `% A( p6 x7 I. d
$ X" }$ R' L# I
( @* K. C# }3 y 问:那有什么方法做团簇发现啊?
: R9 f! ]7 _3 }5 e5 [
0 N6 m) I7 G- H% D) t+ L& G1 W 答:工业上还是有很多方法的,下面就给大家介绍其中一个经典方法。' ^1 c1 [- F) s( ?0 o* i M5 R
; I: _1 r% s5 |
融慧金科在这里介绍社群发现中比较常见的Louvain算法:
$ \5 ^* T; V/ _1 z6 I9 E + d+ z. y4 ^- A1 C8 ^
6 T+ P! l [" t b$ E' f 当挖掘出可疑或关联性比较强的团簇之后,我们就可以进行分析挖掘。
5 r7 k) d J) X5 o, d4 e8 q( q) K* j2 \7 F2 @
分析挖掘是一门深奥的学问。在一个团簇中,有可能有多种情况:
, ]: J5 d# I. z5 l T9 I5 g
% y% _, y+ s+ d0 D. j2 C7 w6 l) T+ w! e7 u A.整个团簇都是欺诈用户(如黑产)0 _2 ?$ V5 H8 r% V+ n. c3 e2 H
/ `/ J# i- R$ `$ v- ]0 w9 N7 k% V
B.部分是欺诈用户(如黑中介)2 |+ N; S+ y3 Y8 d+ c
2 D, y/ d& x7 `4 P7 r% g6 q C.整个团簇未发现欺诈用户& Q; Y; ~. B6 d+ S
- ~3 @( D8 U+ g# }. j( K3 h
接下来,就是要针对这几种情况采取不同方法。
* _' w, L. M: L) A
/ ]9 V! m) L% i% F) i" M 第二阶段:团簇风险识别! s H+ P1 u, a6 D; ]
3 n3 W5 w, P& e
对于上述的情况A,关联网络中的一些团簇可以利用规则策略识别欺诈风险,这些规则策略因平台而异,下面将列举几个在关联网络中常见的规则策略。
9 o" a# @: M4 ~% O" u) r& P0 i6 p
不一致性检验! L4 z) b# `- e
: ^8 b5 `6 t/ V7 C9 [/ M/ E 在团簇中,如果用户的信息与我们的正常理解有严重偏差,那么这种团簇很可疑;
( O7 `: l2 L/ i6 ~: X! w+ w. z7 X1 `
示例:
3 i0 p" ~, j; G; ?3 }7 g h; t / h2 T, g5 o" [) p
$ t2 D5 {5 }9 [8 M 如上图,两个用户在平台填的节点为蓝色,从融慧大数据中挖掘出的节点为灰色,根据上图,我们可以发现两个用户共享一个家庭wifi,但是填写的家庭地址却相距很远,所以这样的团簇很可疑。( u5 A, s- V: U" A9 N8 @: k
- b- k7 n, h1 ^2 _. K6 x) y
团簇黑节点过多且团簇紧凑( s, W( |' t* j" e" V; B
5 J' N9 A: S4 Z0 E 在一个封闭团簇中,如果黑节点占比过高,且满足模块度要求,则为可疑团簇。! c1 u G: z7 g1 H5 B* S& L
示例:
* d! B0 h% H% x$ g, T$ Z
2 \" E' G& Y/ G+ } l t" \2 N/ y& ?; }2 x, i
如图,红色为黑用户,蓝色为未知用户,此团簇的黑用户占比达66.7%,高于阈值,且满足“模块度”要求,视为可疑团簇。
+ b4 F: ^* _$ M0 [) X5 f" ~0 M
. G* m+ C$ @1 n. N# V( L 但如何能够知道黑用户或者风险标签呢?机构可以通过外部数据源进行补充:融慧金科智能风控反欺诈风险名单不仅能够识别潜在欺诈风险,还能提供风险标签,为团伙挖掘提供数据支撑。
2 `8 R+ B- h3 T0 u( k/ Q" ]5 U( s( R& m4 o& G; D8 }' E# l5 T& V
第三阶段:节点挖掘9 _' ^; x6 R, L
# T( l+ C( y S5 @4 Y1 H8 g3 X% S6 C
5 l# v" @: F/ u0 w9 J# [, T; j 针对此前提到的情况B(团簇中部分是欺诈用户),我们需要再分析节点在团簇的地位,一般在“无标签”或“有标签”两种模式下,可视为可疑用户或者直接拉黑:0 B& Q/ R6 H- h2 @/ _5 k
( Y# ]1 _+ V! _" I2 M% S ① 在无标签的情况下找到满足某些规则策略的节点;
6 J) E& u) R$ D
0 A; x' b% t, X$ n ② 基于已有的标签信息,与已有标签节点邻近或者结构相似的节点。
3 H% B! A+ |8 T$ {# T$ A
N2 h+ n+ y0 W" ^+ r 下面列举这两种情况下用到的一些方法:8 _- z" A: ]" [) {
) _6 p- Z2 H* w) l
①无标签下找出可疑节点:团簇中所有节点都无标签,根据结构找出可疑节点。
- ` |7 ?: m, ^
4 n4 t- @4 Z( w0 n4 U( o- N8 y9 a" r# M) ?
②在有标签的情况下,找出相似节点:如果团簇中部分有标签,分析团簇中其他无标签的节点与其是否相似。
. _4 z/ j: f" E- {5 k* Z# E# k$ ~. B 0 {- b2 A Z! a/ m/ }
! o$ e, B8 n( D3 ]! h* b
(融慧金科智能风控小提醒:如果不能拉黑团簇或者找到黑节点,那目前这个团簇暂时都可认为是好人,属于此前讨论的情况C,就不做过多叙述) F! E. y8 w( G; b: n
1 ~% ^ k" P7 |8 E7 _! b1 U3 \
第四阶段:特征构建3 ?. l+ c& v& |3 u1 v
/ ]$ p+ J# [. g8 o" I8 `- N; n
问:除了拉黑,关联网络还能有什么贡献呢?
/ ]. A6 i; L7 [6 {$ ]0 t/ a6 ^# S
2 T# { v& W q6 f+ K0 f/ E/ w. } 答:关联网络除了自身的分析挖掘,也可以从关联网络提炼网络结构特征或者根据网络结构更新原有特征。
7 I* v6 d( N, f- |( _
# x! R- B- Q7 p" R6 c r, {6 t* v5 s# c- J8 p
在关联网络中提取的特征或更新的特征可用于有监督模型,提高模型效果。
# T5 S, [ C" I2 C( s' ? Y9 s' A+ J# q+ u, @
第三步:动态分析" E8 ~- k4 k: {, \5 H
. d7 t! Z* w7 p 问:前面不是都解决了吗,怎么还要动态分析?
^* y) S( Y3 N3 a! j z1 M. z. J1 F3 ^4 t; V' k; E# s. d8 m
答:此前我们讨论的情况都是基于静态网络,但实际业务中,一个团伙往往不是在同一时间段申请贷款的,网络动态分析是为了在团簇小规模的时候发现欺诈团伙的苗头,将其拉黑。
* f _/ t* A8 n$ l5 `. n8 m
- i0 ?& ~7 @ _6 ?# u- M 我们在对于一个团簇,可以回溯不同节点时的最大度中心性和团簇规模的关系,得到下图:
g5 [% F, P) P0 L
. E) ^1 R8 `# _3 z
2 K, L* k% o* u+ V6 U 我们可以看到,在最大度中心性从4开始就增长迅速。
. {# v. o* h8 p1 H 另一方面,在业务上欺诈团伙往往会在短时间内申请贷款,把团簇规模按照时间顺序进行分析,可以得到下图的示例:6 d& g, y( G* W: @5 \) H
; G2 J6 ^7 r; g- |; D" Y
2 f$ H+ O; |- ^ 根据上图可知,从第一个节点申请的第三天起,团簇节点数开始快速增加。' l. u6 h% K6 j
7 Y& h4 V+ z/ @$ ^8 G9 d8 q; U
所以根据上述的两个曲线,我们可以拟定类似的策略:在团簇进入平台的3天内,如果最大度中心性大于4,则冻结中心节点的额度或者拉黑。! F; N8 k7 |5 U) e9 l3 g
4 H- A3 L; q% ?; E! U' ]
实际的阈值和观测指标都可以根据机构的实际情况而定,上图只是一个示例,仅供参考。
6 _6 \# p6 B- X
: |' d d1 S/ |% k4 I' g" F 总结# s U7 y1 i5 R0 J( ?6 [8 k
- p5 }. x2 D& W' A9 j
千言万语可以凝聚成这张图:% ~) ?9 k- C% ^/ e8 Q' C, U
; S, h0 {3 z- ]+ X1 V. q# I x: G( P" ]& l8 G% C8 R) N' t6 ]
然而在实际业务中,并不像上面那么简单,技术、数据、经验缺一不可。
% ^2 ^ J- F: p2 C
! a$ e. w3 j5 ]# p
; v( M9 ^; o- D4 R 根据自身多场景数据源及独特的技术,融慧金科智能风控的实时团伙分产品可以及时捕捉黑团伙和及时止损。% X+ S6 e) i, @& c4 B3 p3 p
' C: e$ n9 F% G2 f
, ] Z3 o- D) ?/ W% t) S8 B& { 与常规的指标相比(左图),融慧金科智能风控实时团伙分(右图)能更早更准确地拦截团伙,挽回损失。5 P$ S d# {, ~, h$ H
5 Z @5 O5 Q# f2 s8 l2 J+ Z8 B8 A N1 @
基于12亿+月活的设备数据及关联网络,融慧金科智能风控打造出的团伙分帮助合作伙伴在数据不充分,甚至团伙未成型之前可以有效拦截团伙欺诈。感兴趣的读者可官网咨询。 |
|