中科院院士鄂维南:大数据背景下的风控 - 科技动态

当前位置: 首页 > 科技动态 > 正文

中科院院士鄂维南:大数据背景下的风控

科技动态来源：《中国征信》杂志标签：院士鄂维南大数据背风控 2018-02-20 10:45:31

征信机构的信息永远是放贷机构风控的一个重要信息和工具的来源。其实，目前使用大数据模型中，我认为很多变量是用来验证信息的真伪的，但是，预测违约率还是用传统的信贷信息一些核心变量，目前来看，预测未来履约的信息范围和方法论并没有真正扩大和突破

来源：《中国征信》2015年第8期

访谈：鄂维南，中国科学院院士、北京大学元培学院院长、普林斯顿大学数学系教授

大数据和大数据技

王晓蕾（以下简称“蕾”）：很高兴鄂院士在百忙中接受我们的采访。根据我的初步理解，目前大数据在金融中的运用，主要是通过大数据做风险控制，建立风险模型预测还款可能性，从而决定授信额度和定价。您怎样看待大数据在风险管理中的应用？

鄂维南（以下简称“鄂”）：要讲清楚这个问题，我们首先要区别一些概念，首先是大数据和大数据技术，前者是指的数据及可用于风险管理的数据问题，后者是指一些诸如机器学习、神经网络、支持向量机（SVM）等大数据算法。

从数据源的角度，我认为，与个人有关的信息从外到里可以分为三层：第一圈是关于个人的所有信息，第二圈是关于个人的所有履约信息，第三圈是信贷履约的信息。在之前传统的风控中，我们一般利用最里圈的信贷履约信息，加上部分个人基本信息等来预测信贷违（履）约情况。随着互联网和信息技术的发展，部分方便可得的外圈信息，对于内圈的履约预测慢慢地被证明有一定的效果，例如打车的履约情况对信贷履约的判断是一个依据，因此大数据风控随之逐渐兴起。但对于不同圈别数据的跨圈使用，特别是外圈数据往内圈使用的过程中，要特别解决法理约束和本人授权两个问题，这样有利于各种数据在风险评估领域中的可持续使用。

王：您这样说非常清楚。目前，部分放贷机构对替代性数据（Alternative Data）的使用，我的理解就是对非现金化的债务履约信息的使用。当消费者缺乏信贷债务及其履约信息时，可以利用这些水电煤等先消费后付款的信息，通过考察消费者的重复履约意愿和能力来进行信贷风险管理。我们熟知的美国泽斯塔（ZestFinance）金融公司，所使用的“替代性”数据主要包括水电燃气费等先消费后付款消费信息，当然，信息主体本人授权是一个基本原则。

鄂：以上说的是大数据问题，再从大数据技术角度来看，任何大数据方法用于信用风险的评估，要满足三个条件：一是明确的，对评分建模的方法论、过程和数据使用上是明确的，对监管、对公众是应该公开的：二是准确的，建立的模型要对不同风险状况的人群有区分能力和排序能力；三是稳定的，数据、方法和模型在人群、时间跨度上是稳定的。从传统的逻辑回归，到决策树，再到机器学习等大数据方法的使用，要始终坚持开发出来的模型“明确、准确和稳定”的三大特点。

王：据我了解，有些利用大数据中的机器学习技术开发的模型是明确的，有些是不明确的。

鄂：是的。总体而言，对于大数据和大数据技术，目前，在风险控制中，可以是在遵守一定规则上开放性使用，但是对于征信领域，在数据的来源上建议适当保守些，这主要是征信对评分开发模型的明确性要求更高。但是尽管如此，在数据的处理方法上，都可以进行不同的尝试和探索，因为大数据技术的发展，就是将可以使用的信息，包括传统的信息和现实生活中映射到互联网的各种信息极大的简化为一个分数，供放贷机构高效、便捷的使用。

风控与征信之异同

王：按照您刚才说的，我理解是，一些热门的大数据技术可以做风控、但不能做征信，为什么这么说呢？

鄂：要理解这个观点，得先从风控和征信的本质特征出发来看。我们知道风控是放贷机构自己的事情，而征信则是第三方机构的信息服务，后者是为前者的风控服务的，对于信息的使用及其借款人对信息的知情权等方面，两者是有根本性的区别的。所以我刚才讲了，大数据技术开发的评分模型可以满足准确、稳定的要求，但是在明确、可解释性方面，尚待市场的检验。

放贷机构为了风控，可以竭尽所能地收集各类或真实的信息或待证实的噪音，且对借款人作的放贷决策也是完全基于自己的商业目的考虑。但是，征信机构对信息的收集、加工和对外提供，则是完全按照市场和放贷机构认可、信息主体知情的方式进行，征信机构向放贷机构提供的所有针对借款人个人的信息，如基础性的信用报告，是基于基本客观事实的汇总，经得起借款人本人质疑、挑战的，信用报告的内容、流程、流转过程和使用判断是受到监管的。

此外，我知道美国的征信机构一般是先提供了经得起检验的信用报告，为信息主体本人提供信用报告查询服务之后，再提供基于信用报告标准化解读的各类信用评分服务，我想也是有这样一个明确性要求在里面。为了确保个人信息没有被滥用，评分流程的基本方法、理念、结果是需要对外披露，并接受监管部门的全程监管的。特别是当放贷机构基于征信机构的服务（如信用报告、个人信用评分），做出了不利于借款人的决策时，如拒绝借贷、提高费率、降低额度等，消费者是有知情权的。

王：非常赞成您的观点，保护借款人（即信息主体）对征信系统本身及其本人信息被采集使用情况的知情，是征信行业的国际惯例，也是保证第三方征信机构独立、可信赖地位的基石。

鄂：是的。在大数据的背景下，各种可以预测违约的数据在丰富性、广度和深度上出现了极大的增加，但是对大数据的使用不会也不应该动摇刚才提到的征信与风控间的基本框架。例如，一些大型互联网公司，掌握了大量的个人互联网行为信息，这些信息可以用于公司内部的风险管理和放贷决策，但是如果一旦用于第三方征信，则相关互联网信息的使用和对外提供，必须经受技术、用户、法律、认知等社会方方面面的考验，满足公平公正合法等基本要求。

王：但是我们目前这方面的法律规定还不太完善。

鄂：没有法律规定也不一定是可以为之的，征信机构的活动涉及消费者的切身利益，如果因为征信机构的服务，如提供了消费者不知情或认为不准确的信息，导致消费者的金融消费，如放贷、车贷等受阻，我认为消费者也是有权告第三方征信机构的。征信不是闹着玩的，不建议目前部分机构采取抱着试试看的态度，来看哪些数据和技术可用于风险评估，并递延到征信服务上，有些事情要事先考虑清楚。

王：在大数据时代，征信机构利用大数据技术对借款人风险水平的预测模型，如果经过市场检验是有效的情况呢？

鄂：这是另一个问题，即便是对一群人的模型预测有效，但是用不成熟、不被大家接受的新技术和新方法，对个人进行风险预测并给个人的经济生活带来影响，征信机构也有被司法起诉的风险，包括美国费埃哲（FICO）公司当时也是这样的，模型和技术要有可解释性，符合社会公众的可接受度，这样才能站得住脚。从有效性角度来看，社交网络信息对于营销、对于反恐等被证明是有效的，但是对于征信的有效性，还是一个有待证明的另一个问题。

王：大数据在风控运用上的一些创新确实存在，例如，传统上主要是利用信用信息、财产信息来预测违约，目前依托信息和技术进行了一些创新，如有机构发现借款人手机的被叫时长、朋友圈的信息和违约有一定的关系，而将这些变量作为预测变量入模分析。

鄂：您说的可能是某个机构根据某些信息得出的一个初步结论，可能会被常识支持，但是这仅仅是一些数据环境下的一个判断，是否经得起检验、站得住脚，我认为还不能过早下结论。即便有效，我还是那个观点，这个结论可以被放贷机构的风控所用，但是否可为征信机构所用，还用待观察。

王：就我们而言，征信系统一是收集放贷机构等无论怎么努力也基本得不到的信息，如借款人在另一家放贷机构的借款信息，之后供放贷机构共享，二是收集放贷机构等可以采集但是成本较高的信息，如法院判决信息，方法是统一采集、大家共用。征信系统提供的以上两部分信息都是放贷机构的外部信息一部分，放贷机构风控所使用的信息一定远远超过征信机构提供的信息。

鄂：是的，征信机构的信息永远是放贷机构风控的一个重要信息和工具的来源。其实，目前使用大数据模型中，我认为很多变量是用来验证信息的真伪的，但是，预测违约率还是用传统的信贷信息一些核心变量，目前来看，预测未来履约的信息范围和方法论并没有真正扩大和突破。

王：非常感谢您的交流。

稿件发布与内容纠错：18309209791

行风监督电话：15529092222

创意策划与直播服务：15667159999

违法与不良信息举报：kjw@kjw.cc 029-89696369

上一篇：胡敦欣院士：年轻人挑大梁海洋研究有希望
 下一篇：特朗普发表首份农历新年贺词肯定亚裔美国人为美国做出的贡献