扫描分享

本文共字,预计阅读时间

孵化于清华大学人工智能研究院的创新创业公司北京瑞莱智慧科技有限公司(RealAI)致力于研究和推广安全、可靠、可信的第三代人工智能,坚持AI基础技术的自主研发,聚焦贝叶斯深度学习、可解释学习、AI对抗攻防等最前沿的研究方向,致力于拓展AI边界。

RealAI由清华大学人工智能研究院院长、中国科学院院士张钹和清华大学人工智能研究院基础理论研究中心主任、MIT TR35“先锋者”朱军共同担任首席科学家,CEO田天为清华大学人工智能博士,曾获清华特等奖学金、西贝尔学者。RealAI金融业务合伙人刘荔园毕业于北京大学,曾服务于国内多家金融机构与银行客户,是信贷评估与风控领域专家。公司团队中,技术人员占比超2/3,来自清华、北大、中科院的人数比例接近50% 。目前,RealAI与国内多家大型工业制造企业、金融机构开展合作,提供工业智能诊断分析、金融资产智能提升和人工智能系统安全防护等服务,助力企业智能化升级。

作者有幸采访了RealAI金融业务合伙人刘荔园,了解她对人工智能赋能金融科技行业发展的思考。

从黑盒到白盒 人工智能技术进入3.0时代

人工智能技术作为当前最具潜力与革命性的技术已经数次成为时代追捧的热点。从1956年在美国达特茅斯会议上被提出,到1997年IBM深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,再到2017年AlphaGo接连战胜世界围棋冠军李世石、柯洁等人类顶尖选手,人工智能技术发展经历了一次又一次的高光时刻。

目前,基于深度学习为代表的AI技术已经在各行各业发挥其应用潜力,但从技术本身来看,深度学习仍有其瓶颈和局限。比如,深度神经网络的解释能力很弱,往往模型只能给出结果,无法给出人类易于理解的推理过程,因此也常被人们称为“黑盒子”。模型“黑盒”在安全性、可靠性以及模型泛化能力等方面制约了深度学习的进一步发展和落地。

计算机视觉专家约翰霍普金斯大学教授Alan Yuille曾提到:“如果人们只追神经网络的潮流,抛弃所有老方法;如果人们只会刷榜,不去想怎样应对深度网络的局限性,这个领域可能很难有更好的发展。”

清华大学人工智能研究院院长、中科院院士、RealAI首席科学家张钹

清华大学人工智能研究院院长、中科院院士、RealAI首席科学家张钹也认为目前深度学习方法已经触及天花板,并提出「第三代人工智能」的概念。

具体看来,第一代人工智能是以知识驱动的AI,比如符号模型、规则模型,以知识经验为基础的推理模型,第一代模型能够宏观层面模拟人的行为,因此它的解释性、鲁棒性很强,但它最大的问题在于:人类的知识经验往往获取困难,而且难以准确表达,导致其应用领域狭窄。

第二代人工智能是目前以数据驱动的AI,其中一个最重要的成果就是深度学习,对领域的知识要求不高,同时能够处理大数据。但以深度神经网路为代表的第二代AI技术需要依赖大量高质量的训练数据,无法适应高度不确定性环境或者训练数据量有限、样本噪声大等情况,在自动驾驶、工业检测及AI医疗诊断等实际应用场景下面临巨大的困难。

为了满足未来人工智能发展的需要,清华大学率先倡导发展「第三代人工智能」,建立可解释、鲁棒(Robustness)的人工智能理论,发展安全、可信、可用的人工智能技术。

不仅中国学者这样认为,美国国防高级研究计划局(DARPA)也于2018年9月宣布启动“AI Next Campaign”,围绕新能力、鲁棒性、对抗性、高性能和可解释性五大方向发起推动AI发展的第三次技术浪潮。

中美两国的人工智能技术研究正不约而同地走向对技术鲁棒性、可解释性和安全性的探索,可见人工智能的发展正迎来新机遇。RealAI团队作为清华大学人工智能研究院的核心孵化企业,也在朝着这一方向努力。自2018年7月成立之初,就致力于研发安全可解释的第三代人工智能算法平台,赋能实体经济生产。

RealAI自主构建基于贝叶斯深度学习的基础算法平台,并面向金融领域推出端到端机器学习建模平台RealBox,实现黑盒模型白盒化,在支持预测分析的同时提供人类能够理解的决策推理信息,提升深度神经网络的可解释性。

RealAI也与清华大学AI研究院联合开发了人工智能安全平台——RealSafe对抗攻防平台,凭借国际领先的对抗攻击和防御算法,融合白盒、黑盒等不同场景,提供多种AI攻击与防御能力。

从红海到蓝海 探索金融科技全新增长点

金融科技,作为人工智能落地应用的重要实践领域,在我国普惠金融发展政策的推动下,近几年吸引了大量的金融科技企业的加入。人工智能技术能够极大提升风控效率,降低风控成本,这也使得高频小额的金融业务成为可能。

RealAI联合创始人刘荔园表示,金融科技领域存在两个重点问题,一是数据孤岛,二是数据有偏。数据孤岛问题在于数据散落在不同机构,每家机构获取的数据都不够全面,难以描述总体数据的特征。数据有偏问题则指的是数据建模的过程中基于全监督技术用到的样本是根据既定业务流程层层筛选下来的结果,实际上能评估和建模的群体已经是筛选过的有偏群体,用这样的样本数据来描述总体数据是有偏的。

目前,绝大多数公司都采用接入更多数据源来一定程度上解决数据孤岛的问题,但大量数据服务公司的涌现使得这一方向早已成为红海。而数据有偏则是技术层面的问题,很多公司对于这个问题束手无策。此外,近期不少金融大数据服务商在解决数据全面性问题的过程中,也遇到了监管合规要求的挑战,这也充分印证了单方面解决数据孤岛问题的发展思路存在巨大局限性。许多大数据业内人士在谈及模型和数据的关系时都曾表示:“大数据领域数据重要,模型不重要”。但刘荔园则认为,“数据重要,模型同样重要,只是一般模型不重要,因为很多开源机器学习模型的使用门槛很低”。RealAI致力于解决数据有偏等一般模型难以解决的难题,而这块的技术门槛是非常高的。因此,在RealAI看来这一领域仍是一片蓝海。

RealAI针对金融业务场景中的数据纠偏、小样本建模、自动特征工程等问题实现了技术上的突破。基于自研的贝叶斯深度学习与半监督学习技术栈,RealAI有效解决金融领域中面临的无标签、少标签、冷启动等业务困境。同时,基于RealAI的模型构建和输出能力,金融企业可以快速利用AI赋能风控评分、异常检测、风险评估、催收策略制定等核心业务场景,覆盖金融产品的获客、信审、贷中监测、贷后管理等完整生命周期。

从学术到落地 第三代AI赋能传统金融业务

RealAI依托清华大学人工智能研究院,具有深厚的学术研究与技术研发实力。刘荔园在谈到公司使命和目标时表示,尽管依托学校强大的学术能力,但将人工智能领域的学术成果转化为可以在业界落地的产品并非易事。RealAI致力于将实验室成果结合商业需求形成便捷、易用、高效的商业产品,赋能传统金融业务。目前,RealAI的金融客户包括银行机构、持牌消费金融机构和部分头部互金机构。

在反欺诈领域,传统“黑盒”的机器学习聚类模型生成的结果人类往往难以理解,或很难推测出其分类原因,因此也难以进一步利用聚类结果。Real AI的无监督学习模型采用深度生成式建模,相比传统的聚类等模型,其拟合能力和表达能力都更强,其聚类结果具有一定的指向性。利用这一特性,模型可以从海量数据中挖掘出异常类别用户并给出具有物理意义的描述。

在信用风险评估领域,基于线上获客的贷款产品,由于客群构成复杂,信用记录缺乏等原因,信用评估的通过率非常低。而未通过贷款审核的用户,由于不知道其潜在可能的还款表现,因而难以被放入传统模型训练。因此,传统机器学习数据建模过程中基于全监督技术用到的样本为通过审核的用户数据,但这部分为筛选过的有偏群体,其训练样本相对全部申请的人群十分有限且有偏。

针对该现象,RealAI采用生成式模型等技术,可以对全体贷款申请群体进行建模,摆脱了目前技术对于数据标签的依赖,风险识别更加精准。比如,RealAI的算法模型可以做到从被拒绝贷款的“坏”客户中“回捞”出一部分用户,并且保证回捞出的用户放款后的整体风险水平与原本就通过审核的用户风险水平一致,具有相同的不良率表现。

RealAI风控回捞无偏模型方案

在授信额度预测领域,传统的深度学习模型,虽然也能给出预测结果,但缺乏模型级别的解释能力,特别是每个个体的决策路径和决策原因,因此金融机构难以直接依赖模型结果对客户进行更加精准的授信以及更加精细化的定价。RealAI的白盒模型学习框架能同时给出模型级别和个体用户级别的决策路径和关键特征,便于金融机构掌握决策细节,为安全合规地进行风险管理提供了重要抓手。

RealBox千人千面级解释

RealAI团队近年来在学界业界凭借强大的技术实力屡获佳绩。2019年8月4日,在国际数据挖掘与知识发现大会(ACM SIGKDD,简称 KDD)上,RealAI凭借安全、可靠、可解释第三代人工智能的创新优势,荣获KDD2019 Startup Research Awards(创业研究奖)。2019年9月6日,RealAI针对金融业务场景开发的RealBox端到端建模平台成功入选CSDN “2019 年优秀 AI应用案例 TOP 30+”榜单。此外,RealAI团队还曾在多项全球顶级AI竞赛中,战胜斯坦福、约翰霍普金斯大学等世界著名高校代表队,在人工智能技术攻防领域取得优异成绩。

未来我们也期待RealAI在人工智能基础技术的自主研发领域持续深耕,不断拓展下一代人工智能的技术和应用边界。

[Source]

本文系极速3分彩官网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

评论


发表评论
您的评论提交后会进行审核,审核通过的留言会展示在上方留言区域,请耐心等待。
猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注极速3分彩官网官方微信公众号,获取互联网金融领域前沿资讯。