专访丨周涛:深挖掘大数据在各行业的应用价值

时间:2016-03-24  17:20      浏览:46次
来源:数据观

电子科技大学大数据研究中心主任周涛在推介会上发表演讲 (周元杰 摄)

记者:您技术背景主要做大数据挖掘的。首先想请您列举出几个例子,怎么样通过深度挖掘大数据在各行业的一些价值?你认为能够给这个行业带来怎样的一个全新的变化。

周涛:我自己偏向于算法端的,主要做机器学习算法。我举两个例子,我在会上讲的,我们通过企业各方面的行为数据分析,包括法律诉讼、工商注册、知识产权、人力资源这些数据分析,我们实际上可以建立整个企业的画像系统,进一步利用数据分析,我们能提前预知企业各方面的风险,既包括法律风险,包括企业可能不还贷,或者企业可能出现其他的卷款走人等这些风险,给企业提供征信。除了给企业提供征信以外,企业如果自己要发行债券,我们还能够给他做定价和风险评估,这些东西改变了我们以前很多传统的银行对中小微企业贷款的处理方式,因为它绝大部分可以说99%自动化的方法,具有实施性,以前的银行或者其他的金融机构对企业的评估,也做尽调,但是这种尽调是静态的尽调。 举一个例子,企业临时出现了一些诉讼问题,或者进行工商改变或者行政处罚,这些银行是没有办法时时获知这些消息的。但是我们可以做到再添这个量级,可以更新所有的信息,所以他是一种动态的尽调的方式,它改变了原来利用静态尽调,利用人的经验、知识来进行企业的风险评估、征信的方案,所以这是一个非常典型的例子。它是用大数据再加上机器学习的方式改变我们传统的金融征信,金融评级的一种方法。

记者:除了我们所谓的通过机器挖掘和人工智能这部分利用,是不是银行继续保留它的人工经验评估这部分?

周涛:这两者实践实际上是不矛盾的,因为站在机器学习的立场上来看,我们来深度领教机器学习,实际上每一个模型的效果可能并不一定特别大,但是我们把很多的模型融合在一起,重新进行加权,重新迭代学习,通过一定的办法获得最好结果。我们在这里既有传统的机器学习模型、知识效能机、神经网络、决策树各种回归,也有一些专家的模型,银行的专家建立一种模型来判断企业的风险。所以说,实际上机器学习可以帮助银行专家把这个事做得更好,同时银行的专家仍然是很重要的贡献,两者不矛盾的。

记者:你认为大数据在医疗健康和医疗监管这方面它有怎样的一些应用方式?

周涛:你刚才提到两个方向,已经引导了我这个答案。首先在医疗健康方面,一方面站在个体的层面,刚才汪建老师提到了投入基因的治疗我们可以早期的发现重大疾病,对重大疾病进行把向治疗,以及我们判断他愈后和用药的效果,甚至可以用基因的办法来培育它的一些免疫细胞进行免疫治疗,真正攻克癌症和其他影响我们的重大疾病。

第二个,目测没有那么精确,但是它是面对大量的人群,比如说我拿到十亿甚至几十亿的诊疗记录,这些记忆就使得我可以在大尺度上去预测某一些特定类型的人,多大年龄他会得什么病,他的治疗费用,医保的费用是多少?他既可以提供给商业保险公司,也可以提供给政府决策部门,判断哪些药、哪些诊疗方式能不能进入医保,医保还有多少的费用需要我们弥补。这些东西对于个人来说不精确的,个人不会用,但是对决策部门来说和商业保险机构是非常有价值的。这是在医疗健康方面。

另外,可穿戴医疗大家比较关注。医疗监管方面主要针对医保的控费,还有包括我们的耗材,医疗器械和药品的监管,这是两块,医保控费大家了解很多人骗保,我们可以通过大数据的办法抓出骗保的人。对于器械、耗材和药品,现在药品做得很好,但是器械、耗材做得很好,实际上耗材里面很乱,我们可以通过大数据的变化追踪每一个耗材包,每一个器械每一个药品,每个器械每一次使用,从而真正能够实现定量化的管理,减少一些灰色的腐败的东西。

记者:关于医疗的问题,因为现在有一些研究,可以说通过社交网络上面的自媒体发出的声音和数据判断流感的爆发周期,这是你的研究领域吗?

周涛:这个我自己没有做这方面的研究,你看到2009年NATURE的文章,是金斯伯格这个人做的,他们后来也受到一些质疑,最近他们投了一篇NATURE,这个方面的东西说方法其实不难,主要做一个多维的多变量的一个回归分析。但是这块东西有一定风险的,因为他找到的相关关系,找相关关系有时候有用的,为什么说风险呢?因为他这篇文章有些人,相关里面有假相关,有一些人故意的引到他犯错误,这是很容易做得,人为的污染数据。我根据流感的这种疫情的疾控中心的数据,疾控中心在成都的得病的人多,我就更多的搜周涛这个数字,我们爬虫来搜,谷歌可以感觉到周涛这个名字和疾控中心流感爆发情况紧密相关的,实际上只是我做得一个虚假东西,你真正进行预测的时候我不搜周涛了,或者我疯狂的搜,导致你出现错误的预测,所以不管用情绪,还是用关健词搜索预测股票和流行病它的成功的窍门在于世界上其他人不知道你做这件事,如果世界上其他人也知道你做这件事,他们可能出于商业目的,或者出于好玩做一些事情破坏你的商业模型了。

记者:我们这次的会议叫做招商引智,你的公司自主研发人才在雷达方面可以向企业的内部员工推荐招聘职位,有高度契合这样的一个需求软件,是可以这样理解吗?你能否利用它帮助我们寻找到大数据领域的人才,具体这个软件是什么样的?

周涛:软件很简单,他把3000万份简历和企业800段工作描述进行匹配进行学习,把有两个功能,一个帮助你的企业做更好的职业描述,如果你开始的描述很简单,或者你和技术人员沟通不好,我们会把网络上最能容易招到人的,最完整最好的描述告诉你,让你参考,帮助HR。第二个我们可以做更好的简历推荐,这个简历不仅来自三大招聘网,还可以知乎,包括知识产权论文的分析。除了这个以外,我们主要和贵州探讨一些合作,他的合作方式,包括对大数据它怎么做的呢?很简单,他找贵州籍的人在全球各种各样的顶尖的人才分布,既包括大数据的人,也包括金融、会计、法律各式各样的人才。

记者:这部分的数据是通过政府这边来?目前打通了哪几个来源呢?

周涛:通过互联网采集的,因为他有他的简历数据,以前在哪个中学,哪个企业,我们知道了一些。目前打通的来源有智联招聘、中华英才,猎尚、LINKIN、GETUP、CSDN、知乎、豆瓣这些网站,人人没有。

地址:成都市高新区天府大道北段1656号环球中心E5区3-2-613
电话:028-64790501
版权所有: ©2015  成都数联易康科技有限公司    蜀ICP备15021363号-1