品牌活动
中国人民大学汉青研究院金融系系主任 李勇
大数据给量化投资带来变革
来源:
作者:
2017-12-26

中国人民大学汉青研究院金融系系主任  李勇

       谢谢主持人,非常高兴这是我第一次和中国量化投资学会丁鹏会长,以及中国金融技术研究院一起合作办这个会议。我讲的可能跟其他几位嘉宾讲的不一样,说实在今天我们也提到鲁班和孔子的问题,我既不是鲁班的弟子,更不是鲁班,因为鲁班的弟子是在座大部分的各位,我最多算是孔子的弟子,所以我讲的东西并不是那么偏应用,而是反过来讲一下最基本的应用,因为量化投资的基石叫数据,所以新基石就是大数据,大数据跟数据到底有什么联系和区别,这是现在随着互联网技术发展很不同的地方。

  大家都知道中国已经崛起了,已经不再是一百年前的东亚病夫了。但是不管如何,我们跟美国还是有差距的,我们在有一个问题上很可能超过美国就是大数据,道理很简单,中国有13亿人口,我们每人发一条微博就是大数据了。美国是自由的社会,什么东西都可以说,你不需要在微博和网络上说。中国不一样,中国的制度有点特殊,很多东西不让你说,我们所有的发言记录全部留在网上,网上的这些东西是不是能够构成将来的一笔财富,这个问题是我今天所要回答的。其实你在很多人眼中手握财富,特别是我跟公司的部门和领导交流的时候,他们手握财富都不知道。

  我举一个最简单的例子,我每次去体检的时候,他每次要收我180块钱,我很不高兴。我说能不能给你出个主意,你不交钱的话就别来了,我们每年那么多学生,那么多老师去体检,这个数据是谁关心的,是保险公司。但是这笔数据确实在闲置,今天我班门弄斧把最基本的问题谈一谈,我讲的东西并不是特别难。

  我稍微介绍一下大数据的背景,因为时代在发展,很多东西去年和现在最热的就是互联网金融,互联网金融背后就是大数据,所以大数据、原材料、工人、厂房将来都会成为投入的基本要素。为什么这么讲,今天我稍微简单介绍一下这个内容。因为我这个人的名字比较普通,你们在媒体上和报纸上看到我写的文章,可能也不知道,因为中央电视台有一个主持人叫李勇,他长的比我帅,财政部有一个副部长也叫李勇,我经常写一些文章谈大数据,我写了一份内参已经到中央去了,今天环球时报已经刊发了。我刚刚提到中国现在是大国了,但是中国在全球的地位可能跟美国不一样,中国既不是高大帅,也不是白富美,更多的是土豪,这是老外对我们的感觉。但是我们在大数据问题上,我们是有发言权的,这个东西确确实实在各行各业都有很大的价值。但是我现在集中金融行业,所以我这本书讲大数据在银行业、保险业、金融监管,我做的很多东西是在研究怎么用大数据追踪老鼠仓,怎么用大数据进行金融监管,这是政府很关心的问题。

  大数据是不是就是一个大字,很多人误认为就是数据比以前大了,为什么现在大家对大数据的概念,每次都听各种各样的媒体在谈大数据,大家都知道现在阿里巴巴[微博]在做小额贷款,这个东西传统金融行业是无法解决的。但是现在阿里巴巴淘宝的用户,它有很多的数据,阿里巴巴是有的,所以他可以利用这些数据进行小额贷款发放,它的收益是非常好的。我们移动公司和联通公司,这个数据一旦用了,你们每个人的手机号码,你们每个人的信息都是有的,这个数据一旦利用起来那是不得了的。但是很多时候可能是闲置的,而且我们各个单位之间也是相互保守的,这样就阻碍了交流了。

  为什么从小数据到大数据的过渡,主要是由于技术的发展,只要技术发展好了,腐败越来越难了,只要利用大数据对每个省的领导进行监控,现在我们用iPhone手机,观察一个月,你相信你的男朋友绝对逃不了你的法眼。所以随着技术的普及,每个人都有智能手机,包括云计算,现在技术的发展导致搜集数据的能力越来越提高,在座的各位,在我们那个时代是互联网刚有的时候,一个男孩子能够上互联网,能够用网络跟人聊天找个女朋友太容易了,像我们出身比较差的,2001年我才会用word另存为,那个时代一个小小的U盘是非常昂贵的,现在我们用的U盘都是16G、800G、1000G的了,数据量大了以后是不是大数据,不是这样的。还有其他的附加条件,首先是类型多样,你们所熟知的大数据,这些东西是不是将来发展的主流,不一定。数据要会创造价值,我们利用的微信一天下来更新多少。所以在国际上有定义,各个书本上也都有,主要是海量、快速流转、多样性、价值,不光是量大,它流转的速度和多样性存在价值,怎么样发掘价值。

  大数据给大家带来了改变是什么,数据量越多,我们不再是用样本进行推断,第二个问题是精确性和混杂性,我们关心的问题不一样了。这个东西大部分都是搞量化的人,为什么以前用样本,现在随着技术的进步,虽然说我不能够完全把整个技术找到,但是基本上我可以通过技术的手段搜集大数据,信息掌握的越来越精确。在精确性当中,我们也存在一些噪音,就是混杂性,我们观察背后大部分的东西,我们学过统计的知道,我们关心的是大数据,什么东西呢?你把它放在一起的时候会发现有非常明显的区别,比如说东北的女人喜欢打老公,上海的女人做什么事情精打细算,所以说娶女孩一定要娶两个地方的,就是广东客家和川妹子。这个地方不再是因果性的,我所关注的是背后的联系是什么,这个东西在大数据时代,我只要发现A和B有相关性这样就可以了,A和B为什么涨,这些东西留给谁干,留给我们这帮孔子的弟子去做。大家分工不同,不要那么较真,你们找相关性,我们找因果性,大家各自有口饭吃,你们把钱赚了,我们把因果关系找出来了,我们不要互相批评我,你什么也不懂,等钱还没有赚到的时候,什么都没有了,机会也丧失了。

  大数据的类型,我们所理解的主要分为两种,一种是结构性数据,包括通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。虽然我是国内为数不多在金融界关注大数据的老师之一,我对数据的想法稍微不一样,大家的分工不同。比如说高频数据量大有价值,开发这种策略可赚钱,这个东西我不想多说了,这是结构性数据,关键我想说的是非结构性数据,这对量化投资有什么价值,这个东西我相信是比较新的内容,而且也是很多人没有关注的内容,更重要的是大家接触的并不是太多。

  实际上我们讲起来确实很简单,非结构性数据不是我们现在所看到的数据,而是文本的数据,是我们发微信,发微博,聊天的数据。因为它是文本型的,这些数据的发展是最新的内容。不知道在座的各位是不是喜欢用微信,我学会用微信时间不长,因为我是QQ的忠实用户,我第一次接触就是QQ,一直对QQ很钟爱,有一天我突然发现我用QQ通知几个学生没有人理我了,我把学生叫来问问,现在不用QQ了,我们已经用微信了。因为我比较讨厌用智能机,原因你们懂。

  这些东西跟量化投资到底有什么用途,我也跟很多公司聊,现在做对冲基金的时候,我们可以想一想,投资的游戏最终还是人的游戏,这个东西不通过高频是得不到的,就是通过聊天数据,很多人讲了随着技术的进步可以解决。对我来说这个并不重要,对你们来说有门槛限制,但是对我来说无所谓,我们是孔子的弟子。我们在座大部分是鲁班的弟子,你们想开发什么策略,我不需要。有的时候理念也很重要,苹果的乔布斯可以不懂技术,但是没有乔布斯的苹果还是苹果吗?社会分工不同,这个时候已经有公司在国外,这个比较新,从社会媒体聊天网站,我们叫推特,Facebook,通过这些数据可以构造出指标,这个指标谁来构造,我这种人,处理数据我没有这个能力,这些需要金融方面的专家,需要行为心理上的专家,需要数据挖掘技术上的专家,需要不同的鲁班加上策略方面的人在一起,最终可以构成一个对冲基金。2011年英国对冲基金建立了规模为4000万美金的对冲基金,情绪一定是对很多东西提前感知。比如说像某一个疾病的发生,特别是流行病,在这个病发作以后先去查症状是不是跟这个一样,我们先不会上医院。在查的过程中你的行为已经被人记录,大家Google或者是百度[微博]可以提前到疾病在哪个地区发生,我们讲同样的道理,对股市的预测也是一样的。所有人都努力获得成功更高的概率,如果没有这一条没有人努力,只能说努力提高你未来成功的概率,如果没有这一条,现实世界一定会发生很大的变化,大家有没有去努力和奋斗。

  我们通过数据的分析掌握了动向,通过分析这么多用户的微博帐户的留言,判断民众的情绪,根据人们高兴你们发的笑脸,这个时候我认为是一个指标,不高兴的时候发一个悲伤抓狂的指标,根据这些综合可以开发出一个指标出来,这个可以作为投资者投资的依据。所以大数据在各个行业的应用很广,米歇尔已经访华了,奥巴马选举成功早已经被预测到了,这是公认的。大数据的发展已经涉及到国家安全,我们内参写的是如果再不对大数据进行立法,不把大数据作为资产保护,如果被人家掌握了,中国没有或者被人家窃取了,将来你作为大国怎么在全世界立足,中国在这方面有明显的人口优势,中国的航空母舰打不过美国,我们说话还说不过美国吗?所以说量化投资的东西做高频交易,这里我想强调一点,通过非结构数据未来的量化投资方式,也许在未来几年或者更长一段时间里,也许在中国如雨后春笋般发展起来,变成货币基金中的战斗机,人出名太快不是好事情,所以导致现在有一些危机,我只是想跟大家讲互联网技术的进步、大数据的发展所带来的收益也许不是大家想象那么简单的,也许是很快的,这里我们说的委婉一点。

  最终我想告诉大家一点,在大数据时代,金融创新的快速发展使得我们很多时候对新生事物的接受程度经常是目瞪口呆,一次一次的让我们感到惊讶,我们稍微不小心就被时代抛弃了,我们学院的师资多么优秀,我的意思是创新快速发展使得大家目瞪口呆。数据特别是非结构性数据的极速膨胀和发展,策略就那么几个市场,我们搞高频交易,也许这个地方是一个金矿,也许是不毛之地。所以这里强调的是非结构数据的极速膨胀和发展也许给量化投资带来了变革,也许是我们在座的各位,包括我自己在内可以思考、交流和探讨的。如何开发和利用非结构数据,在量化投资领域,将来会是一个新的研究方向,但是在中国目前还没有做这个东西,我今天的演讲主要强调这么一句话,谢谢大家。


阅读:1188