深度学习与金融市场——数据

在深度学习领域,数据无疑是最重要的要素,没有之一!无论你是使用监督学习,还是非监督学习,或者使用深度强化学习。在本文中,我们讨论什么样的数据是我们所需要,以及如何获取闭环数据。

通常来讲,很多炒股人士都会去看K线,各种各样的技术数据,比如MACD,KDJ,BOLLING等等。这些技术指标为很多高手也好,老手也好,津津乐道,因此有一种说法说炒股至少要十年经验才有可能不亏损。这个理论不无道理,当你看过很多的K线形态,看过很多的暴涨暴跌之后,你的风险意识更加强烈,对市场更加敏感。但是即便你真的炒了十年,是否你投入在其中的时间是足够的呢?在技术领域有一个一万小时理论,意思是说你要想成为一个领域相对意义上的专家,你至少需要投入在上面一万个小时。而事实上我们非职业炒股的人,每天投入在股市上能有2到3个小时就非常不错了,那意味着是至少十年。那么专业炒股的人,是否一定就能在股市上赚钱,答案是否定的。人的记忆力非常有限,你无法记住十年的K线,更别说一眼就能看出技术指标。那么量化其实是非常必要的,即便你没有什么投资经验,你也可以通过深度学习来建立一套自己的投资系统。

我们回来说数据,理论上,所有的金融市场数据都是我们所需要的,而且我们还需要其他的数据,比如时事政治新闻等等,甚至包括娱乐以及各行各业的新闻。一般来讲,目前在做深度学习结合金融的,用的比较多的无非三类:一,OHLCV数据。这个是什么呢?开盘,最高,最低,收盘,成交量。二,技术指标,大家通常知道的,可能就是十几个常用的指标,事实上,指标大概有200多个,市场上有各种指标的研判方法,以及个人自己总结出来的研判方法,甚至会有一些理论风靡一时,但其实很多人会感觉一些理论很忽悠,比如波浪理论,大家最大的困扰是,怎么才算一浪!往往复盘的时候,你发现这个理论是工作的,实操却完全不工作。又比如国内风靡一时的缠论,一千个人有一千种缠法!这些都不可靠,其实最后还是源于自己经验累积后对股市的理解。三,财经新闻头条。基本上大家会基于NLP来把财经新闻进行量化,鉴于目前NLP对语义理解的水平,目前没有很好的模型。

我们先来说说OHLCV数据。数据想必大家都很了解,但是究竟是看日线,周线,月线,分钟线,小时线,还是组合。答案是都需要,1分钟线或者5分钟线都可以,高频的数据你有了,生成低频的数据就非常简单。我们来说说,什么是闭环数据!所谓闭环,就是你建立了一个系统,它自动会获得新的数据,并喂给你的深度学习系统!那么如何获得这个数据呢?我们当然是用爬虫,做量化的如果是在专业机构做的,基本都会用专业的数据,比如wind等,个人研究者,大部分都在用tushare或者万矿等等,所谓宽客大部分都用这些数据,这里面会有一些付费数据。事实上,你能看到的量化策略,很多是基于预处理过的数据。或者说这些包装过的需要收费的数据已经被一个框给框住了,在这个基础上的研究方向已经定势!我们会需要一些收费数据,但只是一小部分!我既不用tushare,也不用其他的宽客平台提供的数据,一个爬虫搞定的事情,没有必要去借助其他的平台。也许有同学要问了,这不是不符合python的先找轮子的精神吗?我想说的是,我们有时候是有必要去用一堆轮子来造一个自己的轮子的,尤其是重要而且简单的轮子,我们不会希望我们的系统在高效的运转中已经在帮助你赚钱的时候,或者帮助你规避一个大风险的时候,某个轮子掉链子了!到时候你也许会吼一句:我分分钟几百万的!话不多说,其实新浪,腾讯都有数据,我们直接从他们那里取就好了,python爬虫的部分相对来讲比较简单,有需要的同学可以私信获取范例!

技术指标我们可以直接用一个轮子,我这里推荐使用TA-lib!安装过python的同学,可以直接使用PIP/PIP3 install talib!

新闻数据获取仍然使用爬虫,渠道其实用百度就可以,专门的财经板块也是可以,这部分的代码也同样很简单,有需要的同学可以加入我的知识星球。

总的来说,数据获取相对来讲是很容易的,很多数据工程师会可视化来对数据进行一些处理和选择,基本上我不太用这些套路,为什么?这些图表是给老板看的!我们以最简单的例子来看,如果我使用LSTM来做预测,并且我使用日线OHLCV数据,那么我们会发现一个很明显的问题,数据不足,A股到现在才20几年,我只有几千条数据而已,大部分股票还没有这么多。数据少,最容易发生的事情就是过拟合,你发现预测的准确率很高啊!很兴奋!一实盘这模型就像条狗一样。这么容易拟合的数据,图表的意义在哪里?这是为什么github上很多人信誓旦旦自己年化收益50%甚至更高。这些人大概还没有摸到深度学习的门路! 数据分析用什么做最好,深度学习!为了装高端,去做一系列的数据分析,我们没必要去浪费时间。 那么我们怎么获得更多的数据呢?很简单,两种方法: 一, 我们使用更高频的数据!二,我们使用多只股票的数据! 终极奥义在于真实世界模型建立!

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();