当前位置: > 财经>正文

量化投资之机器学习应用 东证期货

2023-08-16 00:18:45 互联网 未知 财经

量化投资之机器学习应用

2016年在东证期货的量化报告里,读到一篇文章,关于量化投资策略之机器学习应用——基于 SVM 模型的期货择时交易策略 。就顺手算了一下,发现了一些问题,因此和大家来讨论。

(文章比较长,因为有编辑部成员思考实践的部分,我们支持大胆提出质疑的精神!请在留言处发表你的看法和观点。)

机器学习简述

根据 Tom Michael Mitchell对机器学习的定义,假设有任务 T、执行结果衡量标准P 以及从中获取的经验值E,计算机程序在反复执行相关任务(T)后的成绩(P)会随着经验(E)的积累而不断提高和完善,这个过程被统称为机器学习,对任务求解的途径称为学习方法。从实例中学习的模型主要包含三个部分:数据源(数据发生器)、训练器以及学习机器。数据源的特性决定训练器和学习环境,将数据x-输入至训练器中,返回响应值y-学习机器通过观测训练集((x1,y1),...( xn,yn)),构造相应算法用于预测其他特定数据源 xi在训练器中的响应 yi,并以预测结果y-适当地逼近响应值为目标。依据不同的训练数据集,机器学习可以分为监督学习、无监督学习、半监督学习以及强化学习,其中监督学习是指每一个有效的数据输入都对应一个输出(响应值);依据不同的输出值,机器学习又可以分为分类问题(输出值离散分布)、回归问题(输出值连续分布)以及结构化问题(输出值隐性决定)。

SVM择时策略

SVM (support vector machine)属于机器学习中的监督学习算法,以统计学习理论为基础,在最小化样本误差的同时寻求结构风险最小化,以提高学习机器的泛化能力。SVM 算法的优点在于通过参数寻优以降低泛化出错率,同时使用核函数在高维度特征空间中进行学习以解决非线性分类和回归问题。

SVM 择时模型的本质属于分类器,构建的流程包括:1. 收集数据,例如基本的历史行情信息(开盘价、收盘价、最高价以及最低价等);2. 分析数据,对数据的所有特征项进行梳理,删除重复项以降低数据维度;3. 训练算法,使用粒子群优化算法(PSO)以及遗传算法(GA)实现参数调优;4. 测试算法,在设置止损点位的基础上对择时策略进行回测检验,统计模型准确率和收益率。总体来说,将 SVM 分类算法与其他参数优化算法相结合,使其通过学习带有涨跌标签的历史交易数据,成为预测未来某一时间区间涨跌方向的分类器,并据此进行为商品期货交易决策。

线性分类问题

以篮球比赛中对球员的定位问题为例,根据2015至2016赛季NBA (美国职业篮球协会)在编 450名球员的比赛场均数据,包括得分(两分球/三分球)、助攻、篮板、盖帽以及抢断等特征量,构建 SVM 模型,其中后场球员标签为+1,前场球员标签为-1。此模型的学习过程是通过以上球员的样本数据(训练集),能够准确地对球员的定位进行分类。若有新球员进入联盟,我们可以将其大学和高中比赛的数据输入模型,根据预测结果对其定位进行分类。若仅考虑二维特征量,图中分类器可以用函数(1)表示,其余数据点的分布用函数(2)表示

其中x表示二维特征量 x-(x1,x2),函数(1)用来表示分类超平面,若 f(x) < 0,则数据点在超平面左边,标签值为-1,若 f(x) >0,则数据点在超平面右边,标签值为+1,若f(x) =0,则数据点在超平面上,不属于任何一类。函数g(x)类似于 Logistics 函数,将f(x)的值映射到标签集(-1,+1)上。f(x) 能够表示数据点到超平面距离的远近,我们可以用函数间隔 r=y(wtx+b) 的正负性来验证分类的置信度和准确性,为此我们致力于寻找能够使正负类中函数间隔最小值最大化的超平面。

图中两个支撑着中间间隙的超平面到分类超平面的距离相等,即求得的最大函数间隔r,在这两个支撑超平面上的点称为支持向量,它们满足 r=y(wtx+b) ;对于不是支持向量的数据点,则满足 r=y(wtx+b) > r;若 r=y(wtx+b) < 0,则表示数据点分类错误。SVM模型可以通过参数寻优找到分类超平面,以最大限度分隔正负类数据并使支撑超平面之间的距离最大化。

非线性分类问题

鉴于 SVM 模型

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。