论文部分内容阅读
高频交易市场是许多金融机构角力的重要场所,量价关系则是众多学者研究的重点。通过量价关系在高频交易市场构建合适的模型来预测价格趋势一直是各大券商研究的方向之一。本文通过挂单量因子这一指标,构建了岭回归模型来预测价格变化,并根据模型建立的简单策略进行模拟交易,取得了不错的效果。
一、引言
长期以来,以股指期货为主的二级市场都是各大券商的必争之地,而作为矛头的高频交易策略则是一家券商硬实力的集中体现之一。与传统的中低频交易侧重关注收盘信息的特点不同,高频交易要求交易者能对日内数据的变化做出及时应对。一个理想的右侧交易策略应该是能较为准确地在价格低位发出开仓信号,在价格到达高位后及时发出信号平仓。为了探寻合适的交易信号来构建一个稳定可行的交易策略,需要选取一些合适的指标来预测价格的趋势。以往的量价关系的研究多集中于论证上·,鲜有成果能成功找到稳健的因子;且因子的运用多集中在日频交易等中低频交易中,对高频交易的研究往往被忽视,而在市场中进行交易正是研究的目的。因此,本文以Cont的挂单量因子模型作为基础,根据高频市场的特征对模型进行改进,并在沪深股市上用一年的高频数据(tick级)进行模拟交易。
二、数据预处理
对数据的预处理在模型擬合中十分关键。如果不能很好的处理数据,模型会很大程度地受到样本不平衡等负面因素影响,导致模拟交易的失败。这也是高频交易中模型拟合的一大难点。本文主要通过增大训练集的方法来避免这些问题的出现。
读取2020整年的数据,将数据按交易时间做升序排列,得到新的数据集。根据交易时间对该数据做筛选,选出发生在09:30:00至11:30:00、13:00:00至14:56:57间的交易信息,同时生成在这时间内频率为3秒的均匀时间序列。对比后发现手头的数据与标准的时间序列不同,将多余的删去,缺失的用前一个tick补上,得到标准的序列,数据预处理完毕。
为了训练和检验模型,将数据集划分为训练集和测试集两块。将前两个月的交易数据,即前65861个tick数据作为训练集训练模型,剩下的数据则作为测试集来检验模型的拟合效果,以判断模型是否可用于交易。
三、构建模型
本文的模型建立在Cont构造的挂单量因子上,并根据Bartolozzi的理论,将原本日频的模型引用到高频交易中
(一)构建自变量:
1.委买量序列:
以一档为例,如果一档买价跟前一tick比成上升趋势,w1为该tick的一档委买量。如果买价下降,w1为前一tick的一档委买量的负值。如果买价并无变化,w1为该tick的一档委买量和前一tick的差值。即:
其中,w1n 为新定义的一档买量序列,buyvolume1n 为在n时刻的一档委买量,buyprice1n为在n时刻的一档买价。
以此类推,得到十档委买量序列:w1~w10。
2.委卖量序列:
以一档为例,如果n时刻的一档卖价比前一时刻的卖价高,v1为前一时刻的一档委卖量的负值。如果卖价下降,v1为该时刻的委卖量。如果卖价并无变化,v1为该时刻的一档委卖量和前一时刻的差值。即:
其中,v1n为新定义的一档卖量序列,sellvolume1n 为在n时刻的一档委卖量,sellprice1n为在n时刻的一档卖价。
以此类推,得到十档委卖量序列:v1~v10。
3.差值序列:
每档委买量序列与委卖量序列的差值,即:
4.挂单流差值序列(Order Flow Imbalance):
根据经验法则,约每十秒会有比较显著的挂单流差值变动,因此,以每三个tick为单位对每档的差值序列取平均,得到新的每档序列,即:
此处的每档OFI序列即为所需的自变量。
(二)构建因变量:
构建加权价格序列:
构建盘口加权价格序列weighted-price,即:
其中,buyprice1(n) 为n时刻的一档买价,buyvolume1(n)为一档买量,sellprice1(n) 为n时刻的一档卖价,sellvolume1(n)为一档卖量。
(三)模型拟合:
构建岭回归:
利用逐步回归的思想,构建一个包含十档信息的函数,再根据显著性检验剔除自变量,得到最后的模型。即:
为了避免出现利用明日数据构建明日模型造成的过拟合,我们用该时刻和前一时刻的tick数据构建自变量去预测下一tick时的中间价与现在的差值。得到的模型R方为0.149,虽然从统计学角度出发,模型的拟合结果并不够显著,但在高频交易中该模型的拟合结果是可以接受的。
四、模型实践
(一)构建策略:
根据信息可知:该股股价在100左右浮动,为了避免因为误触信号而造成的错误开仓,我们将阈值设定为大于交易成本的为0.24,即:当模型预测的差值减去前一tick的差值上穿阈值,在下一tick按卖一价买入,当预测值减去观测值下穿阈值,则在下一tick按买一价卖出平仓。
(二)实践策略:
在测试集中实践这个策略,得到122次交易机会,平均收益率约为0.0028,胜率为0.5。净值曲线如下图:
从净值曲线中可以看出,即便收益率有所波动,该策略在高频交易中的表现是比较优秀的,能在去除交易费用的情况下保持较高的交易次数和胜率,有一定的可行性。
五、结语
本文以相关研究为基础,将Cont等人的挂单量因子模型应用到高频交易市场,尝试在模拟日内交易中获得超额收益,并取得了不错的成绩。由此可以看出,挂单量因子可以为交易者提供超额收益。
(作者单位:吉林大学 数学学院统计学专业)
一、引言
长期以来,以股指期货为主的二级市场都是各大券商的必争之地,而作为矛头的高频交易策略则是一家券商硬实力的集中体现之一。与传统的中低频交易侧重关注收盘信息的特点不同,高频交易要求交易者能对日内数据的变化做出及时应对。一个理想的右侧交易策略应该是能较为准确地在价格低位发出开仓信号,在价格到达高位后及时发出信号平仓。为了探寻合适的交易信号来构建一个稳定可行的交易策略,需要选取一些合适的指标来预测价格的趋势。以往的量价关系的研究多集中于论证上·,鲜有成果能成功找到稳健的因子;且因子的运用多集中在日频交易等中低频交易中,对高频交易的研究往往被忽视,而在市场中进行交易正是研究的目的。因此,本文以Cont的挂单量因子模型作为基础,根据高频市场的特征对模型进行改进,并在沪深股市上用一年的高频数据(tick级)进行模拟交易。
二、数据预处理
对数据的预处理在模型擬合中十分关键。如果不能很好的处理数据,模型会很大程度地受到样本不平衡等负面因素影响,导致模拟交易的失败。这也是高频交易中模型拟合的一大难点。本文主要通过增大训练集的方法来避免这些问题的出现。
读取2020整年的数据,将数据按交易时间做升序排列,得到新的数据集。根据交易时间对该数据做筛选,选出发生在09:30:00至11:30:00、13:00:00至14:56:57间的交易信息,同时生成在这时间内频率为3秒的均匀时间序列。对比后发现手头的数据与标准的时间序列不同,将多余的删去,缺失的用前一个tick补上,得到标准的序列,数据预处理完毕。
为了训练和检验模型,将数据集划分为训练集和测试集两块。将前两个月的交易数据,即前65861个tick数据作为训练集训练模型,剩下的数据则作为测试集来检验模型的拟合效果,以判断模型是否可用于交易。
三、构建模型
本文的模型建立在Cont构造的挂单量因子上,并根据Bartolozzi的理论,将原本日频的模型引用到高频交易中
(一)构建自变量:
1.委买量序列:
以一档为例,如果一档买价跟前一tick比成上升趋势,w1为该tick的一档委买量。如果买价下降,w1为前一tick的一档委买量的负值。如果买价并无变化,w1为该tick的一档委买量和前一tick的差值。即:
其中,w1n 为新定义的一档买量序列,buyvolume1n 为在n时刻的一档委买量,buyprice1n为在n时刻的一档买价。
以此类推,得到十档委买量序列:w1~w10。
2.委卖量序列:
以一档为例,如果n时刻的一档卖价比前一时刻的卖价高,v1为前一时刻的一档委卖量的负值。如果卖价下降,v1为该时刻的委卖量。如果卖价并无变化,v1为该时刻的一档委卖量和前一时刻的差值。即:
其中,v1n为新定义的一档卖量序列,sellvolume1n 为在n时刻的一档委卖量,sellprice1n为在n时刻的一档卖价。
以此类推,得到十档委卖量序列:v1~v10。
3.差值序列:
每档委买量序列与委卖量序列的差值,即:
4.挂单流差值序列(Order Flow Imbalance):
根据经验法则,约每十秒会有比较显著的挂单流差值变动,因此,以每三个tick为单位对每档的差值序列取平均,得到新的每档序列,即:
此处的每档OFI序列即为所需的自变量。
(二)构建因变量:
构建加权价格序列:
构建盘口加权价格序列weighted-price,即:
其中,buyprice1(n) 为n时刻的一档买价,buyvolume1(n)为一档买量,sellprice1(n) 为n时刻的一档卖价,sellvolume1(n)为一档卖量。
(三)模型拟合:
构建岭回归:
利用逐步回归的思想,构建一个包含十档信息的函数,再根据显著性检验剔除自变量,得到最后的模型。即:
为了避免出现利用明日数据构建明日模型造成的过拟合,我们用该时刻和前一时刻的tick数据构建自变量去预测下一tick时的中间价与现在的差值。得到的模型R方为0.149,虽然从统计学角度出发,模型的拟合结果并不够显著,但在高频交易中该模型的拟合结果是可以接受的。
四、模型实践
(一)构建策略:
根据信息可知:该股股价在100左右浮动,为了避免因为误触信号而造成的错误开仓,我们将阈值设定为大于交易成本的为0.24,即:当模型预测的差值减去前一tick的差值上穿阈值,在下一tick按卖一价买入,当预测值减去观测值下穿阈值,则在下一tick按买一价卖出平仓。
(二)实践策略:
在测试集中实践这个策略,得到122次交易机会,平均收益率约为0.0028,胜率为0.5。净值曲线如下图:
从净值曲线中可以看出,即便收益率有所波动,该策略在高频交易中的表现是比较优秀的,能在去除交易费用的情况下保持较高的交易次数和胜率,有一定的可行性。
五、结语
本文以相关研究为基础,将Cont等人的挂单量因子模型应用到高频交易市场,尝试在模拟日内交易中获得超额收益,并取得了不错的成绩。由此可以看出,挂单量因子可以为交易者提供超额收益。
(作者单位:吉林大学 数学学院统计学专业)