You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
My apologization for my limitation of English, I will talk my idea in Chinese.
我读了DRLAgent的代码,跟着baseline的models又向上追踪到SAC模型。发现这些模型输入的每根k线数据,没有什么办法可以训练时使用一段时间窗口的序列数据。
由于股票是一个极其时间依赖的数据列信息:它close是3元还是30元并不重要(其实我还没找到normalization的环节),而是它上个时间步的价格跟现在的变化,上一周跟本周的变化。不单单价格,成交量也是同一个道理。拟人化的话,交易者入场交易依赖的是当前股价/当前技术指标跟历史一定阶段数据的比较做决策,drl也应当模拟这个思维过程才能最大化拟合市场的波动。
我思考很久如何能够修改SAC的policy文件引入RNN/Transformer,发现那是一个巨大工程,基本要重写全部的baseline。我也考虑把Transformer得到的预测指标化,当成一个特征码从数据源输入,问题是没有合适的权重,对drl的训练没有产生多大的影响,回归并为得到优化。
在这个方面,结合drl的强化学习+时间序列分析,有人在做类似的工作吗?或者计划做?有什么开放的建议吗?
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
My apologization for my limitation of English, I will talk my idea in Chinese.
我读了DRLAgent的代码,跟着baseline的models又向上追踪到SAC模型。发现这些模型输入的每根k线数据,没有什么办法可以训练时使用一段时间窗口的序列数据。
由于股票是一个极其时间依赖的数据列信息:它close是3元还是30元并不重要(其实我还没找到normalization的环节),而是它上个时间步的价格跟现在的变化,上一周跟本周的变化。不单单价格,成交量也是同一个道理。拟人化的话,交易者入场交易依赖的是当前股价/当前技术指标跟历史一定阶段数据的比较做决策,drl也应当模拟这个思维过程才能最大化拟合市场的波动。
我思考很久如何能够修改SAC的policy文件引入RNN/Transformer,发现那是一个巨大工程,基本要重写全部的baseline。我也考虑把Transformer得到的预测指标化,当成一个特征码从数据源输入,问题是没有合适的权重,对drl的训练没有产生多大的影响,回归并为得到优化。
在这个方面,结合drl的强化学习+时间序列分析,有人在做类似的工作吗?或者计划做?有什么开放的建议吗?
Beta Was this translation helpful? Give feedback.
All reactions