【天风原创】人工智能之遗传算法在金融领域的应用

天风晨曦交易视点 浏览次数: 2016-11-30 20:42

作者:樊伟(Uppsala University of Sweden, MSC of Applied Mathematics and Computer Engi'...

作者:樊伟(Uppsala University of Sweden, MSC of Applied Mathematics and Computer Engineering,天风证券财富管理总部投资经理,主要负责利率和衍生品投资交易)

遗传算法简介

遗传算法(Genetic Algorithm)是人工智能技术领域的一个分支,是模拟达尔文生物进化自然选择理论的计算模型。它最早由美国J.Holland教授于1975年率先提出。它的基本原理如下:基于一个特定问题,先随机产生一个初始种群(Initial population),由确定规模的初始个体组成(即一组初始解)。而每个个体被认是问题的一个潜在解,解的好坏就是个体的适应度,可用一个适应度函数(Fitness Function)来评估。个体的染色体上带有多个遗传物质,它们决定了体的外部表现,即在多大程度上是问题的最优解。用一定的方式选择(Selection)个体作为父代,繁殖后代有三种形式:直接复制(Reproduction)、交换(Crossover)和变异(Mutation)。直接复制就是保留繁殖前群体中的精英,子代和父代相同。交换是选择两个个体作为父代,以某种方式,各贡献一分遗传基因,产生子代。而变异则是选择单个个体,通过预先给定的变异方,产生子代。这个繁殖过程反复进行,逐步逼近最优解,当满足事先给定的终止条件(Stopping Criteria),得到一个最终个体(最终解)。值得注意最终解一般不是绝对意义上的最优解,但通过大量的循环过程后,它可以是最优解的近似,在下文讨论中,为方便起见,我们称之为最优解。

遗传算法流程图:

遗传算法过程:

1.编码

遗传算法的编码有浮点编码和二进制编码两种,二进制编码符合计算机处理信息的原理,也方便了对染色体进行遗传,编译和突变的操作。具体关系为:

2.解码

解码的目的是将不直观的二进制字符串转换成十进制。设bi为一串二进制编码,则对应的解码公式为:

遗传算法的编码和解码在宏观上可以对应生物的基因型和表现型,在微观上可以对应DNA的转录和翻译过程。

3.交配

交配运算是使用单点和多点进行交叉的算子。首先用随机数产生一个或多个交配点位置,然后两个个体在交配点位置互相交换基因码,形成两个子个体染色体。例如:

4.突变

突变运算是使用基本位进行基因突变。为了避免在算法迭代后期出现种群过早收敛,对于二进制的基因码组成的个体种群,实行基因码的小概率反转,对于二进制编码即0变成1,1变成0. 例如:染色体S=11001101,对其第3位进行突变,产生子染色体S’=11101101

5.倒位

除了交配和突变之外,对于复杂的问题可能需要运用到倒位,其对应的算法称为倒位运算。倒位是指一个染色体某区段正常排列顺序发生180度颠倒,造成染色体内的DNA序列重新排列。例如:

染色体 S = 10010110111011100110101001

→ S’= 1001011001011001110111101001

6.个体适应度评估

自然届中能够适应环境的生物有更多机会存活下来。遗传算法依照与个体适应度成正比的概率决定当前种群中各个体遗传到下一代群体中的机会。个体适应度大的个体更容易被遗传到下一代。通常,求目标函数最大值的问题可以把目标函数作为检测个体适应度大小的函数。

7.复制

复制运算是根据个体适应度大小决定其下代遗传的可能性。如种群中个体总数为N,个体 i的适应度为fi,则个体i被选取的概率为:

当个体复制的概率决定后,再产生[0,1]区间的均匀随机数来决定哪些个体参与交配。若个体适应度高,则被选取的概率Pi就大,则可能被多次选中,它的遗传基因就会在种群中扩散,若个体复制概率小,则会被逐渐淘汰。

指数跟踪技术:

指数跟踪技术,就是采用一定的方法构建一个组合,希望和某一指数有相同的表现。自从1976年美国创造出第一只股指型基金以来,指数跟踪技术得以发展。至今,已经研究出大量理论和模型,其中典型的研究方式主要有因素模型和Markowitz模型。

因素模型

因素模型是将股票回报和一个或多个经济因素相关联。单因素模型可以通过股票收益相对于指数收益进行回归分析得出。不同的股票具有不同的因素敏感性,用Beta表示。由于指数自回归系数是1,方差最小化模型就是要求跟踪组合的Beta为1.

Markowitz模型

Hodges(1976) 最早将 Markowitz 提出的均值方差模型应用于指数跟踪,这种方法就是要最大化跟踪组合的期望回报同时最小化跟踪误差。Roll(1992) 通过约束跟踪组合的Beta值,将 Markowitz模型和因素模型结合起来考虑。Tabata & Takeda(1995)也在此框架下,研究给定的股票数量跟踪组合的选择情况。Rohweder(1998)提出将交易成本纳入目标函数的Markowitz模型。

几种经典的不完全复制法:

大权重配置法

作为一种两阶段复制方法,它的原理极其简单:成份股中权重较大的股票对指数自然有较大的贡献。根据构建组合所需要的股票数目,直接选择沪深300指数成份股中权重靠前的股票;其配置权重为各成份股在指数中权重的等比例放大。

由于金融地产股在沪深300指数里的权重都很高,权重前几位的全是这类股票。因此,用这种方法构建的小规模股票组合只会较多地反映金融地产行业的变化趋势,如果用来跟踪指数,可想而知,拟合效果比较差。在此基础上,作者将介绍大权重优化配置方法。

大权重优化配置法

大权重优化配置方法也是两阶段的分层抽样方法。它的第一阶段与大权重配置法完全一样,选用的股票相同。而第二阶段根据历史数据,对这些股票配以相应权重。它的数学表达如下:

此方法的优点在于配置权重时不是等比例放大,而是考虑历史数据,效果应该优于大权重配置法。缺点是小规模构建股票组合时,仍不能改变金融地产行业在组合中反应明显的现象。

行业加权配置法

它也是一种两阶段复制方法,配置原理是:通过行业分层,对各行业都选用一定的股票;先对组合中各行业在指数中的权重等比例放大,再对行业里选用股票的权重等比例放大。其中所采用的行业分类标准是按照“中证指数有限公司”于2007年7月2日发布的沪深300行业指数标准来划分。

它的优点在于:1.考虑行业因素,使得组合中各行业的权重和与指数基本同,可以有效地防止板块轮动等市场结构性行情走势;2.组合中的股票都是数各行业中的龙头股,其走势对指数有最为密切的贡献;3.各行业中个股权是按照它在指数中的权重等比例确定的,一方面可以很好地跟踪指数,另一面当成份股发生结构性变化时,可以很方便地调整现货组合。

网友点评
猜你喜欢