测量市场的记忆性——赫斯特指数

赫斯特指数

在埃及,自古代法老时代开始,每年尼罗河的泛滥让沿河两岸依赖尼罗河水生存的人们感到非常困惑。

在二十世纪二十年代,英国水文学家赫斯特(H · E · Hurst)在尼罗河水坝规划处工作,在设计水坝时他要考虑建成水库的贮水能力。水的注入来自降水和洪水,为了灌溉农作物还需要定时定量输出一些库存,因此水库的设计容量要依据水的流入估计和流出需要而定,而赫斯特发现过往的设计容量经常是不够的。幸运的是埃及人保留了公元 622-1469 年共 847 年的尼罗河泛滥记录,于是他决定开始一项枯燥无聊的研究:统计尼罗河洪水的规模和频率。出人意料的是,统计结果显示尼罗河每年的流量变化并不符合正态分布,并非是完全随机的:出现较大流量的年份,往往跟着是出现更大流量的年份;出现较小流量的年份,往往跟着是出现更小流量的年份。他发现,尼罗河流量似乎存在某种惯性的短期记忆,呈现出显著地荣枯循环,但是循环的周期又是不确定的。传统上会假设尼罗河流量是围绕一个平均值波动的随机变量,这个变量应该符合正态分布;而历史统计却显示在连续泛滥的若干年份,流量水平会远远超过正态分布预估的流量水平,所以水库的设计容量应该更大一些。

赫斯特注意到爱因斯坦关于布朗运动的研究,自原点出发的花粉微粒离开原点的距离(准确说法叫“涵盖距离”)与观察时间的平方根成正比,即:

宽客网,量化投资,宽客俱乐部

这个公式也被叫做二分之一 T 法则,在金融学上可以用它把月度收益的标准差年度化,年度收益标准差 = 月度标准差×
宽客网,量化投资,宽客俱乐部
。这个公式也可以写成:

宽客网,量化投资,宽客俱乐部

赫斯特受此启发,发明了一个很特别的统计工具—赫斯特指数(H)。赫斯特指数不需要对时间序列对应的随机变量的统计分布做任何人为假设,就可以展示这个时间序列的波动性和重复性特征,这在当时是独树一帜的。赫斯特指数的计算公式是:

宽客网,量化投资,宽客俱乐部

H 即赫斯特指数(取值从 0 到 1),R/S 被称作重标极差,可以粗略理解为随机变量的极限偏差相对于标准差的偏离程度,C 为常数,n 为序列片段长度。初等代数告诉我们,如果 H 也是常数,以 上公式实际是一条斜率为 H 截距为 C 的直线,不过真实市场的 H 会是个常数么?

带着这个疑问,我按照上面公式对上证指数时间序列进行了测试:对于不同的片段长度 n,把对数化后的片段长度和对应的重标极差作为测量结果绘制到坐标纸上,它们居然真的都整齐排列在一条斜率为 0.61 的直线上!当时我想,这不是真的吧。

宽客网,量化投资,宽客俱乐部

布朗运动序列作为赫斯特指数的标准对照序列,H=0.5。计算赫斯特指数可以对时间序列进行分类:

1、H 在 0-0.5 之间,说明序列与布朗运动相比倾向于收敛,换句话说它具有一定的反趋势记忆,偏离均值之后更加可能向均值附近回归;

2、H 在 0.5 左右,说明序列接近布朗运动几乎没有记忆性,任何片段与另外片段之间没有统计上的关联;

3、H 在 0.5-1 之间,说明序列与布朗运动相比倾向于发散,换句话它说具有一定的趋势性记忆,偏离均值之后更加可能继续远离均值。

赫斯特用他发明的工具对形形色色的现象进行对比,包括河水流量、降雨量、太阳黑子、气候温度等等,发现其中很多都存在类似尼罗河流量的趋势性记忆。

(来源:《这就是运气》第四章:测量市场的记忆性作者:笨笨老猫)