龙空技术网

多图解读三大股票指数 沪深300、中证500、中证1000有何细节差异

JoinQuant 聚宽 469

前言:

当前兄弟们对“anplt能组成什么单词”大体比较珍视,大家都需要剖析一些“anplt能组成什么单词”的相关知识。那么小编也在网络上网罗了一些有关“anplt能组成什么单词””的相关内容,希望大家能喜欢,朋友们一起来了解一下吧!

指数分类的标准有很多,比如说按市场分、按投资标的分、按指数代表性分。从代表性来分类的话,一般可以分为有三类:综合指数、宽基指数、窄基指数。

综合指数是指成分股包含所有上市的股票,以反映全市场的状况,最典型的就是我们所熟知的上证指数、深证指数,其是观察市场整体走势的一个重要指标。我们国内的中证指数公司,就是专门构建各类指数,为投资者提供新的分析工具和投资标的。

今天的文章就集中在对于沪深 300、中证 500、中证 1000指数的量化解读方面,既然是量化,那么可视化必须是其中很重要一个组成部分,我们的文章会提供数据调取和可视化代码,供各位更好理解指数构成以及特性。

一、综合走势与波动率

>>> 沪深300指数

它以规模和流动性作为选样的两个根本标准,并赋予流动性更大的权重,符合该指数定位于交易指数的特点。300 指数反映的是流动性强和规模大的代表性股票的股价的综合变动,可以给投资者提供权威的投资方向,也便于投资者进行跟踪和进行投资组合,保证了指数的稳定性、代表性和可操作性。

>>> 中证500指数

该指数又称中证小盘 500 指数(CSI Smallcap 500 index),简称中证 500(CSI 500),上海行情代码为 000905,深圳行情代码为 399905。中证 500 指数有 3 个构建步骤。

步骤1. 样本空间内股票扣除沪深300指数样本股即最近一年日均总市值排名前300名的股票;

步骤2. 将步骤1中剩余股票按照最近一年(新股为上市以来)的日均成交金额由高到低排名,剔除排名后20%的股票;

步骤3. 将步骤2中剩余股票按照日均总市值由高到低进行排名,选取排名在前500名的股票作为中证500指数样本股。

>>> 中证1000指数

根据金融界网站提供的资料,中证 1000 指数编制方法采用较为普遍的自由流通市值加权法,指数成分股从全部A股中剔除沪深 300、中证 500 指数成分股后,结合流动性标准选取过去一年日均总市值最大的 1000 只股票,综合反映中国 A 股市场中小市值公司的股票价格表现,是中证核心市值指数体系的重要组成部分。

我们通过聚宽研究平台,首先构建一个 list 名单“index_list”,然后通过 get_price 函数调取数据,然后将数据处理成净值,绘制出来,得到以下效果:

我们定日期 2019-04-18 为截止日期,向前推 1000 天,发现最近 4 年来,表现最差的其实是中证 1000 指数,说明了在市场长期价值筛选中,小盘股出现了显著的估值下滑和资金流出。而之前大家对于小盘股的印象则是高波动率和高回报率。

上图就是三大指数的波动率情况,还是同一个时间段,我们使用移动窗口标准差,再除以该窗口期内的价格均值,去价格量纲得到这个曲线,通过研究平台文件我们输出波动率具体值为:

000852.XSHG 0.034911000905.XSHG 0.030969000300.XSHG 0.023826

这表示 000852.XSHG 中证 1000 指数在全段时间的波动率是最高的,通过蓝线也可以清晰看出。而沪深 300 由于大盘股较多,波动率偏低,中证 500 居中。

这三大指数之间有何种相关关系呢?实际上从走势看,它们毕竟都属于中国股票市场,应该非常相关,我们抱着这个疑问,绘制了全段价格相关性和全段波动率相关性,试图寻找答案。

绘制相关性矩阵需要导入 seaborn 包,其 heatmap 函数就是专门用于热力标色的矩阵图绘制的。分析结果显示,三大指数的走势相关性并不十分高,特别是沪深 300 和中证 1000 差异最大。而波动率相关性分析则体现出更高的结果,说明在出现较大波动时刻,指数的共振还是很明显的,这表现出较高的系统性风险。

二、指数成分股市值特性分析

我们进入所有聚宽的老用户们最熟悉的 get_fundamentals 函数,通过调取 valuation.code、valuation.market_cap 这两项数值,获得股票代码和市值数据,并打印前5行,获得以下效果:

然后我们分别绘制了沪深 300、中证 500、中证 1000 的市值分布,得到以下效果:

我们得到一个直观上很显著的统计特性——中证 1000 的分布最为均匀,首尾差异较小,沪深 300 的市值分布很不均匀,有部分股票市值极大。

通过绘制直方图,可以看到指数成分股(以沪深 300 为例)的市值分布情况:

这里显示出仅有少量样本分布在市值极大的区间,而大部分有统计意义的样本集中在市值 1000 亿元左右的区间。这样的数据分布形态很容易扭曲均值的表达能力,所以针对这类样本,我们应该多用中位数而非均值表达整体特征。

接下来我们使用 4 个简单的统计指标完成对沪深 300 为例的指数的特性描述,分别是:均值、中位数、标准差、极差。

# 均值market_cap_mean_50 = mean(list(df_50.market_cap))# 中位数market_cap_median_50 = median(list(df_50.market_cap))# 标准差market_cap_std_50 = std(list(df_50.market_cap))# 极差market_cap_ptp_50 = ptp(list(df_50.market_cap))

经过计算得到:沪深300样本的成分股市值

均值:979.8816889999999

中位数:381.9389

标准差:2070.650186717265

极差:18721.7925

依然是围绕市值,我们分引入箱体图Boxplot,它是一种表示数据分布的方法,一个基本的箱体图从上到下分别表示最大值,上四分位,均值,下四分位,最小值。有的箱体图中还会加入异常值等。

箱体图有以下几个优点:

1. 可以直观明了地识别数据中的异常值

2. 利用箱体图可以判断数据的偏态和尾重

3. 利用箱体图可以比较不同批次的数据形状

通过python的pandas包提供的boxplot()函数即可绘制得到效果。

通过分析三大指数的箱体图,我们看到沪深 300 的样本离群情况最为严重,箱体图主体部分(25%分位到75%分位)被离群点严重压缩。中证 500 表现较好,离群点并不很多。中证 1000 也包含了部分市值较大的股票,主要原因是从 100 亿元到 300 亿元的某些股票可能由于市值上升过快,没能及时被编制更新到中证 500 指数中。

了解一个指数的行业构成也非常关键,我们可以看到其成分股是否在行业方面有过度集中。通过聚宽提供的 get_industry 函数可以获得行业数据。

具体代码为:

industry = get_industry(list(df_50.code))stock_dict={}for stock in industry.keys(): try: # 取到每个股票的【申万一级】行业名称 stock_dict[stock] = industry[stock]['sw_l1']['industry_name'] except: pass

然后我们导入 import matplotlib.pyplot as plt,通过其 pie 函数,可以实现对饼图的绘制。

代码如下:

tt = DFindustry.groupby(['industry_name']).size()tt1 = list(tt.index.values)tt2 = list(tt.values)labels = tt1fracs = tt2plt.figure(figsize=(10,8))plt.axes(aspect=1) # set this , Figure is round, otherwise it is an ellipseplt.pie(x=fracs, labels=labels, explode=None,autopct='%3.1f %%',shadow=True)plt.title('成分股行业分布饼图')plt.show()

上图显示的是中证1000指数的行业分布,我们还辅助计算了分布的均匀性,得到结论:

行业数量:28

平均个股数量:35.714285714285715

个股数量标准差:23.84452189685916

个股分布变异系数:0.6676466131120564

结论显示中证 1000 指数在各行业分布均匀,平均每个行业 35 只个股。如果到了沪深 300 领域,这个分布情况发生了如下变化:

可以看到,银行和非银金融占据了非常大的比重,资产较重的交通运输、化工、有色金属和房地产也有较大提升。说明了沪深 300 指数对于金融行业的风险暴露比较大。这里仅展示了上市公司家数分布,如果按照市值展示,情况会更加显著。

我们还可以深入到指数内部去挖掘一个因子——两两相关系数平均值,并通过 for 循环,实现对于每个日期截面的该因子值计算。

程序设计方面,首先通过 get_trade_days 获得一个日期序列,用于循环。然后通过 get_price 提取 20 日价格 DataFrame,再通过 corr().mean().mean() 实现相关系数计算、每个标的相关系数、均值的均值,获得每个日期截面一个值。我们将指数净值化处理,和这个指标绘制在一起,可以看到如图效果:

指数成分股两两相关性均值是一个风险指标,当该值达到较高区间时,说明成分股同向波动显著,一般是市场极度活跃的区间。统计绘图和计算,我们得到:

中证1000:0.36256388612173046

中证500:0.36003023746871143

沪深300:0.3196961076040989

说明指数内部,随着股票数量的增加特别是高 beta 股票的增加,这种风险更加加剧。本次我们仅展示部分简单的统计指标计算,核心都是通过图形化方式,解读指数内部特征,希望读者们也能补充思路,进一步挖掘指数特性,在深刻熟悉指数构成的基础上,即可熟悉alpha因子的挖掘。

标签: #anplt能组成什么单词