来源:金工宁王
证券分析师:黎鹏,执业证号:S1190519100002
详见报告《金融工程指数增强:基于主营构成的指数增强策略》
适当性声明
证券股份有限公司具有证券投资咨询业务资格,经营证券业务许可证编号
13480000
。
本报告信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证。
负责准备本报告以及撰写本报告的所有研究分析师或工作人员在此保证,本研究报告中关于任何发行商或证券所发表的观点均如实反映分析人员的个人观点。
报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价或询价。
我公司及其雇员对使用本报告及其内容所引发的任何直接或间接损失概不负责。
我公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行业务服务。
本报告版权归
太平洋证券股份有限公司所有,未经书面许可任何机构和个人不得以任何形式翻版、复制、刊登。
任何人使用本报告,视为同意以上声明。
策略观点
为了更细致的研究公司收入情况,本文对主营构成进行了相应分析。步骤如下:
基础数据的选取:万德主营构成(按行业)。该数据来自上市公司定期报告(年报、中报)附录中公布的主营构成数据,包括项目名称以及项目收入。
自然语言处理:因不同公司之间或者不同时期对同一项目的描述可能不一致,我们用jieba第三方库对项目名称进行关键词提取、相似度分析等,并最终将项目重新归类。
测算主营构成相关因子效果:主营收入分组增长率、主营集中度因子和主营相似度调整等。
相应结论如下:1)主营收入增长率(第一名)的分层能力最强,增加其他名次的主营类别反而令分层效果变差;2)主营增长和EPS增长背离的个股组合持续跑输基准;3)因为龙头股效应或者核心资产的缘故,主营业务集中度较高的个股组合更好;4)为了提升因子对比的有效性,我们计算了主营业务相似程度,成长类因子通过相似性正交化后的分层效果得到了较大幅度增强。
策略用相似性调整后的成长类因子、主营增长率和主营集中度因子对中证500指数进行指数增强。策略平均年超额收益为10%,信息比率为2,平均跟踪误差为4%,换手率为20%。
一、分析框架简介
不论基本面还是量化分析方法,对公司收入的研究都是重中之重,因为营收能力是公司未来价值比较直观的反映。为了对收入有更深入的了解,本文运用多因子体系对主营构成进行分析,同时测试主营业务集中度、主营业务相似度因子的选股效果。
我们认为主营构成分析有以下几点必要性:
主营收入的细化能提升公司间对比的准确性;
因子化主营收入能对主营风格进行持续的跟踪;
可衍生出收入相关因子,比如文本的主营业务集中度因子,或者主营收入增长因子,也可以通过相关调整增加因子的有效性。
(一) 数据获取
基础数据:万德主营构成(按行业)。该数据来自上市公司定期报告(年报、中报)附录中公布的主营构成数据,包括项目名称以及项目收入。我们选取排名前5的主营构成。由于公布项目名称经常发生变动,我们进而对项目名称做自然语言的相关处理.
(二) 自然语言处理
因为数据来源于报表附录,所以主营项目并没有较固定的分类,由此会导致不同公司之间或者不同时期对同一项目的描述不一致,也增加了分析的难度。比如房地产公司A的主要收入为房地产,公司B的为房地产业,公司C的为地产,我们认为这几项均应该归为同一类,所以我们要对主营业务做相应处理。主营业务重新归类的方法有两种:1)人工分类,不免带有主观判断的影响。例如,医药、医药制品、医药生产、医药销售是否纳入同一类,还是分为产品、生产、销售类。可见不同人有不同的分类方法,导致人工分类的可复制性较弱;2)自然语言处理,能从一定程度上减少主观影响,具有可复制性。但也存在分类准确性弱于人工分类的问题。但考虑到可复制性以及编程需要,本文使用第二种方法。处理步骤如下:
1) 关键词提取:获取词频较高的词语,比如房地产、房地产业、房地产开发里面的关键词“房地产”。关键词的提取分为两步:第一步分词,比如:房地产开发,分词后为房地产/开发。第二步词频统计,也就是统计词语出现的次数。本文使用python第三方的分词库jieba。我们可以使用Jieba.cut(str)对字符串进行分词,也可直接使用extract_tags或者textrank对关键词进行抽取和词频统计。Jieba还支持用户自定义词典(load_userdict函数),用户词库可用于对分词结果进行调整。
按照词频排序,我们可以获得出现频度最高的关键词。
2)相似度分析:为了将同义词归为同类,我们要分析关键词之间的相似度,并将相似度高的词用词频较高的关键词代替。比如房屋和房地产,我们均归类为房地产。我们使用近义词库包synonyms对词语做相似度处理。
通过关键词提取,选择词频最高的词组,词组相似性分析三个步骤最终将大部分主营收入归类于少数的几个大类。通过加总同一大类的收入情况,我们可对该大类收入进行分析和同类公司对比。
(三) 主营收入占比
单个股票在各大类下主营收入占比的计算:
例如,房地产收入占比 = 房地产收入加总/主营收入总额
物业管理费收入占比 = 物业管理费加总/主营收入总额
(四) 主营收入集中度
(五) 相关说明
主营收入的聚类是行业内部成分股之间的聚类。虽然行业内的成分股的相似程度并不一定很高,但总体上看分行业来进行主营收入聚类比全市场聚类直观上更加符合逻辑。由此,HHI主营业务集中度因子我们先用于行业内部股票的分层和行业内部的增强,然后形成相应指数的增强组合。
行业内的分析包括:主营业务聚类图,各收入占比,SHHI指标情况、分层效果、市值中性化后的因子收益、行业内因子之间的相关性、以及策略的净值和相关指标。
因子相关性我们选取了以下常用且市场关注度较高的相关风格因子。
因子化的方法我们采用多因子模型的标准流程:按照去极值、标准化、中性化、补空值、标准化的步骤进行预处理。考虑因子是否需要逐步回归,或者加入行业哑变量进行回归等问题。
所使用的行业分类:中信一级行业分类。
(一) 流程及统计
中信29个行业中每个行业的分析步骤都是相同的,因为篇幅原因我们以银行业为例。如下图所示,分析分为三个步骤:
主营收入分类:获取银行业的主营收入构成,通过自然语言分析,形成收入聚类图。从下图可见,银行业主营收入可归为利息收入以及非利息收入和其他收入三大类。
非利息收入 = 手续费及佣金净收入+汇兑净收益+投资净收益+其他业务净收益+公允价值变动净收益+联营企业和合营企业的投资收益
利息收入 = 个人贷款+公司贷款+发放贷款
计算各类收入占比 = 大类收入/营业总收入
计算和展示个股的主营收入集中度SHHI。
因为篇幅问题,详细分析将在行业报告中呈现。
三、指标整体效果及改进
通过分行业计算后,能获得个股相应的行业内因子值。本章将对因子效果做相关测试,并且做了以下几种尝试:
主营构成包括主营收入和主营成本,并且按照大小分为1-5名。我们可以测试主营收入、主营成本以及主营利润(主营收入-主营成本)增长率的分层效果,看看能否对成长相关的因子有所增强。
HHI主营业务的集中度因子体现公司的核心资产、创新能力或者业绩展示的规范性,也可能在股价上有所体现。
主营构成相似度分析:将收入因子按照主营业相似程度进行调整。虽然同行业公司的相似性会高于全市场选股,但是主营业务的差异仍然存在。我们希望相似度调整后的因子能增强原有因子的效果。
(三)主营业务集中度
通过分行业测算,我们可得单只个股在该行业中的主营业务集中度因子,我们分别在沪深300和中证500成分股中测试了HHI因子的效果,发现HHI因子在两个指数中均有一定的分层能力。并且HHI指标较高的组别能跑赢HHI较低的组别。并且超额收益较明显且稳定。
主营构成是报表附录项目并不用强制披露,我们对比了有披露的和没有披露的个股组合。可以发现披露了数据的个股组合能跑赢,并且在沪深300和中证500成分股中均表现出了类似特征。所以披露主营细分收入本身可以看成数据有效性的加分项。
(四)主营构成相似度
计算主营构成相似度的目的是为了进行主营相关的调整,通过相似度调整从而增强原有因子的选股能力。
我们考虑了几种相似度描述的方法:
考虑到各个相似性的特点,我们选择了杰卡德相似性以描述主营业务的相关性。主要原因有二:第一,聚类后的主营业务项不一定都存在。比如,银行业聚类后的收入为利息收入、非利息收入和其他项。但并不是每个银行都有非利息收入项,从而给对比带来难度。第二,数值敏感性较高的相似度计算方法可能会导致偏差。比如公司A的利息收入占比为90%,公司B的利息收入占比80%,公司C的利息收入为75%,数值敏感性较高的方法计算出来的公司A,B的相关系数会比较高。但是公司A剩下的10%为非利息收入,公司B的为其他收入,而公司C的是非利息收入。我们认为公司A和C的相关性应该更高。由此看来选择杰卡德相似性应该比较合理,因为主营收入项目的相似性可能更看重项目的0或1,而不是数值或者方向.
相似性计算步骤:
按行业选择频度最高的5大主营收入项目,比如房地产的房地产、物业管理、酒店、销售、其他;
生成个股的项目哑变量,比如A公司有房地产、物业管理和其他,则向量为(1,1,0,0,1), B公司有房地产、酒店和其他, 向量则为(1,0,1,0,1);
计算个股A和B之间的杰卡德相似性;
对原有因子进行增强。为了将主营业务相似性的影响去除,我们用多因子模型的方法,对原有因子和相似性做正交化处理。公式为,其中Fi为要增强的因子,Fj为杰卡德相关性,两者均做了因子预处理。μ为我们要测试的新因子。
(五)策略效果
通过以上测试我们发现:a)主营收入增长率(第一名)的分层能力最强;b)主营增长和EPS增长背离的个股组合持续跑输基准;c)因为龙头股效应或者核心资产的缘故,高主营业务集中度的个股组合更好;d)主营业务正交化后的成长因子得到了增强。
通过结合以上发现,我们建模了双增长策略,步骤如下:
股票池为中证500成分股,基准为中证500,加权方式为等权。
对EPS增长率因子做主营业务相似性调整,按照新因子排序,并且选择因子值最高1/3组别。
按照主营收入增长率(第一名)排序,选择增长率最高的1/2的个股。
从胜率上看,策略的年度胜率为100%,平均年度超额收益为9%,平均跟踪误差为4%,平均信息比率为2.0,相对最大回撤为3%,每次换手大约在20%左右。
需要进一步思考的问题:
1) 因为数据获取的难度较常规数据大,可能需要通过其他方法保证准确性。
2) 年报数据具有滞后性,虽然主营业务的变化应该不会太频繁,但数据时效性肯定不高。
五、风险提示
报告结论基于历史价格信息和统计规律,但二级市场受各种即时性政策影响易出现统计规律之外的走势,所以报告结论有可能无法正确预测市场发展,报告阅读者需审慎参考报告结论。
太平洋证券金融工程研究团队:徐玉宁、黎鹏、马自妍、王西之
往期报告