中文版 | English
题名

基于聚类算法的股票因子相似性分析

其他题名
CLUSTERING BASED SIMILARITY ANALISIS OF STOCK FACTORS
姓名
姓名拼音
TIAN Yi
学号
12232985
学位类型
硕士
学位专业
0251 金融
学科门类/专业学位类别
02 经济学
导师
王新杰
导师单位
商学院
论文答辩日期
2024-05-16
论文提交日期
2024-07-03
学位授予单位
南方科技大学
学位授予地点
深圳
摘要

因子模型是资产定价研究领域中一个重要的分支,本文使用基于t分布的随机邻域嵌入法(T-SNE)和多种其他聚类算法对股票因子的相似性进行分析。基于t分布的随机邻域嵌入(t-SNE)是一种非线性的数据降维方法,在自然科学领域已被广泛使用,并取得很好的效果。

对中国股票市场的研究中发现了诸多解释性较强的定价因子,本文总结了其中60余个,并对这些因子多空组合的日度收益率数据进行聚类分析。本文利用t-SNE的聚类算法,将60多个因子多空组合聚为8个类别,参考股票因子研究中的分类命名以及聚类结果表现出的聚类特征,对8个因子聚类命名,包括:盈利、投资、波动性和动量四个Barra因子类别,以及本文根据实际聚类特征总结的四个类别:发展、资产流动性、业务和其他。为保证结果的稳健性本文使用了线性主成分分析、以余弦函数为核函数的主成分分析和谱方法分别对收益率数据进行降维及可视化,并且对比了K近邻算法的聚类结果,对比结果显示本文聚类结果均好于上述几种对比方法的聚类和降维结果。

此外,本文基于t-SNE的聚类的结果,对各个类别的性质进行了分析。首先,本文分析了各个类别前三个主成分对类内特征收益率序列的解释力度;其次,本文将各类别内因子收益率回归到类别第一主成分,分析主成分对类内因子收率的解释力度;最后,将所有因子收益率序列分别回归到全部类别的第一主成分进行解释,对比对应类别第一主成分和全部类别第一主成分在解释因子收益率上的差异。回归分析结果再次印证了T-SNE聚类结果的稳健性。

特征数量多、特征维度高以及无标签是金融资产定价和投资研究重要特点,本文希望通过对股票特征的聚类为金融投资和资产定价研究带来新的角度。

关键词
语种
中文
培养类别
独立培养
入学年份
2022
学位授予年份
2024-07
参考文献列表

[1] Asness C S , Moskowitz T J , Pedersen L H .Value and Momentum Everywhere[J].Journal of Finance, 2013, 68(3):929-985.DOI:10.1111/jofi.12021.
[2] Belkin M , Niyogi P .Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering[J].Advances in Neural Information Processing Systems, 2001, 14(6):585-591.
[3] Bybee L , Kelly B T , Manela A ,et al.The Structure of Economic News[J].NBER Working Papers, 2020.
[4] 蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学, 2008, 35(7):5.DOI:10.3969/j.issn.1002-137X.2008.07.004.
[5] 陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报, 2008(1):11.DOI:10.3724/SP.J.1001.2008.00062.
[6] 陈家宁.我国互联网上市公司财务状况的主成分聚类分析[J].时代金融, 2018(14):1.DOI:CNKI:SUN:YNJR.0.2018-14-177.
[7] 陈信元,陈冬华,朱红军,等.净资产、剩余收益与市场定价:会计信息的价值相关性[C]//2001中国会计与财务问题国际研讨会.2001.
[8] Donoho D L , Grimes C .Hessian eigenmaps: Locally linear embedding techniques for high-dimensional data[J].Proceedings of the National Academy of Sciences of the United States of America, 2003, 100(10).DOI:10.1073/pnas.1031596100.
[9] Fraley C , Raftery A E .Model-Based Clustering, Discriminant Analysis, and Density Estimation[J].Publications of the American Statistical Association, 2002, 97(458):611-631.DOI:10.2307/3085676.
[10] Feng G , Giglio S .Taming the Factor Zoo[J].SSRN Electronic Journal, 2017.DOI:10.2139/ssrn.2934020.
[11] 冯超.K-means聚类算法的研究[D].大连理工大学,2007.DOI:10.7666/d.y1226557.
[12] 冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报, 2008, 37(1):7.DOI:CNKI:SUN:ZGKD.0.2008-01-022.
[13] Greengard P , Liu Y , Steinerberger S ,et al. Factor Clustering with t-SNE[J].SSRN Electronic Journal, 2020.DOI:10.2139/ssrn.3696027.
[14] Greengard P , Liu Y , Steinerberger S ,et al. Factor Clustering with t-SNE[J].Social Science Electronic Publishing
[2024-02-27].DOI:10.2139/ssrn.3696027.
[15] Gu S , Kelly B , Xiu D .Empirical Asset Pricing via Machine Learning[J].Review of Financial Studies, 2020, 33.DOI:10.1093/rfs/hhaa009.
[16] Goetzmann, W.N., Ingersoll, J.E., Jr. and Ross, S.A. (2003), High-Water Marks and Hedge Fund Management Contracts. The Journal of Finance, 58: 1685-1718.
[17] Hinton G , Roweis S .Stochastic Neighbor Embedding[J].Advances in neural information processing system,2023,15(4):833-840.DOI:doi:10.1109/TSMCB.2011.2 106208.
[18] 贺玲,蔡益朝,杨征.高维数据聚类方法综述[J].计算机应用研究, 2010(1):5.DOI:10.3969/j.issn.1001-3695.2010.01.006.
[19] 黄波,李湛,顾孟迪.基于风险偏好资产定价模型的公司特质风险研究[J].管理世界, 2006(11):9.DOI:CNKI:SUN:GLSJ.0.2006-11-014.
[20] 黄峰,杨朝军.流动性风险与股票定价:来自我国股市的经验证据[J].管理世界, 2007(5):11.DOI:10.1016/j.inoche.2006.08.015.
[21] 金金,吴亚坤,罗素平,等.基于全局主成分和聚类分析法的中药上市企业竞争力动态研究[J].中草药, 2019(11):7.DOI:10.7501/j.issn.0253-2670.2019.11.036.
[22] 靳云汇,刘霖.中国股票市场CAPM的实证研究[J].金融研究, 2001(7):10.DOI:CNKI:SUN:JRYJ.0.2001-07-013.
[23] Kobak D , Linderman G , Steinerberger S ,et al. Heavy-tailed kernels reveal a finer cluster structure in t-SNE visualisations[J]. 2019.DOI:10.1007/978-3-030-46150-8_8.
[24] Kozak S , Nagel S , Santosh S .Shrinking the cross-section[J].Journal of Financial Economics, 2020, 135.DOI:10.1016/j.jfineco.2019.06.008.
[25] Laurens V D M , Hinton G .Visualizing Data using t-SNE[J].Journal of Machine Learning Research, 2008, 9(2605):2579-2605.
[26] Liu J , Stambaugh R F , Yuan Y .Size and Value in China[J]. Journal of Financial Economics, Volume 134, Issue 1, 2019, Pages 48-69, ISSN 0304-405X
[27] Leippold M, Wang Q, Zhou W. Machine learning in the Chinese stock market[J]. Journal of Financial Economics, 2021(1).DOI:10.1016/j.jfineco.2021.08.017.
[28] 楼润平,孙鹏,毛彧.中国互联网境外上市公司的聚类、回归与演化分析[J].统计与信息论坛, 2017, 32(12):8.DOI:10.3969/j.issn.1007-3116.2017.12.010.
[29] Lu Z Q J .The Elements of Statistical Learning: Data Mining, Inference, and Prediction[J].世界图书出版公司, 2008.DOI:10.1007/978-0-387-21606-5.
[30] 马瑞,王家廞,宋亦旭. 基于局部线性嵌入(LLE)非线性降维的多流形学习[J].清华大学学报:自然科学版, 2008, 48(4):4.DOI:10.3321/j.issn:1000-0054.2008.04.034.
[31] Maaten L V D , Postma E , Herik J V D .Dimensionality reduction: A comparative review[J].Review Literature & Arts of the Americas, 2009, 10(1).
[32] Shaham U , Steinerberger S .Stochastic Neighbor Embedding separates well-separated clusters[J]. 2017.DOI:10.48550/arXiv.1702.02670.
[33] 宋枫溪,高秀梅,刘树海,等.统计模式识别中的维数削减与低损降维[J].计算机学报, 2005, 28(11):8.DOI:10.3321/j.issn:0254-4164.2005.11.019.
[34] 宋军,吴冲锋.金融资产定价异常现象研究综述及其对新资产定价理论的启示[C]//经济学(季刊)第7卷第2期.CNKI, 2008:323-352.DOI:CNKI:SUN:JJXU.0.2008-02-016.
[35] Stephen J. Brown, William N. Goetzmann, Mutual fund styles, Journal of Financial Economics, Volume 43, Issue 3, 1997, Pages 373-399, ISSN 0304-405X.
[36] 谭璐.高维数据的降维理论及应用[J].国防科学技术大学, 2005.DOI:10.7666/d.y789484.
[37] Tibshirani R , Hastie W T .Estimating the number of clusters in a data set via the gap statistic[J].Journal of the Royal Statistical Society B, 2001, 63(2):411-423.DOI:10.1111/1467-9868.00293.
[38] 万欣荣,蒋少戈,朱红磊.我国股票收益影响因素的定价模型实证研究[J].金融研究, 2005(12):11.DOI:CNKI:SUN:JRYJ.0.2005-12-007.
[39] 王开军.基于降维的聚类可视化技术[J].福建师范大学学报:自然科学版, 2011, 27(4):6.DOI:CNKI:SUN:FJSZ.0.2011-04-011.
[40] 王茵田,朱英姿.中国股票市场风险溢价研究[J].金融研究, 2011(7):15.DOI:CNKI:SUN:JRYJ.0.2011-07-014.
[41] Yang Y , Zhao S Y, Zhang Y, Wang X J. Open Source Asset Pricing for Chinese Stocks [J].Working Papers, 2023.
[42] 尹峻松,肖健,周宗潭,等.非线性流形学习方法的分析与应用[J].自然科学进展, 2007, 17(8):11.DOI:10.3321/j.issn:1002-008x.2007.08.003.
[43] 仪垂林,黄兴旺,王能民,等.中国证券市场的三因素模型分析[J].南京经济学院学报, 2001(5):5.DOI:CNKI:SUN:NJJJ.0.2001-05-012.
[44] 余肖生,周宁,张芳芳.高维数据可视化方法研究[J]. 情报科学,2007,25(1):117-120. DOI:10.3969/j.issn.1007-7634.2007.01.024.
[45] 赵凌潇.基于流形的半监督分类方法研究[D].浙江大学,2011.DOI:CNKI:CDMD:1.2010.059148.
[46] 张振跃,查宏远.线性低秩逼近与非线性降维[J].中国科学:A辑, 2005, 35(3):13.DOI:CNKI:SUN:JAXK.0.2005-03-004.
[47] 郑振龙,汤文玉.波动率风险及风险价格——来自中国A股市场的证据[J].金融研究, 2011(4):15.DOI:CNKI:SUN:JRYJ.0.2011-04-013.
[48] 邹小芃,黄峰,杨朝军.流动性风险、投资者流动性需求与资产定价[J].管理科学学报, 2009, 12(6):11.DOI:10.3321/j.issn:1007-9807.2009.06.015.

所在学位评定分委会
金融
国内图书分类号
F830.5
来源库
人工提交
成果类型学位论文
条目标识符http://sustech.caswiz.com/handle/2SGJ60CL/778883
专题商学院_金融系
推荐引用方式
GB/T 7714
田益. 基于聚类算法的股票因子相似性分析[D]. 深圳. 南方科技大学,2024.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可 操作
12232985-田益-金融系.pdf(3982KB)----限制开放--请求全文
个性服务
原文链接
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
导出为Excel格式
导出为Csv格式
Altmetrics Score
谷歌学术
谷歌学术中相似的文章
[田益]的文章
百度学术
百度学术中相似的文章
[田益]的文章
必应学术
必应学术中相似的文章
[田益]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
[发表评论/异议/意见]
暂无评论

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。