基于因子分析和聚类分析的北交所股票投资价值研究
发布日期:2024-12-11 浏览量:85
北京证券交易所(简称“北交所”),于2021年9月3日注册成立,是经国务院批准设立的中国第一家公司制证券交易所,11月15日,北交所正式开市。截至2021年12月11日,北交所共有82只股票上市。北交所和沪深板块最大的不同在于服务对象,北交所主要服务于“专精特新”的中小企业,突出“更早、更小、更新”的特点。北交所的设立相当于为中小企业单独开辟了一块成长的土壤,吸引资本助力他们走向成熟。
从北交所上市股票的行业分布来看,根据GICS行业分类,工业和信息技术“两开花”,原材料和医疗保健紧随其上;根据证监会行业分类,“制造业为王”,其次为信息传输和软件行业、科学研究和技术服务业,展现出了“更新”的特色。
从北交所上市公司的规模来看,以占比最高的制造业、信息传输、软件和信息技术服务业为代表,超过75%的制造业公司员工人数小于1000人,60%左右的信息技术服务业员工人数小于300人。按照工信部的划分标准,大多数公司均属于中小企业,突出了北交所服务对象“更小”的特征。
图片
图1-3 制造业与信息传输、软件和信息技术服务业员工人数箱线图
从北交所上市公司的注册地分布来看,江苏、北京、广东领跑,分别是13家、11家、10家,其次为山东、安徽和四川,分别是7家、5家、4家。可以看出,我国发展势头较强的中小企业集中在京津冀、长三角和珠三角地区。
图1-4 北交所上市公司注册地分布图
与此同时,北交所将涨跌幅扩大至30%并且加快了退市节奏,投资者面临的风险不容小觑。不同的投资者有着不同的风险偏好,部分投资者属于稳健型,部分投资者属于激进型,部分投资者手中握有的流动资金较多。本案例的研究目的是以北交所股票为核心,通过将股票划分成不同的类别并归纳它们的特征,为不同类型的投资者提供一些建议。
数据介绍与处理
本案例的数据来源于财汇金融大数据终端,选取了常用的9个行情指标与10个公司基本面指标进行分析。由于部分指标存在缺失,去除缺失值后,最终选取66只股票进行后续分析。
行情指标包括股票均价、最高价、最低价、振幅、换手率、周涨跌幅等反映股票交易情况的指标。由于行情指标随时处于波动状态,除周涨跌幅外,本案例统一选取12月6日至12月11日的日行情指标并计算其平均值作为各项行情指标的取值。
由于股票价格变动较小,所以关于价格的五个指标取值差异均较小。以均价为代表,北交所66只股票的均价分布在4.58元至152.35元之间,价格差异较大。虽然均价最大值取到152.35元,但均价大于30元的股票仅有5只,即北交所大部分股票价格较低。此外,换手率取值范围为0.16到3.77,这说明北交所整体交易不算特别活跃,交易风格较为温和。
公司基本面指标包括总资产报酬率、流动比率、资产负债率、总资产同比增长率等反映公司财务与经营状况的常用指标。由于北交所11月才正式开市,大多数公司仅披露了2021年第三季度的财报,故公司基本面指标对应的报告期均为2021年第三季度,具体指标如表所示。
其中,总资产报酬率和净资产收益率衡量的是借助公司现有资本可以创造多大的利润。销售毛利率和销售净利率衡量的是公司的主营业务可以创造多大比例的利润。流动比率、速动比率、资产负债率都可以理解为负债除以资产,衡量的是一个公司的偿债能力。其中,流动比率、速动比率越大,代表偿债能力越高,而资产负债率越小代表偿债能力越高。总资产同比增长率和净资产同比增长率相当于报告期内增加的资产占原来资产的比例,用于衡量一个公司资产的扩张情况。存货周转率衡量的是存货的周转速度,存货周转率越高,表明企业存货资产变现能力越强,存货及占用在存货上的资金周转速度越快。
表2-2 公司基本面指标表
为了对不同用户进行股票推荐,本案例考虑使用聚类模型。然而,由于变量之间存在高度相关,不利于直接进行聚类,因此,在聚类前先使用因子分析对数据进行降维。
图3-1 数据相关系数图
在对数据进行标准化后,进行Bartlett检验,发现其p值小于0.0001,说明可以对数据进行因子分析;再对数据进行KMO检验,得到的KMO值为0.65,说明变量之间的确存在一定的相关性,可以用因子分析提取出公共因子。
接下来,利用碎石法得出最佳因子个数,使用各因子的特征根绘制碎石图。由碎石图可知,共有5个因子的特征根大于1,因此初步选取因子数量为5。
由下表可知,当选取五个因子时,特征根累计占比达到了73.68%,说明因子数量的选取有一定的合理性。
最后,本文使用正交旋转法进行旋转,得到了最终的因子载荷矩阵。为便于得到结论,本文将因子载荷矩阵取绝对值后,对其绘制热力图,从而得到每一个因子的特征。
结合因子载荷绝对值热力图与因子载荷本身值的正负,对各个因子命名如下:
(1)因子1——价格因子
因子1在均价、最高价、最低价、开盘价、收盘价等价格变量上载荷较高,且均为正值,可以反映股票在价格上的表现。因此,本文将其命名为价格因子。
(2)因子2——偿债因子
因子2在流动比率、速动比率、资产负债率上载荷较高,流动比率和速度比率可以反映公司在短期内的偿债能力,资产负债率可以反映公司在长期的偿债能力。因此,本文将其命名为偿债因子。
(3)因子3——盈利因子
因子3在总资产报酬率、净资产收益率和销售净利率上载荷较高。总资产报酬率和净资产收益率正向反映了公司在资产上的盈利情况,销售净利率正向反映了公司在销售上的盈利情况。因此,本文将其命名为盈利因子。
(4)因子4——成长因子
因子4在总资产同比增长率、净资产同比增长率上载荷较高。总资产同比增长率和净资产同比增长率均正向反映了公司在成长方面的表现。因此,本文将其命名为成长因子。
(5)因子5——交易因子
因子5在换手率、成交量、振幅上载荷较高。换手率和成交量均正向反映了股票在交易上的表现,而振幅也与交易表现有一定的相关性。因此,本文将其命名为交易因子。
04
聚类分析
在对每只股票的因子得分通过标准化消除量纲影响后,进行K-means聚类分析。本文利用各个簇内的样本点到所在簇质心的距离平方和(SSE)作为性能度量,该值越小则说明各个类簇越收敛。因此绘制了如下所示的类似“碎石图”的图形寻找拐点,即最优k值。
图片
图4-1 K-means手肘图
在k为4时,上图出现变缓趋势。因此决定将股票分为4类,建立模型后,可得到各类股票得分的中心。
表4-1 不同种类股票因子得分
图片
接下来,本文将各类股票的中心用“最大最小标准化”方法转化为取值在1-5之间的得分。为了突出地体现每类特征,绘制各类中心得分雷达图。
图片
图4-2 K-means聚类中心雷达图
由上图可知,类别1股票在成长因子和交易因子上表现优异,说明其成长能力强且交易活跃,因此,将其命名为“潜力新星股”;类别2股票在价格因子上明显高于其它股票,其盈利因子、交易因子也均排名第一,说明这类股票价格高、盈利能力强且交易活跃,将其命名为“豪门高价股”;类别3股票在偿债因子上表现显著优于其它类别的股票,在盈利因子、交易因子上表现较好,说明其具有较强的偿债能力,公司经营较为稳定,将其命名为“成熟稳重股”;类别4股票在各因子上表现均较为普通,将其命名为“平平无奇股”。
最后,本文对各类型股票进行计数,可以发现大多数股票都属于“平平无奇股”,只有少数股票有自己的突出优势,这也符合股市中大部分股票都较为平庸、只有少数股票能脱颖而出的现状,说明聚类结果有一定的合理性。







