2016年
财会月刊(21期)
改革与发展
制造业上市公司财务预警体系的构建及比较——基于数据挖掘技术

作  者
王 艺1,姚正海2(教授)

作者单位
江苏师范大学商学院,江苏徐州221116

摘  要

     【摘要】本文以2015年A 股制造业上市公司为研究对象,选取反映企业偿债能力、经营能力等六个方面的27个指标构建预警指标体系,并运用T值显著性检验和因子分析法对预警指标进行约简。在此基础上,本文利用Logistic回归、决策树和 BP神经网络分别构建财务预警模型,并对各个模型的优缺点及预测结果进行比较分析。研究结果表明:随着ST发生时间的临近,预警准确率总体呈上升趋势;从中长期来看,决策树和 BP神经网络模型的预测能力优于Logistic回归模型;从短期来看,三种模型的预测能力没有显著差异。
【关键词】财务预警;因子分析;Logistic回归;决策树;BP神经网络
【中图分类号】F224           【文献标识码】A           【文章编号】1004-0994(2016)21-0049-7一、引言
随着国际经济一体化的步伐加快,上市公司在把握改革和发展机遇的同时,也面临着更加激烈的竞争和更大的风险。多数企业往往面临的是生存问题,然后才是发展问题。因此,企业有必要建立财务预警系统,在危机到来之前向企业经营者发出警告,把危机消灭在萌芽状态。但是,如何从企业经营管理产生的大量业务数据中挖掘出对企业财务危机有预警作用的信息呢?这是上市公司亟待解决的一个重要问题。数据挖掘技术的不断发展和成熟运用正好解决了这一问题,它能够从企业大量的业务数据中提取并高度自动化地分析数据,进而帮助决策者做出正确的决策。
本文以制造业上市公司为研究对象,利用传统的Logistic回归方法及数据挖掘技术中常用于预测模型的决策树和 BP神经网络分别构建财务预警模型,并对不同预测模型的优缺点以及预测结果进行比较分析,以期为制造业上市公司提供切实可行的财务预警方法。
二、文献综述
(一)财务危机的界定
国外的研究通常将财务危机定义为破产,如 Altman(1968)、Tzong-Huei Lin(2009)、Jia-Jane Shuai(2005)。国内对于财务危机的界定绝大多数以被ST 为标准。这主要是由于我国特殊的国情,上市公司鲜有破产者,如果以此作为危机的标准,难以获取样本数据。对此,不少学者提出了质疑,吴兴泽(2011)认为,被特别处理不能等同于财务危机,公司被ST只是公司经营不善的一个信号。本文认为,在现有以财务指标对财务危机进行预警研究的大框架下,使用ST和非ST作为区分财务危机样本与非财务危机样本的标准也未尝不可。因为,无论被ST还是破产,都是企业希望避免的。
(二)财务预警模型研究现状
用于建立财务预警模型的方法可分为两大类:统计分析方法和数据挖掘技术。Altman(1968)最早将多元线性判别方法引入财务风险预警领域创立了Z值模型,预测准确率高达95%。但是,Z值模型要求预警变量符合联合正态分布,而现实中大多数企业的财务指标难以满足这一要求。为克服这一缺陷,以Ohlson(1980)为代表的学者提出采用Logistic回归判别方法来提高财务风险的预警能力。
国内学者陈静(1999)最先致力于财务困境预测的研究,为考察国外的预测模型是否能够有效地应用于国内市场,文章同时建立了一元判定模型和多元线性判定模型。吴世农、卢贤义(2001)分别使用单变量判定模型、多元线性判定模型和Logistic回归分析三种方法建立预测模型,结果发现Logistic回归模型的误判率最低,在前一年仅为6.47%。
随着数据挖掘技术的发展,部分学者开始把知识发现类数据挖掘技术应用到财务预警领域。 例如,Wilson 和 Sharda(1994)运用神经网络模型对意大利企业的财务危机进行判断,准确率高达97%。马若微(2005)运用粗糙集与信息熵原理分行业建立了上市公司财务困境模型,并将现金流量指标引入预警模型。姚靠华、蒋艳辉(2005)应用决策树技术建立了中国上市公司的财务风险预警系统,结果表明该模型具有较好的预测性。李艳玲、宋喜莲(2014)在Z-SCORE财务预警模型的基础上,利用数据挖掘时序分析方法,对预测结果进行数据分析,结果表明该方法的判断正确率达到80%。
张亮、张玲玲(2015)引入信息融合技术对不同数据挖掘方法得到的结果进行融合处理,发现该方法下的预测准确率要高于单独的支持向量机和Logistic回归两种方法。
综观国内外研究成果,在构建财务预警模型的过程中,还存在以下两方面的问题:①在选取样本上没有划分行业。由于我国市场经济的区域和行业发展并不平衡,各行业的市场竞争程度存在差异,各类企业的会计处理方法和会计政策选择也不同,因此建立财务预警模型应区别行业的类型分别进行研究。②建模方法单一。国内的研究大部分使用的是传统统计分析方法,近年来也有学者致力于将数据挖掘技术引入财务预警领域,但是鲜有学者利用传统统计分析方法与数据挖掘技术同时建模。
为了克服以上缺陷,本文以制造业上市公司为研究对象,利用传统的Logistic 回归方法及数据挖掘技术中常用于预测模型的决策树和 BP神经网络分别构建财务预警模型,以期为公司提供最优的财务预警方法。
三、研究样本与财务预警指标体系构建
(一)研究样本
1. 数据样本的选取。本文选取2015年A 股中制造业上市公司为研究对象。之所以选择制造业,是因为截至2015年12月,全部A股上市公司中制造业上市公司占公司总数的63.2%,据此建立的财务预警模型适用范围较广。本文在原始样本的基础上,剔除因其他状况异常被特别处理的公司和前五年数据缺失的上市公司,最终得到39家被ST公司和922家正常公司。
2. 时间跨度的选择。为了从中长期和短期的角度全面探讨预警模型的预测能力,本文在选择预警时段时,将样本数据的收集时间延伸至公司被ST的前5年,定义上市公司被 ST 当年为T年。根据我国上市公司信息披露制度,ST公司发生财务危机的实际年份应该是其被ST的前一年。可见,用T-1 年的财务数据来预测 T 年是否发生财务危机没有实践价值。因此,本文最终确定的数据时间跨度为 T-6年至T-2年,即利用2009 ~ 2013年的数据对公司2015年是否会被特别处理进行预测。
(二)财务预警指标体系的建立
为全面反映企业的财务状况,本文选取了反映企业偿债能力、经营能力、盈利能力、现金流水平、风险水平及发展能力这六个方面的 27个指标构建初始预警指标体系,具体如表1所示。
四、制造业上市公司财务预警的实证检验
(一)财务预警指标体系的约简
1. 制造业上市公司财务预警指标的显著性检验。本文通过T值显著性检验,分析被特别处理的公司与正常公司之间各年度财务指标的平均值是否存在显著差异,进而对所选择的财务预测指标进行筛选。T检验建立的原假设(H0)为:被ST公司与正常公司在该财务指标上没有差别。各预测年度T检验结果如表2所示:
当P值(Sig.)显示为0.000或小于0.05时,检验结果有统计学意义,统计结论为按α=0.05的标准拒绝原假设,即被ST公司与正常公司在该财务指标上存在显著性差异。
(1)总体来看,被ST 公司与正常公司在 T-6年至T-2 年分别有11、12、13、16、15个财务指标有显著差异。可见,随着距离上市公司被特别处理的时间临近,具有显著性差异的预测指标数量呈上升趋势。有四项指标在五个预测年度均没有通过显著性检验,表明这四项预测指标在两类公司之间始终没有差异,分别为:X4(利息保障倍数)、X7(应收账款周转率)、X9(流动资产周转率)、X27(每股净资产增长率)。因此,将这四项指标从预测指标体系中剔除。
(2)在偿债能力方面,ST公司短期和长期偿债能力明显不如非 ST 公司,尤其是反映短期偿债能力的流动比率和速动比率,连续五年低于非ST公司。在经营能力方面,存货周转率在发生财务危机的早期并没有表现出差异,而是在公司被ST处理的前两年出现异常。在盈利能力方面,ST公司的盈利能力相对较差。综合性比较强的资产报酬率和净资产收益率两个指标表现尤为明显。在现金流方面,除距离被ST处理时间最长的T-6年(2009年),其余四年ST 公司现金流动性均低于非 ST 公司。在风险水平方面,除T-3年(2012年),其余各年反映风险水平的财务指标均没有明显差异。因此,将风险水平纳入预警指标体系,可能并不具有理论上的可行。在发展能力方面,除净利润增长率外,其余预测指标均在多个年度存在显著差异,说明发展能力不足是上市公司被特别处理的重要影响因素。
基于以上分析,本文剔除了五年中均没有显著差异的指标和反映风险水平的指标,最终保留X1、X2、X3、X5、X6、X8、X10、X11、X12、X13、X14、X15、X17、X18、X19、X23、X25、X26共计18个预测指标作为进一步分析的变量。
2. 因子分析提取模型自变量。经过显著性检验,本文保留了18个预测指标。但是这些指标间存在较强的相关关系,如果直接作为自变量纳入模型,不但模型复杂,还会因为变量间存在的多重共线性而引起较大的误差。因此考虑利用因子分析法提取变量信息,减少分析维度,使问题更加简单直观。
(1)确定变量结构是否适合应用因子分析法。本文采用KMO检验和Bartlett球形检验来判断变量结构是否适合采用因子分析法。各年度检验结果如表3所示:

 

 

 


由Bartlett球形检验可以看出,P值(Sig.)均小于0.05,说明变量间具有较强的相关性。但是KMO统计量均小于0.7,说明各变量间信息重叠程度可能不是特别高,仍然值得尝试。综合以上两种检验结果,可认为本文的变量结构适合运用因子分析法。
(2)确定公因子。以样本公司T-2年(2013年)的数据为例,运用主成分分析法,依据特征值大于1的原则,提取了6个公因子,6个主成分的累计方差贡献率达到67.11%,基本包含了全部测量指标所具有的主要信息。具体结果如表4所示:

 

 

 

 

提取公共因子的同时,可得到初始因子载荷矩阵。但初始因子模型的载荷矩阵往往难以对公因子做出合理的解释。此时,可以对初始因子载荷矩阵进行旋转,旋转后的因子载荷矩阵如表5所示。

 

 

 

 

 

 

 

 

 

 

为了使结果更清晰易懂,表格按照系数大小进行了排序,并且过小的系数(绝对值小于0.3)被抑制输出。由表5可以看出:公因子F1在指标营业净利率、资产报酬率、总资产净利润率上有较大的载荷,它们主要反映了上市公司的盈利能力,可以命名为盈利因子。同理,公因子F2至公因子F6可分别命名为短期偿债因子、发展因子、长期偿债因子、经营因子、现金流因子。提取结果表明,应用因子分析法所提取的公因子不仅包括原始的偿债、经营、盈利、现金流和发展能力五个方面,而且将偿债能力进一步区分为短期偿债能力和长期偿债能力。这样既降低了分析维度,又使得提取的信息含义更加清晰。
基于上述分析结果,可得到用来代替27个原始变量的6个新变量,即最终取F1(盈利因子)、F2(短期偿债因子)、F3(发展因子)、F4(长期偿债因子)、F5(经营因子)、F6(现金流因子)作为财务预警模型的自变量。
(二)预警模型分析
本文以样本公司是否为ST 公司为因变量,以因子分析模型提取的 6个公因子为自变量,以公司被特别处理前五年的数据为基础,利用Logistic回归、决策树和BP神经网络分别建模如下:
1. 二分类Logistic回归模型。
(1)模型拟合优度分析。Logistic模型可通过-2倍的对数似然值来表示模型的拟合效果,其值越小,说明模型的拟合效果越好。各个预测年度模型的拟合效果如表6所示。从模型的拟合优度来看,在T-5年至T-2年,-2 对数似然值越来越小,说明随着距离公司被ST的时间越短,Logistic模型的拟合效果越好。
Cox & Snell R2和Nagelkerke R2从不同的角度反映了当前模型中自变量解释的因变量变异占因变量总变异的比例,类似线性回归模型中的决定系数,从表6中可以看出,Cox & Snell R2和Nagelkerke R2值 T-2>T-3>T-4>T-5,说明在T-2年,自变量对因变量的解释能力最强。
(2)模型检验结果。模型检验结果如表7所示。
2. 基于C&RT算法的决策树模型。(1)模型的建立。C&RT是目前应用最广泛的决策树模型算法,适用于任意类型的变量。本文首先采用C&RT算法将样本公司分成多个亚群。以T-2年的数据为例,生成的决策树模型如图1所示:可见,根节点中ST公司所占比例为4%。模型的第一层是按照短期偿债因子进行拆分,拆分点为是否超过-4.07,短期偿债因子低于-4.07的上市公司,全部为ST公司,超过-4.07的余下公司中,ST公司占比下降为3.7%。以此类推,不断重复分枝,获得越来越纯的节点样本。利用决策树模型进行预测时,可归纳出希望预测的目标类别的特征属性。例如,节点1、节点6、节点7中ST公司占比均为100%,那么该节点即代表了ST类公司,沿着树的路径走回根节点,沿路所经过的节点的属性即为大多数 ST 公司所共有的属性。
(2)模型的预测结果。决策树模型的预测结果如表8所示:

 

 

 

 

 

 

3. BP神经网络模型。在结构上,神经网络包括输入层、输出层和隐含层:输入层的每个节点对应各预测变量,相当于统计学中的自变量;输出层节点对应目标变量,其信号强弱相当于因变量预测结果;在输入层和输出层之间是隐含层,相当于统计学中采用的统计模型(对神经网络使用者不可见)。信息由输入层向输出层不断传递,中间神经元根据某种不可知的准则不断调整对接收信号的处理方式,最终使输出层得到想要的信息。以T-2年(2013年)为例,图2为所建立的BP神经网络模型:

 

 

 

 

 


该模型输入层纳入了6个神经元,即因子分析提取的6个公因子,隐含层中包括了三个隐单元,相应的两分类因变量以两个节点的形式构成了输出层。图中相邻两个节点两两链接,连接线的粗细代表权重绝对值的大小,从图中可以看出,自变量F1、F3对模型的贡献明显比较大,并且通过隐含层的H(1∶1)节点和输出层的ST=0有较强的链接权重,这提示自变量F1、F3对应的盈利因子和发展因子在两类企业中区分度较大。
为防止过度拟合,本文按照7∶3的比例将总样本拆分成训练集和验证集,并重点关注验证集的预测结果。样本的预测分类结果如表9所示:

 

 


4. 模型评价。
(1)模型比较。由上述分析可知,Logistic 回归、决策树和BP神经网络在实际应用中各有优缺点,具体如表10所示:

 

 

 

 

 

 

 

 

从预测模型固有的优缺点来看,具体选择哪个模型要根据研究目的而定。如果研究目的是深入探讨企业发生财务危机的原因,可选择Logistic回归模型,自动筛选出对企业陷入财务困境有影响作用的自变量;如果研究目的是探讨发生财务危机企业共有的特征,可以考虑决策树模型,从目标类别所在节点,沿着树的路径走回根节点,沿路所经过的节点的属性即为大多数 ST 公司所共有的属性;如果企业只是想预测是否会发生财务危机这个结果,而不关心中间的过程,可以选择BP神经网络模型。
(2)模型预测结果对比分析。根据上述研究结果,可汇总三种模型预测的准确率,如表11所示:

 

 

 


整体来看,采用 Logistic 回归、决策树和BP神经网络构建的预警模型对ST发生前2 ~ 6年的数据进行财务预警具有一定的正确性,并且随着ST发生时间的临近,预警准确率呈上升趋势。
从各年预测准确率来看,基于数据挖掘技术的决策树和BP神经网络模型准确率要优于传统统计分析的 Logistic回归模型,尤其是在预测的早期。在T-6年,BP神经网络模型的准确率最高,为85%;其次是决策树模型,为76.3%;Logistic回归模型准确率最低,仅为70.1%。随着ST发生时间的临近,决策树和BP神经网络模型在准确率上的优势逐渐消退,在T-2年,甚至低于 Logistic回归模型的准确率。这说明BP神经网络和决策树方法适合应用于长期预警,Logistic回归则更适合应用于短期预警。
五、结论
本文以制造业上市公司为研究对象,利用Logistic 回归、决策树和 BP神经网络分别构建了财务预警模型,根据预测结果得出以下研究结论:
从适用范围来讲,Logistic回归模型适用于深入探讨企业发生财务危机的原因;决策树模型适用于研究发生财务危机企业共有的特征;BP神经网络模型适用于直接判断企业是否会发生财务危机。
从预测能力来看,决策树和 BP神经网络模型早期的预测能力优于Logistic回归模型,随着ST发生时间的临近,这种优势逐渐弱化。短期内,三种模型的预测能力不相上下,在企业被特别处理的前两年,三者准确率均在85%以上。
综上可知,Logistic回归、决策树和BP神经网络在判断制造业上市公司的财务状况方面,均具有一定的应用价值。企业在实际建立财务预警系统时,可根据预警模型的特点和本企业的预警偏好,选择合适的模型。

主要参考文献:
Altman E. I..Financial Ratios Discriminant Analysis and the Prediction of Corporate Bankruptcy[J].The Journal of Finance,1968(9).
Tzong-Huei Lin. A Cross Model Study of Corporate Financial Distress Prediction in Taiwan: Multiple Discriminant Analysis, Logit, Probit and Neural Networks Models[J]. Neurocomputing,2009(16).
Jia-Jane Shuai, Han-Lin Li. Using Rough Set and Worst Practice DEA in Business Failure Prediction[J].Lecture Notes in Computer Science,2005(10).
吴星泽.财务预警的非财务观[J].当代财经,2010(4).
Ohlson J. A..Financial Ratios and the Probabilistic Prediction of Bankruptcy[J].Journal of Accounting Research,1980(19).
陈静.上市公司财务恶化预测的实证分析[J].会计研究,1999(4).
吴世农,卢贤义.我国上市公司财务风险的预测模型研究[J].经济研究,2001(6).
Wilson R. L., Sharda R..Bankruptcy Prediction Using Neural Networks [J].Decision Support System,1994(11).
马若微.基于粗糙集与信息熵的上市公司财务困境警指标的确立[J].当代经济科学,2005(2).
姚靠华,蒋艳辉.基于决策树的财务预警[J].系统工程,2005(10).
李艳玲,宋喜莲.基于数据挖掘的上市公司财务危机预警研究[J].沈阳师范大学学报(自然科学版),2014(2).
张亮,张玲玲,陈懿冰,腾伟丽.基于信息融合的数据挖掘方法在公司财务预警中的应用[J].中国管理科学,2015(10).
王宗胜,尚娇娇.我国制造业上市公司财务困境预警分析[J].统计与决策,2015(3).