2.1.1 固定效应模型的选择
为了进行投资现金流敏感性分析,我们选用了清华大学中国金融数据库中心1990-2004年的全部股票数据。这是一个典型的面板数据(panel data)。面板数据也称为横截面时间序列数据(cross setional time series data),它实际上是横截面数据和时间序列数据的混合。由于这种混合特性,我们不能直接用普通最小二乘法(OLS)直接对面板数据进行分析。
面板数据的分析模型有两种基本类型,即固定效应模型(Fixed effects 模型)和随机效应模型(Random effects 模型)。
固定效应模型其含义是每个个体(横截面单元,比如本书中的每个上市公司)的截距不随时间变化,但它可能随个体的不同而变化。而模型的斜率系数不会随着个体或时间的变化而变化。由于我们使用虚拟变量对固定效应进行估计,所以固定效应模型也被称为最小二乘虚拟变量(LSDV)模型。
固定效应模型的缺点在于为了估计需要引入许多虚拟变量,会损失一些自由度。另外变量过多容易产生多重共线性(Collinearity)问题。
随机效应模型中假定误差项是单个截距对平均值的随机偏离。通常用广义最小二乘法(GLS)对其进行估计。这种模型假设误差项是从一个非常大的总体中提取的随机变量。
那么应该选取固定效应模型还是随机效应模型进行分析呢?
若T(面板数据所跨时间长度)较大而N(横截面单元的数量)较小,那么通过固定效应模型和随机效应模型估计的系数值之间可能没有什么差别。
当N较大而T较小时,两种估计方法的估计值会有显著差异。如果确信我们样本中个体或横截面单元不是从一个比较大的样本中随机取出的,那么固定效应模型有效(古扎拉蒂,2004)。
由于本节的样本数据是一个典型的N(公司数量)较大而T(时间跨度)较小的面板数据,而且所选取的样本公司是1996年前上市的全部公司,显然它不是从一个比较大的样本中随机取出的,因此本书采用固定效应模型进行分析。事实上,本书后面各回归模型经过Hausman检验,都适合采用固定效应模型。
2.1.2 投资现金流敏感性模型
采用FHP(1988)模型,我们希望分析中国上市公司总体的投资现金流敏感性,看看投资是否对反映内部现金流的变量敏感。此外还将按照不同的分组标准,分析不同类型上市公司投资敏感性的差异,并进一步分析这些不同企业是否面临不同的融资约束。
其中各个β系数和γ系数分别表示待估参数,U为扰动项。
之所以把固定资产投资和表示内部现金流的变量都除以年初固定资产存量(K),是为了消除可能产生的异方差性。因为数以百家的上市公司,在固定资产投资规模以及内部现金流规模上存在很大的差异,因而在回归模型的估计中容易产生异方差性的问题,影响回归系数的估计精确度。设置年度虚拟变量是为了刻画上市公司在固定资产投资方面的整体性波动。
为了进行中国上市公司投资现金流敏感性的总体分析,首先需要构筑一个平衡型面板数据。为了获取尽可能多的观测数据,同时保证面板数据的时间跨度有一定长度,我们选取1996年前上市的A股公司,并剔除那些在2004年前退市的企业,以及有过多缺失数据的企业,得到487家A股上市公司。进行本项研究所用的数据处理软件为SAS9.1和STATA8.0.
为了采用滞后变量进行分析,我们最后得到一个1997-2004年的面板数据。
2.1.3 面板数据
先看看这个面板数据的描述统计。
就收入而言,这些企业的平均规模为11.1亿。平均的总资产规模为18.4亿。平均的投资对资本存量比例为0.256.
由于中国上市公司1998年才开始公布现金流量表,所以在这个面板数据中,CFK的观测比其他变量要少。注意到CFK的最小值是-1129.087,这对于模型的估计有不利影响。剔除小于-10的极端值后,CFK的平均值提高到0.238.在此后的回归分析中,我们将经常剔除CFK的极端值,以确保得到更加可靠的估计结果。此外INK、WCK等变量也存在类似的极端值,为确保得到更加可靠的估计,我们也将在今后的回归分析中剔除。
此外,我们还对将要进入回归模型的主要解释变量进行相关性分析,结果如下:
为了避免由于自变量之间存在相关性而导致的多重共线性问题,我们在今后的分析中,避免把不同的内部现金流变量同时作为自变量进行回归。