国际标准刊号:ISSN1672-9544 国内统一刊号:CN21-1520/F 邮发代号:8-166 投稿邮箱:dfczyj@vip.163.com
工作研究您所在的位置:首页>>工作研究>>文章内容
降成本政策的文本分析——基于文本相似度计算原理
时间:2020/4/29 15:52:29    来源:地方财政研究2020年03期      作者:王志刚 谢恺 朱慧

王志刚    慧/中国财政科学研究院

 

    内容提要近年来,根据国务院的相关部署,我国各地开启了降成本工作,本文基于初步构建的文本数据库和文本相似度计算原理,对中央和省级层面降成本政策的文本进行梳理和分析,从政策文本角度较全面的展示了降成本工作的进展和效果。分析发现,现有降成本政策偏重于降低制度性交易成本和降低税费负担,中央政策重减税、地方政策重降费。各类降制度性交易成本的制度文件产生了切实的效果,制度改革力度大的地方,减少行政审批时间效果显著。此外,本文还就中央和省级政策文本相似度进行分析,为地方政府政策执行力度和因地制宜程度提供了一个新的观察角度。

    关键词:降成本  政府政策  文本相似度

 

    20168月,国务院印发《降低实体经济企业成本工作方案》(国发〔201648号),对开展降低实体经济企业成本工作作出全面部署,主要目标任务是经过1-2年努力,降低实体经济企业成本工作取得初步成效,3年左右使实体经济企业综合成本合理下降,盈利能力较为明显增强。如今三年时间过去,为了配合对降成本工作实施效果的评估,有必要对降成本政策进行系统梳理,以做到有的放矢。为系统、全面地对降成本政策进行梳理,本文初步构建了降成本政策文本数据库,全面涵盖2016-2018年各中央部委和各省市[1]发布的降成本相关政策,并运用文本相似度计算原理,从中央和地方、不同政策类别、不同地区(即东部、中部、西部和东北)三个维度对政策出台情况进行了统计分析。其中, 降成本政策可以分为综合类[2]、制度性交易成本类、税费负担成本类、融资成本类、物流成本类、用能成本类、用工成本类、用地成本类等类型[3]

一、关于文本相似度计算原理

文本相似度计算主要是指通过算法计算两个文本实例之间距离远近的方法,这些文本实例既可以是简单的字、词、句子,也可以是包含众多语句的文档。文本相似度计算的目标可以分为两种:词汇相似度和语义相似度,分别对应文档的结构相似性和内涵相似性。词汇相似度计算又可以分为词项相似度和文本相似度计算,前者主要测量词汇对应的字符串之间的距离,主要用于拼写检查和文本矫正器等方向;后者主要用于比较文本的相似程度和文本聚类等方向。本文主要讨论词汇相似度计算方法的实现,具体来讲是计算词汇相似度。

1.几个概念

1)词袋模型

词袋模型是最简单而又有效的从文档中提取特征值的技术,模型的本质是把文档转化为向量。具体来说,就是把语料库(要分析的所有文档的集合)中所有出现的词项一一列出,以每篇文档中各个词项出现的频率作为其权重,以此将每篇文档转化为向量表示。

2TF-IDF模型

词袋模型的一个缺陷就是在文档中出现次数较多的词项会对出现次数不如这些词项多但依然有效的词项造成影响,TF-IDF模型可以解决这种问题。TF-IDF模型由两个度量组合而成,tf指词频,数学表达为 ,表示 词项在 文档中的频率。idf指逆文档频率,是每个词项文档频率的逆,由语料库中所有文档的总数除以包含某个词项的文档的个数,并将结果用对数变换比例,为避免除数为0的错误在分母中加1,同时对整体加1表示至少有一个文档中包含该词项,数学表示为:

其中, 表示单词 的逆文档频率, 表示语料库中文档的总数, 表示包含词项 的文档的个数。TF-IDF模型用tfidf的乘积归一化后的结果表示某个单词的特征向量,数学表示为:

其中, 表示 矩阵的欧几里得L2范数。

3)余弦距离

将任意两个词项用非零向量表示,在欧式空间内两者夹角越接近零度则表示两向量在相同方向上彼此越接近,用夹角的余弦值表示 ;两向量夹角越接近180度则两者越相反,用夹角的余弦值表示 ;两向量夹角呈90度则两者不相关,用夹角的余弦值表示 。基于词袋模型构建的向量,词项频率不会小于0,因此正常取值范围在01之间。于是,我们根据向量之间的角度余弦值就可以表示两个词项之间的距离。用数学表达可以表示为:

 

2.文本相似度计算的原理

厘清以上几个概念之后我们下面对文本相似度计算的原理加以说明,需要注意的是,文本相似度的度量方法有余弦相似度、海灵格-巴塔恰亚距离、Okapi BM25排名等许多方法,本文着重讨论最为普遍的余弦相似度的计算。

具体计算方法是,首先用词袋模型将语料库中每个文档里的所有词项进行处理,每篇文档形成一个向量;然后用TF-IDF模型计算出向量中每个词项的逆文档频率,用其代替词袋模型中的词频;最后计算想要比较的目标文档的向量与语料库中每个向量的余弦距离,得出目标文档和语料库中每个文档的相似度。

3.政策文本相似度分析的具体实现

本次政策文本相似度分析的具体实现方法如下:首先,收集中央和各地方针对降成本政策的文本,将其进行预处理后,去除空格、标点符号、英文字母等无效词项,同时对“之”“了”“的”“然而”“所以”等无具体含义的停用词进行筛除(本次使用的停用词版本是《哈工大停用词表》)。其次,对每篇降成本文档进行切词(即自动划分词项),对每个词项应用词袋模型建立文档向量,再运用TF-IDF模型进行逆文档频率替代,建立TF-IDF文档向量。然后,将所有地方政策文档向量组合成语料库向量空间。最后,用目标文档(中央政策文档)向量对向量空间进行比对,计算出目标文档向量与向量空间中每一个向量之间的距离,即中央将成本政策文档与每个地方降成本政策文档的相似度。

    二、中央层面降成本政策分析

201512月中央经济工作会议将降成本列为2016年经济工作五大任务之一开始,中央部委纷纷出台降成本政策,打出了降低制度性交易成本、降低税费负担、降低融资成本、降低物流成本等在内的一套政策组合拳2016-2018年,中央层面相继发布了30件、28件和41降成本政策,为地方具体开展降成本工作提供了全面指导。考察2016-2018年中央各类降成本政策发文数(见图1),呈现出如下特征:一是降低制度性交易成本及降低税费负担一直是历年降成本的重点,也是企业成本负担的痛点所在。同时,降低税费负担类成本政策自2017年起发文数超过降低制度性交易成本类政策,发文数在各类降成本政策中稳居第一,并在2018年远超其余各类降成本政策,占2018年总发文数的51%,其重要性不言而喻。降低制度性交易成本和税费负担成本是短期政策可以灵活调整的领域,因此发文多也是正常现象。二是降低物流成本、降低融资成本、降低用能成本各年发文数保持稳定,在3-6件左右。降低用工成本、降低用地成本每年1件左右的发文数,数量相对较少。物流、融资、用能、用工、用地这些多涉及到要素市场改革,短期政策可以缓解,但是要从根本上解决还要靠长期的市场化改革,这就需要大的系统性制度创新。

1  2016-2018年中央各类降成本政策发文数(件)

 

    三、地方层面降成本政策分析

1.地方整体降成本政策的文本结构分析

2018年,全国31省市共计发文221件,3省市中有16个省市发布综合性降成本政策文件,其中重庆市发布2项降成本文件。31省市均发布降低制度性交易成本类政策文件,覆盖率达100%,合计共发文157件,具体降低制度性交易成本举措包括推进证照分离、进一步压缩企业开办时间、推进互联网+政务服务、推行多证合一等。降低税费负担类成本文件仅2018年一年中央发文21件,而地方层面发文8件。主要原因是这类政策多是中央来制定,地方主要是执行;地方层面发文内容多围绕清理规范涉企收费,减税层面多是中央对降低税率、减免税、相关费用加计扣除的相关规定。用能成本、物流成本、融资成本方面,各地也相应发布了各具特色、各有侧重的政策。其中,用能成本多围绕降低一般工商业电价、推进电力市场化交易方面;从加快现代物流产业发展及推进物流降本增效角度降低物流成本;降低融资成本以银行业为主体,加大金融支持实体经济尤其是小微企业发展。31省市各类降成本政策的文本结构如图2所示,最多的降成本政策指向降低制度性交易成本,占比为71%,其次是降低用能成本,占比为8.1%

2  201831省市各类降成本政策发文数占比(单位:%

 

    2.2018年不同区域降成本政策文本结构分析

按照统计局的分类,将我国31省市划为东部地区、中部地区、西部地区及东北地区,各地区2018降成本政策发文数总数及各省市平均发文数如图3所示。2018年,31省市针对降成本工作任务共计发文221件,其中东部地区发文最多为95件,西部地区、中部地区、东北地区发文数依次为71件、40件和15件。从各地区内部省均发文数看来,东部地区省均发文数较高,平均各省市2018年发文9.5件,东北地区省均发文数最低为5件。各地区间发文数及省均发文数差距较大,东部最多体现了东部地区降成本改革的力度较大。

3  各地区2018降成本政策发文情况(单位:件)

 

下面我们分结构看不同类降成本政策的区域分布。

一是综合类降成本政策。31省市中共有16个省市对此发文,对2018年各项降成本政策作出统一部署。相应的,共有15个省市未发布综合类文件,其中,东部地区仅北京市未发文,中部地区山西省未有发文,西部地区中内蒙古、宁夏、青海、四川、广西、贵州、西藏、陕西、新疆、甘肃未有发文,东北地区中黑龙江未有发文(见图4)

4  各地区省均综合类政策发文数(单位:件)

 

    二是分类降成本政策。从各类降成本政策文件看来(见图5-9),东部地区在降低制度性交易成本、降低物流成本、降低用能成本方面发文数较为领先,但其并未针对降低税费负担专门发文。中部地区在降低税费负担方面发文数较多。西部地区在降低物流成本、降低税费负担方面发文数及工作部署有所不足。东北地区除了在降低制度性交易成本方面省均发文数较高,三省市共发文15件,其余各类成本发文数均较少,且在降低用能成本、降低税费负担方面东北三省均未单独发文。从各地区内部降成本重点看来,降低制度性交易成本的省均发文数较高,也反映出各地政府积极落实中央放管服改革,政府自我改革力度较大。政策文本的数量分布差异,背后反映的是地方对各类降成本改革的紧迫程度不一,影响因素较为复杂。

5  各地区地区省均降低制度性交易成本类政策发文数(单位:件)

6  各地区省均降低税费负担类政策发文数(单位:件)

7  各地区省均降低融资成本类政策发文数(单位:件)

8  各地区省均降低物流成本类政策发文数(件)

9  各地区省均降低用能成本类政策发文数(单位:件)

 

    各类降成本的制度文件到底会产生那些效果,我们以营商环境类政策为例,以相关政策文件数量代表制度改革力度指标,效果指标用企业行政审批最短时间,结果发现二者有显著的负相关关系[4],随着政府出台各类营商环境类政策落地,那些制度改革力度大的地方企业办事效率越高,行政审批时间用时越短(见图10)。

10  营商环境类政策文件数量与行政审批最短平均用时的相关图

 

3.文本相似度分析

我们利用整理的2018年地方降成本政策文本数据库,以国家发改委出台的文件为基准,对已经明确出台降成本文件的16个省份进行政策文本相似度分析。所谓文本相似度分析是指通过计算机算法计算两个文本实例之间距离远近的方法。本文采用余弦相似度算法实现词汇相似度的计算,具体计算方法是:首先用词袋模型将语料库(16个省份的政策文本)中每个文档里的所有词项进行处理,每篇文档形成一个词频向量;然后通过TF-IDF模型计算出向量中每个词项的逆文档频率,用以代替词袋模型中的词频;最后计算查询文档(国家发改委出台的文件)向量与语料库(16个省份的政策文本)中每个向量的余弦距离,得出查询文档和语料库中每个文档的相似度。需要说明的是文本相似度高与低并不代表地方推进降成本力度高与低,只是反映各省根据本省具体情况对国家发改委文件做出的文本性调整幅度。如图11所示,相似度最高的是河南省(18.8%),最低是浙江(1.54%)。

 

11  2018年部分省份降成本政策的相似度地图(%

 

    四、小结

对于企业成本的调整涉及多个领域,改革的时效性也有所不同,降低制度性交易成本和税费负担成本是短期政策可以灵活调整的领域,而物流、融资、用能、用工、用地这些多涉及到要素市场改革,推进的难度大,要从根本上解决还要靠各类市场化改革,因而当前降成本政策多以降低制度性交易成本和税费负担成本为主。

由于中央和地方政府分工重点不同,发文重点也略有差异。中央层面出台的降成本政策主要以降低税费负担为主,侧重减税,地方层面则以清理规范涉企收费为主,侧重降费。从各地区内部省份降成本重点看来,降低制度性交易成本的省均发文数较高,也反映出各地政府落实中央放管服改革,政府自我改革力度较大。同时各地对不同类降成本政策诉求不同,反映出各类成本降低的迫切性不一,背后的原因有待进一步挖掘。

各类降成本的制度文件产生了切实的效果,以营商环境为例,随着政府出台各类营商环境类政策落地,那些制度改革力度大的地方企业办事效率越高,行政审批时间用时越短。而针对不同地区降成本配套政策的落实情况,虽然文本相似度高低不能代表地方推进降成本力度高与低,只是反映地方根据本省具体情况做出的文本性调整幅度,这种调整幅度的不同源于各地政策执行力度的高与低,抑或是各地因地制宜的创新程度不同,还有待进一步观察,但文本相似度分析提供了一个新的观察角度。

 

参考文献:

1〕刘尚希,王志刚,程瑜,韩晓明,施文泼.应对高成本发展阶段的新思路:从政策驱动转向创新驱动[J/OL].财政研究,2019(12):1-8.

2〕刘尚希,王志刚,程瑜,韩晓明,施文泼.降成本:2019年的调查与分析[J].财政研究,2019(11):3-16.

3〕刘尚希,傅志华,封北麟.分类施策降成本[J].中国金融,2018(04):71-73.

4()韦斯·麦金尼(Wes McKinney)著;徐敬一译.利用Python进行数据分析[M].北京:机械工业出版社,2019(6):87-122.

5()马克·卢茨(Mark Lutz)著;秦鹤,林明译.Python学习手册:原书第5[M].北京:机械工业出版社,2018(8):444-467.

6()迪潘简· 撒卡尔(Dipanjan Sarkar)著;闫龙川,高德荃,李君婷译.Python文本分析[M].北京:机械工业出版社,2018(3)124-158.

7()卢茨(Lutz,M.)著;邹晓等译.Python编程:第4[M].北京:中国电力出版社,2015(1):1299-1339.

8〕中国政府网.国务院印发《降低实体经济企业成本工作方案》[EB/OL].http://www.gov.cn/xinwen/2016-08/22/content_5101342.htm,2016-08-22.


 

地址:沈阳市皇姑区北陵大街45-13号 邮编:110032 电话:024-22706630
辽ICP备06001706
你是本站第5241647访客