辽宁省国家税务局
内容提要:制定整体的大数据开发应用战略是实现税收现代化的必由之路。本文借鉴国际国内公共部门及企业的大数据应用先进经验,对现阶段国税系统的数据量、数据分类和数据特点加以归纳,对主要工作职责和管理流程进行梳理,在此基础上,构建国税系统近期可行的、成体系的大数据开发应用规划框架。
关键词:国税系统 大数据 开发与应用
一、引言
大数据这个术语现已为多数人所熟知,但探求一个明确简短的定义却不容易。《大数据时代》中给出的大数据定义是指,“不用随机分析法这样的捷径,而采用所有数据的方法” [①]。英国圣安德鲁斯大学的Jonathan Stuart Ward 和 Adam Barke(2013)对大数据的概念进行了专题研究,对诸多定义进行提炼后认为:该术语描述使用一系列技术,如非关系型数据库、并行编程技术和机器学习(但并不局限于此)来存储和分析大型或复杂数据集。并且指出所有的大数据定义至少包含如下两点或一点共性:1.规模:数据集的量是一个主要因素。2.复杂性:数据集的结构、表现方式和交织是一个主要因素。3.技术:用来处理数量众多或复杂的数据集的工具和技术是一个主要因素。
和其他生产要素相比,数据有非排他性的特点,容易实现共享,并且使用越多越增值。因此世界各国政府和企业都对大数据开发应用的必然性和重要性有清醒的认识,如美国政府将大数据开发应用上升至竞争性要素的战略高度,2010年《规划数字化的未来:美国总统科学技术顾问委员会给总统和国会的报告》指出:“联邦政府的每一个机构和部门,都需要制定一个应对‘大数据’的战略。”未来的发展趋势是大数据技术将替代目前的信息管理技术;先进组织机构的战略规划和战术运作中,分析决策将更快更准确;不适应大数据要求的架构方法、基础结构和软硬件都将提前退出历史舞台。后信息时代的最大特点是创新,基于信息的创新将成为经济的先导。
为保证公共服务目标实现、缴付准确性和促进遵从,机器学习、数据挖掘与公共部门的结合越来越紧密。本文通过借鉴国际国内公共部门及企业大数据开发应用的先进经验,从技术角度对国税系统现阶段可利用的数据信息进行梳理,根据主要工作任务和流程,为制定近期可行的成体系的大数据开发应用规划进行初步探索。
二、国税系统主要数据信息概览
借鉴国外大数据开发应用经验,从数据挖掘技术角度对国税系统目前可开发利用的主要数据源进行数量统计、分类、总结数据特点,为国税系统大数据开发应用奠定基础。
(一)数据量
国税系统是数据密集型政府部门。我们选择2013年某省国税系统主要数据进行数量统计,通过下表可窥见一斑。仅2013年12月当月,全省综合征管系统录入的税收业务就达483万笔。随着经济发展,税收业务量将呈持续增加态势。
表1 2013年某省国税系统主要数据量 | |
数 据 项 目 |
数 据 量 |
正常营业户数 |
72.48万 |
应申报户次 |
800.43万 |
缴税总户数 |
47.19万 |
申报应入库税款 |
1342.04亿元 |
出口退税 |
112.96亿元 |
本年新欠税款 |
13.53亿元 |
发票发售 |
2501.89万份 |
稽查检查纳税人户/次 |
6131户 |
面向纳税人的办税服务场所 |
630个 |
12366纳税服务热线来电 |
29.61万件 |
互联网在线纳税服务访问量 |
1986.8万次 |
税务短信息平台用户 |
6.06万 |
期末全省税收电子数据 |
12.5TB[②] |
数据来源:《某省国家税务局关于2013年度税源与税收征管状况监控分析报告》、税收会统报表、信息中心和纳税服务处。 |
(二)主要数据分类
从大数据开发应用的技术角度来看,国税系统主要数据可分为以下11类:
1.纳税人统计资料及状态信息:记录纳税人统计信息及其状态,比如纳税人登记信息、税种信息和地址变更历史。
2.申报和缴税数据:各税种申报数据;企业财务报表信息;纳税人发票使用情况、核定、认定管理信息及管理过程,还包括纳税人减免税;出口退税;典型调查和稽查审计数据。
3.纳税人路线数据:纳税人使用政府服务历史和细节,如申报数量、时间、在哪个机关或税务所申请和认定。
4.行为数据:关于谁(可能有多个税务干部);处理的行为类型(如地址变更);在何处(如税务所);什么时间(日期和时间);什么原因(如得到了资料来源);结果是什么(欠税产生或偿还)的行为记录。
5.介质使用数据:记录(税务干部联系纳税人或纳税人使用)介质使用情况,信函;电话或是网上服务。
6.政策执行信息:政策信息,即在特定情况下对某些纳税人适用的政策执行情况。
7.服务记录数据:纳税人使用服务的日常记录,如新登记注册、新申请、代开发票、12366咨询政策情况。
8.服务质量数据:记录服务质量和表现,比如申报录入错误及其分布、纳税人平均排队时长、纳税人满意度。
9.纳税人与工作人员之间,不同部门工作人员之间的交流信息,比如纳税人呼叫纳税服务中心询问发票更新情况。
10.资源和基础设施日常工作消耗数据,比如用在发票销售上的人工数量和时长。
11.工作绩效:衡量工作成本和资源使用绩效,比如稽查查补1元税款的平均成本,旨在解决问题(比如发现和修补异常情况)的提示短信的有效性。
(三)数据特点
国税系统的数据呈现如下特点:数量大;结构多样,如数值、逻辑、文本型、离散和连续型、临时和序列型;分布广:数据来源于办税服务厅、网络、数据中心,纳税人分布在全省各地;时间持续长;多维度:行为、数据、政策等多类型数据混杂;多来源:信息记录分散,任何一个单独的数据源都不可能提供全景图片;时间上分散,如纳税人使用电话服务间隔不定;不均衡,如逃税偶发;质量参差:缺失或重复数据;时常变化;相互关联。以上国税系统的数据特点也决定了数据挖掘的难点较多。
三、大数据背景下国税部门的主要职责梳理
国税部门的主要职责是依据税收法律法规的规定征收和管理税收。对国税部门职责可以用多种方法加以区分,本文采用一种国际通用的分类方法,把税收管理流程分为主要或基本任务和辅助程序。主要任务来源于税务部门的核心任务、职业准则、既定目标、遵从风险管理以及执行税收管理政策。主要任务包括以下8个方面:
1.纳税人登记,包括发现不登记和错误登记的纳税人。纳税人登记管理可以分为三项基本功能:注册、更新和注销。
2.处理申报、代扣代缴和第三方信息。主要流程包括数据收集:从纳税人、第三方以及其他信息源收集与纳税人相关的财务数据并进行汇集、处理;登记与管理;提炼数据:使信息可用于课税和征收程序;提供数据:向其他政府机构和纳税人提供纳税人的有效信息。
3.对于收到信息(包括审计活动信息)的准确性和完整性进行核实或评估检查。主要包括对应纳、预缴税款的评估、产生评估告知书和缴款书等凭据和催报等工作。
4.税款征收和欠税清缴工作。税款征收包含两个方面。第一,征收部门检查账户和各种税款支付手段,也负责核实应税销售额(通过税收磁盘、税票、印章的文件等);第二,征收部门负责采取所有必要的手段,从未能自动履行纳税义务的纳税人取得应纳税款。
5.处理税务管理方面的起诉和投诉。纳税人不同意一项税收评估时提出复议申请,税务稽查人员在法定时限内对复议做出裁决,审理结束后,把结论以书面形式反馈给纳税人。
6.为纳税人提供服务和帮助。税务部门致力于与纳税人建立并维持良好的关系,并促进纳税人在可能和必要的时候履行其义务。税务行政程序应当以纳税人友好的风格设计,易于理解并以低成本使用。当纳税人与税务部门往来时,税务部门向其提供信息、帮助和指导,告知他们有关的权利和义务。服务提供应当根据纳税人需求以及特定纳税人量身打造,并且对纳税人和税务部门都是最具成本效益的。
7.发现和处罚税收欺诈。纳税人故意并且有时候连续地进行欺骗活动。通过一系列审计技术和方法,专业化的稽查部门负责发现并调查税收欺诈,并对不遵从行为作出调整原始申报表和其它法律制裁决定。风险管理和风险分析可以使审计程序的效率和效用最优化。
8.国际税收管理,即跨国公司税收管理和国际税收情报交换。
在主要工作任务和流程之外,税务部门还运行辅助程序。这些辅助程序使得税务部门能够实施主要任务,包括财务、人力资源、信息与自动化,以及科研与发展。主要职责部门和辅助工作流程都是产生前述国税系统主要数据信息的基础部门和源头。
四、数据驱动的大数据开发与应用规划框架
为国税系统及其各个职能部门制定整体的大数据开发应用战略,是实现税收现代化的必由之路。它是在现有数据基础上,开发数据潜藏价值,使之服务于实现组织收入、促进自愿遵从等组织目标的手段,同时为应对大数据时代的挑战提供经验,为开拓大数据开发应用的未来之路做好准备。在这里,我们界定国税系统数据挖掘的主要作用包括:分析税收收入的增减原因及趋势;深入理解纳税人行为和纳税人-国税系统交互信息;研究纳税人统计信息和行为、税收政策、优化决策、纳税人反馈等多因素之间的关系等。
(一)大数据开发应用的主要目标
国税系统由数据驱动的主要开发应用目标有五项:
1.以收入为中心的分析。由于税收收入对国家预算编制和执行具有决定性作用,组织收入是国税系统的主要职责,因此成为数据挖掘的主要目标之一,包括税收收入在不同纳税群体和不同行业间的分布,增减变化的原因和结果及预测;收入随经济发展而变化的历史及规律。此外,还包括总体和分税种的税式支出分析、收入与理论税基之间的一致性分析和税收流失分析。以收入为中心的分析能够帮助我们明晰实际税源,厘清理论税基,预测收入变化趋势,减少税收流失,并使纳税服务有的放矢。
2.以纳税人为中心的分析。目标是深入理解由纳税人原因产生的税收流失或不遵从,以及这些纳税人不遵从的原因和指示性信息。原因可能与纳税人的组织形式、关联交易行为、收入以及这些因素的变化有关。此外,还包括纳税人不遵从的进化和变化规律。以纳税人为中心的分析能够为我们了解、掌握纳税人缴纳税款情况提供证明、指示和观察信息。另外,其它目标还包括风险定级、纳税人服务提醒等。
3.以政策为中心的分析。试图深入理解哪些政策与收入和不遵从有关以及相关原因、政策的暗示,从而认定导致不遵从或与之相关的政策和政策变化,阻止税收流失和欠税发生,动态管理纳税人。
4.以流程为中心的分析。帮助深入理解哪些流程或流程变化与不遵从有关、原因及其暗示。通过分析流程、不遵从和纳税人之间的关系,税务人员可以深入理解怎样优化流程或流程变化,以使不遵从最小化。
5.以欺诈为中心的分析。分析税收欺诈是否发生,在何处发生,为什么,是怎样发生和发展的。如增值税欺诈、扣除欺诈、申报欺诈、内部职工欺诈,结果用来帮助税务稽查提高效率、阻止和预防税收欺诈。
(二)基于纳税服务部门的大数据开发与应用
纳税服务的目的是促进自愿遵从,并减少纳税人与税务部门之间的对抗程度。纳税服务“始于纳税人需求,基于纳税人满意,终于纳税人遵从”的理念是至关重要的。把纳税人视为“客户”,从而在向纳税人提供服务时按照客户的逻辑行事,决定了纳税服务部门可从私有部门和企业借鉴之处最多。本文以纳税服务部门为例对国税系统的关键职责提出建议,并基于国内外政府和企业的先进管理经验及市场营销理论,结合目前国税系统可利用的数据提出数据开发应用方案。
通过调查发现,2013年全省纳税人对国税系统工作的满意度有了新的提升,具体体现在:服务观念从表面走向深入,服务形式从随意走向规范,信息化水平不断提高,申报方式从单一走向多样,缴款方式从复杂走向便捷,咨询方式从一方独揽向市场化推进等。但是,也要清醒地认识到在工作中还存在某些不足和问题,比如缺乏服务信息采集和分析手段,无法实现集中处理,难以满足纳税人个性化需求和对纳税人及服务质效实施精细化管理和分析;各个服务信息化平台间互动不畅;纳税服务规范化、标准化建设有待加强;工作监控考评手段有限等。
从纳税人和国税系统的一致需求出发进行分析,降低纳税成本,提高纳税人满意度,促进自愿遵从是双方共同的目标。纳税人宁愿与税务部门没有任何联系,但是如果联系是必须的,他们希望纳税服务方便快捷,为问题提供解决方法或答案,使用其偏好渠道,比如从互联网上自助取得服务,可以通过电话消除疑虑,同时还要成本效益相对最好的服务。税务部门也有类似的期待。因为税务部门和纳税人之间的每一次联系都具有失败、误解的潜在风险,从而导致不遵从,所以要避免不必要的联系。考虑要求纳税人履行其纳税义务所产生的成本,不断寻找成本效益比最佳的解决方法,避免干扰组织程序,减少交流成本。由分析确定纳税服务部门的数据挖掘目标主要是以纳税人为中心、以流程为中心和以绩效为中心、以服务为中心的分析,其它附加目标还包括以收入为中心、以政策为中心的分析等。
1.以纳税人为中心的分析。从税务部门的利益出发,“最好的客户联系就是根本不联系”。纳税人迫不得已与税务部门联系时,则希望在任何时间、以任何方式均可接触到税务部门,并且它能提供优质快速的服务。如果互联网上的信息清楚、正确并且易于接近和便于查找,它可以成本低廉的方式显著地减少与纳税人接触。
数据挖掘首先需要详细的有关纳税人需求和行为的知识,比如利用互联网搜索引擎记录统计纳税人使用网站服务的点击次数、点击次序及组合等数据预测纳税人需求;通过电话咨询数量的增多和服务大厅接待中心的繁忙得知问题所在,是通知不清楚?报表复杂?还是项目名称引起了歧义?从这些统计数据中寻找规律,采用关联分析把纳税人统计信息与需求信息结合起来,再利用聚类分析对纳税人进行分组分类,从而总结出按纳税人分类的需求信息集,根据服务对象和服务需求建立纳税人行为预测模型,认定访问热点难点问题,对税收政策执行提出可行性建议。同时设计纳税人友好的互联网服务界面,设计最优服务组合推荐程序,节约纳税遵从时间,降低遵从成本,提高服务质量。同样的挖掘目标也适用于其它纳税服务渠道。
2.以流程为中心的分析。税务部门的流程或程序越优化,失误越少,需要与纳税人的接触越少,纳税人等待和焦虑也越少。数据挖掘需要详细的有关纳税服务工作的服务需求发起、工单流转、工单处理、服务提供和服务反馈全过程的信息。通过流程分析对工单流向、分转、办理时限和工单流转异常状况等信息建立决策树来优化流程和管理事项序列,认定简化行政手续、缩短办税时间、增加三方信息利用等提高效率的空间,优化服务流程、节约纳税成本和提高服务绩效。
随着信息量越来越大,对税务部门要求纳税人报送信息的成本,应以人力时间为单位计算社会负担。[③]通过比对各类报送信息的内容,减少纳税人重复报送项目,尽量采用具有自动计算功能的网络填报格式等方式减少纳税人负担。
3.以绩效为中心的分析。纳税服务的资源配置优化、人力资源管理均以此为决策依据。数据挖掘需要详细的有关纳税人需求、纳税成本和满意度以及纳税服务人员统计信息、岗位、工作量、效率、能力、工资等信息。首先,按照税收征管规律和历史数据预测不同时期的服务需求密集度,对于有典型的高峰期或季节性服务活动,在高峰时段(比如接近年度所得税汇算清缴最后期限时段),增加从事一线纳税服务的工作人员数量,服务的时间也应相应延长。其次,按照成本收益比的排序合理安排纳税服务渠道的建设优先权,比如首选互联网建设,互联网解决不了的问题尽量用电话解决,以上两个渠道可以使纳税人足不出户就能得到服务。其次是电子邮件、信函等时效性次之的解决方案。最后选择面对面交流或现场会议形式服务,如果使用提前电话预约的方式,也可以事先分配办公接待场所和人员,合理配置资源。
4.以服务为中心的分析。与国税系统的关注点不同,纳税人有时候觉得税款多少不是首要问题,税务官员操作的方式方法和对待他们的态度很重要。如果纳税人得到正确和专业的服务,他们可能轻易地接受对其报表的重新评估,但是如果服务态度恶劣,他们很可能不接受建议和修正。客户服务、员工满意以及针对纳税人的外部交流和税务部门雇员的内部交流之间的联系是持续不断的,时时处处对纳税遵从有影响。荷兰税务和海关总署的研究确认,税务部门的人员和纳税人之间最近一次个人接触的质量在纳税人的记忆中保留的时间最长,并且决定了他对该税务部门的看法和态度。通过服务人员行为、语言对纳税人认知和行为的影响及其变化方向等分析,对交流信息的挖掘可以促进信息流动、沟通顺畅,不断推动服务规范化、标准化建设,对服务质效实施精细化管理和分析,从而提高服务质量和纳税人满意度。
其它挖掘目标还包括利用与纳税人联系的实时信息发现和预测经济、收入的变化趋势,了解政策执行情况和改进方向。对纳税人投诉数据进行统计,充分理解和分析其产生的根源,从而改进服务,采取明智的解决措施,提高纳税人满意度。
正如登上一座山峰才能看见更高处所在,国税系统的数据挖掘不是一蹴而就的短期工作,要注重持续将成果转化为部门知识,并且建立PDCA管理循环[④]长效机制。通过部门数据挖掘成果的判断评价,决策下一步着重挖掘哪些项目来加强应用性,并转化为能实现组织目标的应用形式。应用数据挖掘的成果制定下一步数据挖掘目标,并对服务人员进行持续的专业化培训也是提高纳税服务质量的重要环节。大数据时代的纳税服务部门应建成目标清晰的专业组织,培养具备精良的专业技术和态度的服务型人才。
五、为国税系统大数据开发应用做好准备
(一)提高数据质量
大数据开发应用的关键前提是数据质量。经验证明,公共部门数据质量较好,尽管大部分数据挖掘技术可以忍受某种程度的数据不完美,但是注重理解和提高数据质量有利于改进分析结果的质量[⑤]。税务人员和纳税人错报漏报信息都将影响数据挖掘结果的使用和分析。
建议从战略高度统筹治理国税系统数据,加强质量建设,对日常工作活动进行标准化、量化处理,以适应数据挖掘的需要。建立数据质量标准,如准确性、客观性、可靠性、实用性、完整性等。针对数据质量管理制定信息管理流程,防止低质量数据出现。同时对现有数据进行有效清理、管理和运用。也可以应用促管理,加大数据开发应用力度,整理、清洗、使用数据的过程可使某些低质量数据无所遁形。在此基础上对数据质量低下的根源进行追索,完善信息管理流程。采集信息时,可以考虑提高纳税人电子申报、办税的比重,或把电子申报和缴税变成强制性要求,但实践中要考虑纳税人接入税务部门电子系统的能力。
(二)完善数据源
税务部门应当加强与外部门的交流合作,采取措施保障各类经济、税收及纳税人数据信息的完整性。例如以收入为中心的分析需要外部信息源密切联合,尤其是与收入密切相关的经济数据及其变化趋势,影响地区收入的重大经济事件和政策安排。因而,有必要建立一套制度保证税务部门知晓与税收相关的数据、政策及行为,如国民经济统计和普查数据,新经济法规、政策信息,公司或个体工商户的设立,经营活动的变更等,以便及时更新信息。在此基础上开发技术、业务、知识库整合的信息系统,用来设计通用的数据挖掘程序、共享和再利用信息。
(三)人才和外包服务
大数据时代的主要管理挑战包括领导人素质和数据管理人才。大数据时代把信息和决策权放在一起的组织更有效率。领导人要极力避免推诿情况,把跨部门合作最大化,清楚问题是什么的人要带上切题的数据,与能解决问题的技术人员有效合作,灵活应对。随着数据变得越来越便宜,能开发这些数据的人才变得越来越有价值。好的数据科学家还能够通晓税收专业语言并帮助国税系统重建大数据能够应对的税务管理战略。这类人才很难找到,在各个领域需求量都将很大。
有些时候,外行会比内行更好地利用大数据,比如采用实时房源搜索信息预测房地产市场,比基于变化缓慢的历史数据建立的复杂模型进行预测的准确性更高。奥巴马政府在推进大数据战略时强调,联邦政府必须和公司、大学结盟,全民动员,来应对大数据时代的挑战[⑥]。经过周密的审查程序后,政府可以购买到最新技术含量的市场竞争成果时,可考虑将某些服务项目外包给先期进入大数据开发服务领域的企业以提高效率。
参考文献:
〔1〕Alink, M.and Kommer. V. V. Handbook on Tax Administration[M]. IBFD press, 2011.
〔2〕Andrew McAfee and Erik Brynjolfsson. Big data: The management revolution[J]. Harvard Business Review. October 2012.
〔3〕Jonathan Stuart Ward and Adam Barke. Undefined By Data: A Survey of Big Data Definitions[J]. 2013.
〔4〕崔小屹,韩青.《用数据说话》[M],北京大学出版社,2013年.
〔5〕郭昕,孟晔.《大数据的力量》[M], 机械工业出版社,2013年.
〔6〕涂子沛.《大数据》[M],广西师范大学出版社,2013年.
〔7〕[英]维克托.迈尔-舍恩伯格 肯尼思.库克耶,《大数据时代》[M], 浙江人民出版社,2013年.