2014年 第 21 期
总第 697 期
财会月刊(上)
参考借鉴
大数据背景下企业会计数据的新特点

作  者
赵 婧

作者单位
(浙江财经大学会计学院 杭州 310018)

摘  要

      【摘要】会计数据已进入大数据时代,从结构化会计数据到非结构化会计数据,从集中式处理到分布式处理,从数据仓库到深度学习,从图表化到可视化,从及时性到实时性。本文从数据来源、处理、分析和输出四个方面探讨了大数据背景下企业会计数据所呈现出的新特点,这势必对未来企业会计信息及管理决策产生深远影响。
【关键词】大数据   会计数据   新特点

数据生产信息,信息辅助决策,在爆炸式数据洪流的冲击下,作为会计信息产生源泉的会计数据已由简单的记录符号开始转变为现代企业重要的决策要素,并日益构成企业运营过程中的根本性资源。区别于以往的“海量数据”和“超大规模数据”,“大数据”具有规模性、多样性和高速性,由此催生出针对“大数据”输入、加工、处理、存储与输出的全新技术体系。面对“大数据”的挑战,传统以关系数据库为主导的企业会计数据在来源、处理、分析与输出等方面已呈现出新的特点。
一、会计数据来源:从“结构化”到“非结构化”
规模巨大(Volume)、结构各异(Variety)是大数据的重要特征。大数据时代,若以纵向表示数据类型,横向表示数据形态,则会计数据按纵向可分为结构化会计数据和非结构化会计数据;按横向可分为静态会计数据和动态会计数据。若两个维度相组合,则企业的海量会计数据可归纳成三类:静态结构化会计数据、静态非结构化会计数据和动态实时会计数据,具体如图1所示。
1. 静态结构化会计数据。此类数据由企业传统运营系统如AIS、CRM、ERP等产生,是以SQL-server为代表的大型数据库管理系统进行后台管理的关系型数据库(RDBMS)。结构化会计数据采用结构化方式存储,具有预设的字段定义和字段长度等,以二维表的方式保存在数据库管理系统中。
2. 静态非结构化会计数据。此类数据由互联网、移动或智能设备、非传统 IT 设备等产生,一般是用户文本(如电子文档、电子邮件等)、音视频文件、图片等,难以进行结构化的约束因而使用目前出现的非关系型数据库(NoSQL数据库)进行保存。
非关系型数据库对于数据格式的约束更小,更便于扩展,随着软件SOA化和互联网化,这些会计数据源源不断地渗入现代企业日常管理和运作的方方面面。特别是当企业会计信息化软件以云计算的方式,在公有云上提供服务时,一套软件需要适配大量不同企业的多样需求,固定结构化存储严格的字段定义是不现实的,也必然减弱系统的灵活性,非结构化数据得到越来越多的企业会计软件提供商的支持。
3. 动态实时会计数据。移动设备与传感器设备(如RFID等)的普及,用户使用移动设备产生了大量地理位置相关的、以用户为中心而且与使用场景相关的操作和交易数据,如网络点击率、日志文件、实时交易和实时行情信息等。典型的如时下流行的打车软件所产生的大量实时流会计数据,企业可以从不断生成的交易数据中获取万亿字节的有关消费者、运营商和统筹管理等方面信息。动态实时会计数据自身可能是结构化的(如交易信息等),也可能是非结构化的(如日志信息等),所以需要首先进行实时流数据分析,分析得到的结构化数据与非结构化数据分别保存在关系型与非关系型数据库。企业会计由电算化到信息化,信息集成范围由部门到整体,甚至扩张到整个供应链,对于“静态结构化会计数据”的分析日趋成熟;但是对于“静态非结构化会计数据”特别是“动态实时会计数据”,很多企业可能才刚刚涉及或甚至还没有开始。然而,“大数据”真正价值在于通过收集、处理庞大而复杂的数据信息从中获得新的知识和洞见。随着社交化网络的兴起,影响企业决策和行为的数据将更多表现为“非结构化会计数据”和“动态实时会计数据”,新经济模式下企业要进行业务和流程的创新则必须尝试开发这两类数据。
二、会计数据处理:从“集中式”到“分布式”
传统会计数据处理从主机架构、客户机服务器(C/S)架构到浏览器服务器(B/S)架构,虽然客户端和服务器端所承载的任务不同,但对于用户来说,都只需要提交所需的运算内容并等待运算结果;对于计算设备来说,计算流程中的每一个步骤都是可知并且实际执行的。此外,从执行过程来看,上述三种架构计算单元的程序执行均为串行过程,后面的指令需要等待前一个指令执行完成。现代CPU主频很高,计算能力已经很强大,并且CPU本身体系结构也已经进行了优化,引入了流水线、多核、乱序执行等技术,使得程序可以在一定程度上并行执行,CPU运算速度也大大提升。在大数据的时代来临之前,通过提升计算机硬件能力以满足会计数据计算需求,即垂直扩展的做法,基本满足了企业绝大部分业务功能的需求。
但是,大数据背景下数据量的指数化发展趋势对数据处理新生出“全量”与“在线”要求。全量即大数据分析的样本十分巨大,几乎可以认为是所有样本的数据;在线则要求数据的分析处理持续进行,不断提取数据中的有效信息,以便用户能够快速地从一个较长的时间维度看到持续的分析结果,使其能够观察到正确的趋势信息做出正确的决策。这种全量、在线的计算需求对传统计算结构的垂直扩展方案产生了很大冲击。
1. Hadoop/MapReduce计算架构。Hadoop/MapReduce是一种面向批处理任务的计算结构,其基本流程如图2所示。在MapReduce计算结构中,中心服务器Master节点负责将用户提交的一个任务分解成多个子任务,这些子任务的处理流程相同,但需要处理的数据不同,属于批处理任务。Master节点将这些任务分解给多个负责执行计算任务的Worker节点,由Worker节点进行计算,这就是Map阶段,在Worker节点完成计算后,Master节点将计算结果提交给另外一部分计算节点,进入Reduce阶段,将多个计算结果汇总得到的计算结果返回给最终用户。
在企业会计数据处理过程中,往往涉及大量计算过程相同但取值不同的年度会计数据,运用Hadoop/MapReduce计算架构可以按不同的年度划分子任务,交由不同的服务器处理,最后将处理结果汇总融合得到综合分析的结果。MapReduce计算架构是从整个计算系统的角度来考虑性能的扩展,相对于前述提到的垂直扩展,MapReduce属于水平扩展的思路。Worker虽然只是一些性能并不十分强大的服务器,但服务器数量众多,单个任务分拆后可以并行执行,大大提高了执行效率,而且MapReduce本身还考虑了低成本硬件的不可靠性,采用冗余计算、超时调度等机制避免硬件故障导致整个系统宕机的问题。
2. Storm计算架构。MapReduce可以有效地提升大部分数据批处理任务的执行效率,也帮助促成了Hadoop框架的流行。但是MapReduce本身也有其使用场景限制。例如:为了能够将任务分解,该任务所处理的数据量必须达到一个量级,以便分解到多个Worker去执行。总的来说,数据必须先积累到一定的量并且通过分布式文件系统保存在各个节点上,然后才可以进行处理,因此MapReduce执行的计算是离线、非实时的。然而,在一些应用场景里,计算所需要的数据并不是在计算启动时已经完全准备好的,而是以数据流的形式不断进入到计算单元。如果数据没有得到及时处理,后来的数据将会阻塞,最终导致整个系统不可用。这种流式业务对于计算的要求是实时性,而不是数据吞吐量,即数据越快处理越好。
针对这种情况,出现了一些面向流式计算的计算框架,如Storm。Storm框架制定了一套流式实时计算的原语。Storm针对消息进行处理,相对于MapReduce将一个处理任务分解为多个子任务,Storm将消息的处理分解为一系列相互协调关联的组件进行处理。在Storm框架中,消息以流的形式源源不断地流入计算系统,拓扑中的Spout即消息分发者对消息流进行拆分,分为tuple序列,每个tuple即需要处理的一小段消息,交由不同的Bolt也就是消息处理组件进行处理。Bolt处理的结果又可以交由下一个Bolt处理,由此组成一个庞大的流式处理拓扑,完成流式计算功能,如图3所示。

 

 

 

 

 

对于企业会计数据而言,大数据时代新的分布式计算架构、批量/流式计算平台所带来的计算能力提升,是增强企业业务功能的有力辅助。MapReduce可以看成传统架构中单核向多核的转变,将任务分成多个对等的子任务,由多台设备并行处理,大大减轻了单台设备垂直扩展的压力。因此,Mapreduce批处理计算使得原先大规模的计算任务借用较为廉价的计算单元快速完成,海量会计数据的分析、统计速度大大提高,成本也有所降低;Storm的流式计算更在此基础上增加了计算节点间的顺序处理,类似于多核+多流水线流式计算,使得不同渠道获取到的资源能够得到实时计算。而流式计算某一任务中的不同步骤也可以得到分布式处理。由此,两者相辅相成已经能够适应不同类型会计数据的大规模计算需求,为会计数据的进一步分析提供了基础。
三、 会计数据分析:从“数据仓库”到“深度学习”
1. “数据仓库”到“数据挖掘”。20世纪80年代,计算机的运用使会计数据分析利用有了飞速发展,但早期会计电算化主要是面向操作型的,从凭证到账簿再到报表,缺少对历史数据的分析和对决策模型的支持能力,即无法将会计数据转换成对决策有参考意义的信息。
随着信息技术的运用和发展,逐步形成对留存的会计数据进行抽取、挖掘、管理、分析等的数据仓库和数据挖掘技术。1992 年,数据仓库之父比尔·恩门将数据仓库定义为: 一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。之后,“联机分析”出现,开始把分离的数据库相连,针对数据仓库中的数据信息进行多维度的分析与运用操作,成为将数据转化为信息最主要的手段。再之后,为了能更加充分体现数据仓库里的数据价值,通过引入统计学算法、人工智能技术等,找到这些原始数据潜在的数据模型,并进行横向和纵向的剖析、筛选,将大量原始数据转化成有价值的信息,为决策者提供决策依据,以此实现数据挖掘。若将数据仓库视为企业全部会计数据的“资源池”,则联机分析是建立在这个“资源池”上的探测器,可按需要实现对企业会计数据某种透视性的探测,进一步的数据挖掘主要目的则是发掘潜藏在“资源池”内会计数据表面之下的历史规律和对未来进行预测。
从数据仓库到数据挖掘的过程逐步将企业会计数据转化为对会计信息使用人决策过程具有重大意义的信息,帮助企业实现了从数据到信息、从信息到决策、从决策到利润的转化。
2. “数据挖掘”到“深度学习”。传统的数据仓库,基于对关系数据库(RDBMS)存储的会计数据挖掘实现企业业务报表、决策分析和政策监管的需求,但当大数据时代的海量数据将非结构化会计数据和动态实时会计数据都包含进来后,传统的关系数据库(RDBMS)已经不能满足发展的需要。非结构化会计数据,要求实现自然语言处理、文本分析和内容挖掘,而动态实时会计数据,则要求通过实时的会计流数据处理,实现实时在线销售、实时产品服务和实时信息反馈等应用。随着会计数据量的高速增长和前述分布式计算方式带来的计算能力突飞猛进,使得借用机器学习、人工智能的方法进行数据挖掘逐渐成为可能。
以往的机器学习苦于缺少海量的训练样本,同时计算能力有限,很难得到一个较为适用的学习算法,而大数据提供的样本量和分布式计算提供的计算能力明显改变了这一现象,将复杂的机器学习算法变为可行。通过大数据技术,企业可以通过对会计数据进行定向分析和解读,甚至将人群的意识和行为趋向落实到会计数据层面,使会计数据具有预测未来的能力。例如:通过分析企业非结构化会计数据和动态实时会计数据促进企业业务创新和利润增长;通过机器学习和数据挖掘方法来管理和优化企业库存,并量化评估企业商品定价策略与营销效果;通过市场分析、竞争分析、客户分析和产品分析以优化企业的经营决策等。
此外,目前的机器学习算法已经开始使用基于深度神经网络的深度学习,大幅提高了算法的识别率。大数据带来的人工智能的发展,将给企业会计数据的挖掘带来更多维度,一条交易记录可以关联检索到邮件、图片、录音甚至视频,分析的深度和广度大大提高。
四、会计数据输出:从“图表化”到“可视化”
“数据可视化”成为数据挖掘的另一项结果性要求,是伴随大数据而出现的一个新技术趋势。网络新经济模式下,企业日益从实体销售经营的模式转向利用互联网虚拟门店进行销售的模式,1号店、苏宁易购,淘宝商城等日均成百上千万的网上交易量背后的海量采购、海量供货、海量销售,企业能够记录或搜集顾客在各个渠道产生的涉及产品生命周期各个阶段(顾客感知、品牌意识、产品购买、口碑反馈和社会互动)的行为数据。若以可理解的图形、图片等方式直观呈现出企业不同分类、不同分布、不同业务循环以及在不同时间轴上会计数据的变化趋势,可以帮助企业进行高度精准、高度定量化的筹融资及供产销策略,使企业对市场的理解和洞察更加实时和精准,这正是数据可视化的价值所在。
此外,大数据带来的长期、海量的会计数据样本量,也使信息使用者更加关心会计数据变化情况与发展趋势等状态,把复杂的会计数据转化为直观的图形,并呈现给最普通的使用者,使之成为浅显易懂、人皆可用的工具和手段。这是传统的表格化分析结果难以获取的。
值得一提的是,大数据的业务处理在云端进行,基本上不会有关机或宕机的风险,云端的计算资源可以全天候待命。而前面已经提到,大数据时代的数据采集手段更加多样,利用云端的计算资源,新的数据可以立即得到处理,形成一条条不间断的数据处理流。信息使用者几乎可以实时得到分析处理的结果。从而对不断变化的环境做出准确的反应,能够更快地发现企业潜在的经营风险与问题。
综上所述,大数据从数据来源、处理、分析和输出等方面,从更全、更高、更深和更快的角度影响了企业会计数据管理,进而改变了企业决策环境,如图4所示。
首先,会计数据生成。各类不同的数据源生成不同类型的会计数据,可保存在其系统自身的数据库中供上层提取,也可直接以数据流的方式提交到上层。其次,会计数据集成。对于数据源产生的会计数据,需要进行筛选、清洗等操作,过滤掉无用、错误的数据,既可以减少后续的计算量,又可以避免错误数据样本带来的分析误差。数据集成的结果,根据其结构化特征,保存在关系型或非关系型数据库中。再次,会计数据的挖掘、分析。通过各种机器学习手段,对数据进行分类、分析内部关联关系,分析数据演进规律与趋势。数据挖掘的结果需要以简单明了的方式供上层使用。可以通过可视化的方法直接提供给用户,如图表、视频等方式,也可以提供二次开发接口供上层获取分析结果,由上层业务应用自行决定数据的呈现方式。最后,在整个体系结构的最上层就是各类数据应用,这些应用系统根据不同的行业特征,按需提取和呈现会计数据分析结果,供信息使用者进行业务分析与决策。
五、结语
可以想见,大数据基于数据驱动的决策方式更加科学,也更为准确,决策参与者的决策能力将大大提高,也将进一步强化企业会计数据与会计信息对新经济模式下企业运营业务与流程重组的重要价值。但要指出的是,在大数据这样一个纷繁复杂的数据环境里,大量的会计数据没有得到有效利用,就会产生数据泛滥或信息超载。因此,只有确保了会计数据的真实性才能保证基于会计数据的分析基础上的会计信息,以致企业决策与洞察的正确。另外,当前对企业非结构化和动态实时会计数据进行分析的技能还十分缺乏,如何对大数据所产生的大量非结构化和动态流会计数据进行智能挖掘和分析,以产生出真正的数据价值也是大数据环境下有效利用会计数据要解决的核心问题。
主要参考文献
1. 谢国忠.大数据正在改造企业.企业管理,2013;7
2. 冯芷艳,郭迅华等.大数据背景下商务管理研究若干前沿课题.管理科学学报,2013;1