【作 者】
刘景艳(高级会计师)
【作者单位】
唐山学院财务部,河北唐山063000
【摘 要】
【摘要】在“一带一路”经济战略的部署下,跨境电子商务迅速崛起,而大数据发展也正式上升为国家战略。信用问题一直是我国跨境电子商务发展的瓶颈之一,运用大数据技术构建信用评价体系成为大势所趋。本文基于大数据征信构建跨境电子商务的信用评价指标体系,运用与大数据相匹配的指标赋权方法——模糊层次分析法为各个指标赋予权重,在此基础上构建与大数据相匹配的信用评价模型,并结合先进机器学习工具进行训练和预测,最终实现在互联网界面准确、实时地传输评价结果,从而构建出完整的、生态的、动态的跨境电子商务信用评价体系。
【关键词】大数据;跨境电子商务;信用评价;模糊层次分析法
【中图分类号】F724.6 【文献标识码】A 【文章编号】1004-0994(2016)14-0041-5跨境电子商务(以下简称“跨境电商”)是把传统国际贸易加以网络化、电子化的新型国际贸易方式。随着国家“一带一路”经济战略的部署,跨境电商迅速崛起,有望成为“中国制造”出口的新通道。据商务部统计,2015年我国跨境电商的交易额逆势上涨30%,并预测2016年交易总额将达到6.5万亿元(折合1.1万亿美元),年增长率将超过30%,占中国进出口贸易的比例将提高到20%。
然而,跨境电商的蓬勃发展也面临诸多制约因素,其中信用问题是其发展瓶颈之一。电子商务存在信息不对称的问题,而由于跨境电商买卖双方处于不同国家,买家更是很难对卖家的信用作出准确的判断。信用信号的缺失会引起交易之前的逆向选择和交易之后的道德风险,增加交易成本,降低市场效率,因此信用体系建设刻不容缓。跨境电商的信用体系建设主要应包括两大部分:信用评价指标体系和信用评价模型。其中,信用评价指标体系是信用体系建设的基础,需要以多维度、多层次、多渠道的海量信息构成原始数据,然后从巨量数据中寻找关联性并提炼出反映数据共同特征的指标。目前备受关注的大数据(Big Data)技术正好可以比较完美地解决这些问题。
大数据为跨境电商信用评价提供了新的可能性,它是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。国际数据公司(IDC)从四个特征(4V特征)定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据(Variety)以及巨大的数据价值(Value)。运用大数据征信是大势所趋,通过大数据挖掘、清洗、匹配、整合各种信息源的巨量资料,尤其是开发非结构化或半结构化的行为轨迹数据,使其转换成有效的信用数据,为构建信用体系提供基础。在大数据背景下,跨境电商信用指标的确定原则、指标体系的构建和赋权以及信用模型的选择,都将发生颠覆性的变化。
一、基于大数据的指标确定原则
在大数据背景下,研究信用评价指标应该遵循以下三个原则:
1. 合法性。通过互联网挖掘出的大数据,尤其是社交网络中基于内容和行为轨迹的数据,如果处理不当,便会侵犯用户的隐私。互联网隐私保护根据内容不同可细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等。跨境电商的交易双方隶属不同的国家,而每个国家关于隐私保护的法律法规不尽相同。关于大数据隐私,在美国有隐私法案,而且美国与欧盟签署了隐私声明,但中国的相关立法是非常模糊的,属于灰色地带。大数据征信要避免不必要的国际法律纠纷,对于可能牵涉到隐私的数据或指标,应当在获得授权后才能收集,收集之后要严格监管它的流向和使用。
2. 完整性。大数据征信有利于指标体系的完整构建,使其能全方位反映信用的真实情况。然而大数据征信面临着信用信息孤岛的难题,在跨境电商上更为突出。内部信用信息碎片化,外部信用信息孤立化,缺乏统一标准,不能互联互通,给大数据征信带来很大困难。构建完整的指标体系需要复杂的顶层设计,可通过对信息的系统梳理和合作交换来挖掘信用信息。
3. 有效性。目前,大数据已经成为专家、学者和各界精英研究的热点,但也不免有过火炒作之嫌。正确认识大数据需要树立这样一种意识:大数据不是万能的,它不等于大量的数据,大量的数据不一定具有价值。大数据的价值密度低,经典的“二八定律”同样预示着在某个数据源中或许只有10% ~ 20%的数据是有用的。因此,在抓取跨境电商信用评价指标的原始数据时,挖掘的方向和对数据的清洗非常关键,盲目追求海量数据只会降低指标的有效性。正如著名的投资银行家Mary Meeker所言,“大数据的工作就像在一堆稻草中寻找一根针”,只有真正发现了这根“针”,提炼的指标才具有很强的说服力。
二、基于大数据的指标体系构建
中国电子商务领域的传奇人物马云在2014年曾表示,“人类正从IT时代走向DT时代。”DT时代即数据技术时代,它将数据本身视为资产,表明在“互联网+”的过程中大数据将为所有产业带来颠覆性变革和红利。将大数据技术运用到跨境电商领域的征信方面,首先要考虑两个维度:一是数据挖掘的广度;二是数据挖掘的深度。就数据挖掘的广度而言,大数据要多源采集,挖掘传统技术手段无法抓取和处理的数据,比如社交网站上大量的UGC(用户生成内容)文本、音频、视频等非结构化数据。这些数据都可能是有价值的,能够提炼出与跨境电商信用评价相关的共同因子,比如境外客户满意度。基于大数据抽取计算出的境外客户满意度将更真实、有效。大数据挖掘的重点将是网络上的内容数据和行为轨迹数据。就数据挖掘的深度而言,大数据要结合云计算及机器学习工具理清庞杂数据之间复杂的结构关系,对数据进行分类、聚类、降噪等处理,由原始数据标准化为转换数据,将转换数据合并到元变量中,再将元变量输入到不同模块里,每一模块代表一种特征,由此形成有效的评价指标。
张云起等(2015)以三个维度构建大数据征信的采集结构:第三方数据、电商平台交易数据、网络轨迹数据。笔者认为,这三个维度不仅覆盖面广,而且既有静态数据,又有动态数据,既有传统数据,又有非传统数据,符合对跨境电商信用数据采集的要求。因此,本文构建的跨境电商信用评价指标体系将以这三个维度作为准则,结合相关文献和跨境电商的实际现状对每一准则下的具体指标进行提炼和分析。
1. 第三方数据下的指标。第三方数据主要来自工商、质检、税务等政府职能部门、银行等金融机构以及跨境电商所在的网络平台,一般是静态的、传统的数据。第三方数据往往是公开的或通过合作交换得到的。从政府职能部门公开的信息可得到跨境电商的资质认证指标。根据2012年商务部和信息化司发布的《电子商务企业资质认定标准》(征求意见稿),资质认证指标具体包括工商注册信息、纳税信息、域名注册信息等。通过第三方以及企业内部信息可获得财务指标,它是最经典的指标,在信用评价方面具有很强的说服力。周子元等(2009)认为,影响企业信用的主要因素是涉及公司财务的资产规模、盈利水平、经营能力、偿债能力等,准确评估信用的前提是要具备完善、精确的财务数据,因此应当在信用评价体系中提高财务指标的比重。跨境电商企业在与银行或网络借贷公司进行借贷时产生的金融服务记录同样是衡量其信用的重要指标,包括企业在银行的信用等级、抵押担保情况、违约记录等。
此外,跨境电商和普通电商的重要区别在于商务活动是否涉及出关。依据跨境电商提供服务的特殊流程,应当添加一些有针对性的指标,比如通关记录。杨坚争等(2014)在较大规模的问卷调查基础上,应用主成分分析法归纳出了五个对跨境电商发展有重要影响的指标,其中之一便为电子通关指标,并将其细分为电子报关、货物查验、税费征收三个具体指标。
2. 电商平台交易数据下的指标。跨境电商交易数据多是动态的、传统的数据,可运用大数据技术实时更新和监测。产品质量和服务质量是评价电商企业信用的常用指标,其中,与产品质量相关的指标包括产品与描述是否相符、产品合格率、退货率等;与服务质量相关的指标包括卖家态度、物流速度、保险服务情况等。用户在交易后会在电商平台上对产品质量和服务质量进行即时评价,其评价结果对所有浏览者可见。从交易成本理论的角度考量,由于境外顾客与跨境电商之间存在严重的信息不对称,因此为了做出正确的购买决策,境外顾客需要付出昂贵的交易成本,包括搜寻成本、信息成本、决策成本、违约成本等。老顾客对已达交易的评价积累——好评率等会明显降低新顾客的交易成本,新顾客对跨境电商信用的初始判断很大程度上受此影响。
一般而言,企业的守信行为会促进交易的达成。反之,交易规模大代表用户的认可或忠诚,表明企业有良好的信用。交易规模表现在很多方面,比如累积交易额、交易成功率、新顾客增长率、老顾客回头率等。此外,对于跨境电商的交易活动而言,由于双方处在不同的国家,纷杂的不确定性因素直接或间接地影响交易安全,例如信息安全和支付安全。用户信息遭泄露、跨境支付存在安全漏洞等都会引发信用风险。
3. 网络轨迹数据下的指标。据统计,约有一半以上的中国网民通过社交网络互通互连,社交网络已成为覆盖用户最广、传播影响最大、商业价值最高的网络业务。社交平台数据多是动态的、非传统的数据,涉及大量传统上无法处理的非结构化和半结构化信息。首先,社交网络往往是顾客表达自我情绪的最真实的平台,必然存在对跨境电商的情绪表达,基于大数据手段,对相关的文本、图像(包括表情)、音频、视频等进行搜寻和分析,将其放进某种数据分析模型并计算用户满意度,得到的结果将更真实、有效。其次,社交网络的灵魂是共享,信息传播速度快,甚至是病毒式传播,对跨境电商的正面信息分享实际上是顾客无意识进行的营销推广活动。 因此,顾客主动分享可作为信用评价的指标之一,正面分享越具有广度和深度,代表企业信用越高,具体指标包括转发频率、分享链接数目、建立专题群组等。再次,有学者从企业家信用与企业信用的相互关系角度论证了企业家信用决定着企业组织的整体信用(雷晓敏、朱家顺,2007),因此将跨境电商管理者的个人信用纳入指标体系中。运用大数据挖掘管理人员的关系数据和行为数据,以此客观呈现个人的信用状况。阿里巴巴旗下的芝麻信用管理有限公司推出的芝麻信用,就是运用大数据及云计算技术挖掘用户的身份特质、行为偏好、人脉关系、信用历史、履约能力等信息以对个人进行征信。最后,公众号影响力也是判断跨境电商信用的指标。在社交平台上建立企业公众号成为营销的新常态,公众号影响力体现在两个方面:一是粉丝数目或关注人数多,说明其影响面广,尤其是境外人员的关注;二是粉丝在线参与程度高,说明其影响程度深。
综合以上分析,基于大数据构建的跨境电商信用评价指标体系如表1所示。
三、基于大数据的指标权重确定方法
在计算指标权重的方法中,层次分析法(Analytic Hierarchy Process,简称AHP)是使用最广泛的方法。它最初由美国著名运筹学家A. L. Saaty在20世纪70年代提出,是分析多目标、多准则的复杂大系统的有力工具。它将定性指标和定量指标结合起来进行考察,综合了德尔菲法的适用性和数理统计方法的科学性,具有思路清晰、方法简单、适用面广、系统性强等特点(张炳江,2014)。它的主要步骤包括构建递阶层次结构模型、构造两两比较判断矩阵、一致性检验等。
然而在大数据背景下,传统AHP法并不适用,主要表现在以下两点:第一,在构建判断矩阵时,传统AHP法要求专家以一个精确值比较两个指标之间的重要性,而大数据征信提取的指标不仅量大,而且复杂,专家很难提供精确比较值,此时用“大约”、“左右”等模糊概念来表示更为合理;第二,传统AHP法在构建一致性判断矩阵时工作量大,当判断矩阵不能通过一致性检验时,需要一次次地调整——检验——再调整——再检验,直至满足要求为止。大数据下的指标无疑使该检验过程变得更加纷繁复杂、循环往复。
由此得出,传统AHP法并不适合确定大数据条件下的指标权重,它需要在算法上作出改进。模糊AHP(Fuzzy Analyt Hierarchy Process,简称FAHP)法将模糊数学的概念引入AHP法中,改进了传统AHP法存在的问题,提高了结果可靠性。FAHP法分为两种,一种基于模糊数,即不要求专家提供判断矩阵里的精确值,而是给出模糊量,可以解决专家思维判断的模糊性问题和客观决策对象的复杂性问题,最常使用的是三角FAHP法;另一种基于模糊一致性矩阵,可以利用模糊一致性矩阵的性质简化一致性检验问题。两种FAHP法对结构层次多、评价因素多的对象系统都很适宜。因此,大数据背景下跨境电商信用评价指标的权重确定应当使用FAHP法。将传统AHP法和三角FAHP法进行对比,异同点如表2所示。
四、基于大数据的信用评价模型
在构建跨境电商信用评价指标体系以及确定各指标权重之后,下面将分析可以运用哪些信用评价模型(方法)进行评价和预测。信用评价模型很多,一些基本的、传统的评价模型由于有悖于大数据的背景和方法本身的科学局限性,这里不予考虑,本文只分析几种目前处在研究前沿位置的模型。这些模型一般都能与模糊AHP法结合使用,并且应当满足以下两个条件:
1. 评价模型要与大数据特征相匹配。前面提到大数据具有4V特征,简单来说是指大容量、多样性、高速性、价值性。大数据的大容量特征要求评价模型应具有良好的可伸缩性,即面对数据的拓展能有效构建模型的能力。大数据的多样性特征表明它的异质程度高,要求评价模型能够处理多种类型的数据,尤其是非结构化数据。大数据的高速性特征要求评价模型的计算速度(收敛速度)快、灵活性高。大数据的价值性不仅指它的价值高,而且指它的价值密度低,即存在大量的噪声数据或有空缺值的数据,这就要求评价模型应具有较好的鲁棒性,即在数据不准确、不完整的情况下正确评价和预测的能力。
2. 评价模型要与跨境电商的实际情况相符。跨境电商由于涉及不同的国家,交易流程多、交易时间长、海外顾客购买心理和行为不确定性高,既增加了与信用有关的数据的容量和异质性,也增加了数据收集的难度,使指标数据具有大容量、含噪音、异质程度高等特点。评价模型只有匹配这些数据特征才是有效的。
目前,在信用评价方面比较前沿的评价方法包括模糊综合评价法、盲数评价法、支持向量机、神经网络等,后两种是机器学习工具。这里结合以上分析,对这四种方法进行简单比较,结果如表3所示。
结合信用评价模型需要满足的两个条件和表3中各模型的特征可以得知,以上四种模型都不能与要求条件完全匹配。大数据的复杂性无疑对评价模型提出了非常严苛的要求。比如,神经网络能够较好地处理指标模糊不全的问题,在训练样本足够大时能达到极高的精度,而大数据恰好能够提供充分的训练样本;然而神经网络学习时间过长,收敛速度较慢,甚至可能达不到学习的目的,这显然又有悖于大数据的特点。
为此,有学者针对以上各模型的不足之处提出了改进方法,或者通过模型之间的组合运用能达到更好的评价效果,优化后的模型和组合后的模型将更适用于大数据。比如,支持向量机在处理大规模数据集时往往需要较长的训练时间,针对该问题,张珍珍等(2011)提出了基于密度聚类的SVM两步分类算法,有效地提高了大规模数据下的分类速度。另外,各模型之间的相互融合、取长补短是处理大数据的必然趋势,已有的研究包括基于神经网络的模糊综合评价、基于三角模糊数的盲数评价等。
在这四种模型中,最值得关注的是盲数评价法在大数据背景下评价信用的应用前景。目前,盲数算法主要应用在建筑、矿业、电力等行业,应用在评信领域还处于探索阶段。由于实际中的信用信息往往不是单一的,而是具有多种不确定性,如凡是有行为因素参与的含状态因素的任何系统中都至少含有两种或两种以上的不确定性(刘开弟等,1998),而盲数在解决这种问题上的优越能力是其他方法无法比拟的。另外,学者在盲数算法改进方面也取得了不少成果。比如,为了克服盲数运算计算量增加过快的缺点,王磊等(2010)提出了“先合并相交区间,再合并小可信度区间”的降阶方法。
五、小结
跨境电商是目前电子商务领域的热宠,而2015年国务院正式印发《促进大数据发展行动纲要》(国发[2015]50号),标志着大数据发展正式成为国家战略。研究大数据背景下的跨境电商信用评价体系是现实的要求,对我国的经济发展具有深远的影响。
基于大数据征信构建跨境电商的信用评价指标体系,运用与大数据相匹配的指标赋权方法——模糊层次分析法为各个指标赋予权重,在此基础上,构建与大数据相匹配的信用评价模型,并结合先进机器学习工具进行训练和预测,最终实现在互联网界面准确、实时地传输评价结果,从而构建出完整的、生态的、动态的跨境电商信用评价体系。
主要参考文献:
孟祥铭,汤倩慧.中国跨境贸易电子商务发展现状与对策分析[J].沈阳工业大学学报,2014(2).
徐松,张艳艳.应把跨境电商建成“中国制造”出口的新通道[J].经济纵横,2015(2).
王伟,宋西圣.以大数据思维强化小微企业信贷风险管理[J].金融发展研究,2014(4).
刘新海,丁伟.大数据征信应用与启示——以美国互联网金融公司Zest Finance为例[J].清华金融评论,2014(10).
赵国栋.大数据时代的历史机遇:产业变革与数据科学[M].北京:清华大学出版社,2013.
冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1).
阿里研究院.互联网+:从IT到DT[M].北京:机械工业出版社,2015.
张云起等.信联网商务信用体系建设[J].中央财经大学学报,2015(4).
周子元.信用风险量化研究综述[J].金融教学与研究,2009(4).
杨坚争,郑碧霞,杨立钒.基于因子分析的跨境电子商务评价指标体系研究[J].财贸经济,2014(9).
李向华,杜鹃.社交网络用户信用评价指标体系研究[J].标准科学,2015(1).
雷晓敏,宋家顺.衡量企业家信用的财务指标分析[J]. 中央财经大学学报,2007(11).
张炳江.层次分析法及其应用案例[M].北京:电子工业出版社,2014(1).
刘开第,庞彦军,金斓.浅析模糊AHP中一致性检验的不必要性[J].数学的实践与认识,2015(14).
张珍珍等.改进的结合密度聚类的SVM快速分类方法[J].计算机工程与应用,2011(2).
王磊,张明文,王秋莎.基于盲数理论的输电系统可靠性评估[J].电力科学与工程,2010(8).
靳书阳.2014年电商热点:跨境电商和大数据[N].证券时报,2014-03-29.
叶悦青.跨境电子商务评价体系构建的分析研究[D].杭州:浙江大学,2015.