根据相关专业机构及专业人员的实际应用效果反馈,铁路数据在风控策略及助贷业务的客群资质识别都有非常明显的效果。本文详细解析覆盖8亿人的铁路数据,希望可以给到各部门伙伴一定的参考。
目录:
前言
一、覆盖8亿群体的12306历史发展
二、铁路客运用户画像系统
2.1系统总体架构设计
2.2对接系统及数据
2.3数据处理的类型
2.4铁路系统主要数据源分布
三、基于用户行为的用户画像
铁路旅客画像
四、铁路用户画像实现步骤
4.1数据源分析
4.2客票特征数据
4.3客票原始数据
4.4目标分析
4.5标签计算
4.6铁路用户特征
4.7铁路用户出行特性
五、客列车分类【主要关注GCD列车】
高速动车组列车(G字头)
城际动车组列车(C字头)
普通动车组列车(D字头)
直达特快旅客列车(Z字头)
特快旅客列车(T字头)
快速旅客列车(K字头)
普通旅客快车(普快)
普通旅客列车
临时旅客列车(L字头)
旅游列车(Y字头)
六、指标分析逻辑举例
6.1单个指标分析
6.2多指标分析
6.3通过旅客周转量及客流量做分析
6.4通过客运量做分析
6.5常住地界定
七、用户画像系统铁路公司对外应用场景
7.1核验服务
7.2精准营销
7.3业务预测
7.4风险识别
八、用户画像系统的应用
8.1征信服务
8.2用户核验系统
九、铁路数据应用场景及价值
9.1社会价值
9.2经济价值
十、结语
前言
在个人金融风控场景,常见的数据除了基础核验外(身份证2要素、银行卡3/4要素、运营商3要素)外,运营商爬虫(现禁用)、央行征信(持牌机构使用较多、助贷机构及金科使用较少)、民间借贷记录、设备行为统计形成的用户画像等,社保、公积金、电商数据由于数据的开放性问题,其实使用的不多。
然后由于最近半年的数据行业的缓存及敏感数据的外泄或与高利贷合作的不良行为,导致主营运营商爬虫及民间借贷记录2类数据产品的机构被查,相关产品无法对外,引起了大部分包括银行在内的相关风控策略的大调整及产品调整。
很多行业的伙伴都在愁,有无什么数据来源合规安全且可以在一定程度上替换运营商爬虫及民间借贷记录数据效果的,航旅及铁路或者是相对有效的。
根据相关专业机构及专业人员的实际应用效果反馈,铁路数据在风控策略及助贷业务的客群资质识别都有非常明显的效果。
之前已经分析过航旅数据,这次详细解析覆盖8亿人的铁路数据,希望可以给到各部门伙伴一定的参考。
铁路数据部分字段维度是这样的:
一、覆盖8亿群体的12306历史发展
12306网站于2010年1月30日(2010年春运首日)开通并进行了试运行。用户在该网站可查询列车时刻、票价、余票、代售点、正晚点等信息。
2011年06月12日,京津城际铁路率先试水网络售票。
2011年9月30日,所有动车组线路实施网上订票。
2011年11月20日,Z字头全部直达特快列车车票实施网上订票。
2011年12月23日,铁道部最终兑现在年底前网络售票覆盖所有车次的承诺。
2013年11月20日,12306新增支付宝支付通道。
2013年12月6日,改版后的12306网站上线。
2013年12月8日,12306手机客户端正式开放下载。
自2015年11月26日铁路春运售票工作启动以来,截止12月15日,铁路部门共发售火车票1.7亿张,其中,通过12306网站发售车票突破1亿张,已占到售票总量60%。自2011年推出网络购票以来,12306网站累计发售火车票35亿张。
自2017年7月17日起,乘坐G、D字头列车的乘客可以通过12306网站或客户端提前预订动车上的饭菜以及站外的食物。同时,如果是通过电话、车站窗口、代售点、自动售票机等其他方式购票,也可登录12306网站或移动客户端,从首页选择“订餐服务”,输入车次和联系人信息后,同样能进行点餐,可以通过微信和支付宝实现快捷支付。
另外,已经订好的旅客,如果要进行网上退票、改签、变更到站,系统会自动提醒旅客进行退餐,在实体窗口进行了以上操作的旅客,也可在网上自行办理退餐。【意味着,铁路体系的用户餐饮消费记录最早可以溯源到2017年7月。】
2019年5月,来自中国国家铁路集团有限公司的统计显示,系统年售票量已超过31亿张,日售票能力达到1500万张,高峰时每秒售票量达700张,网页浏览量超过1500亿次/天。互联网售票占铁路售票总量的82.8%,12306已经成为世界上规模最大的实时票务交易系统。【10000次浏览量才有1张票成交,万分一的成交率。这其中应该大多都是抢票软件带来的流量。】
中国铁路客票系统作为全球交易量最大的铁路票务系统,已服务8亿人群,并有3亿12306网站注册用户,2亿12306客户端总装机量。
二、铁路客运用户画像系统
大众出行的工具无非就是自行车、摩托车、汽车、客车、铁路、航空、海运等。铁路作为人们出行的重要交通工具之一,一开始也只是想着或者只提供单一的快速出行服务。但互联网的高速发展、给予了铁路更便捷的购票方式体验,而高速铁路班次的开通为注重出行质量的群体多了一个选择,这样的基础环境下,铁路用户的数量增长很快。
但其实还是会持续面临竞争对手汽运、空运的竞争,并且互联网时代用户都习惯了一条龙的服务。即便是传统的铁路服务也不能不随之升级转变,逐渐往生态合作的方向嵌入出行链前后的产品服务,提升用户体验,提升竞争能力,也为铁路集团延展了更多的收入入口。
例如站车WIFI运营服务、互联网订餐、约车、酒店、旅游等延伸服务系统,延伸服务的开发为铁路客运一站式服务提供了基础。维护客户关系的核心的保障核心服务质量的同时,给与客户出行链条全方位的增值服务。
三、基于用户行为的用户画像
1. 铁路旅客画像
铁路旅客用户画像系统是通过对铁路用户的行为数据、交易数据等进行采集、加工和分析,形成用户精准画像数据,为旅客提供精准服务推荐和个性化的客运服务,对内提升铁路客户服务能力和行业核心竞争力,对外支撑精准广告投放以及开展数据增值服务。
四、铁路用户画像实现步骤
构建用户画像包含以下步骤:
4.1 数据源分析
构建用户画像是对用户行为数据的抽象表示,所以需要的数据源包括用户相关的所有数据。首先针对用户行为数据进行分类,将数据分成静态数据和动态数据。静态数据主要包括人口属性、社会属性、账户属性、商业属性等;动态数据包括访问行为、接触点行为、交易行为等。
【铁路自身的风控系统,针对防黄牛、薅羊毛、恶意抢占票的数据基本都是以动态数据为主】
五、客列车分类【主要关注GCD列车】
1. 高速动车组列车(G字头)
2009年12月26日起,武广高铁开行23趟列车,依据规定,武广高铁开行高速动车组的车次有个新字母打头,为“G”,寓意为“高速”。目前在设计时速为300公里或350公里的线路上运行时,最高时速为300公里,铁路系统标准念法为“高**次”。例如:G字开头1号车G1001次就是武汉站~广州南站直达列车。
2. 城际动车组列车(C字头)
2008年8月1日,京津城际铁路正式对公众运行,新启用车次为C+4位数字,意为城际列车,目前最高时速是300公里,铁路系统标准念法为“城**次”。京津城际的车次范围是C2001~C2282次。例如:武汉城际列车的车次范围是C5001~C5720。
3. 普通动车组列车(D字头)
目前,在设计为每小时300公里或每小时350公里的线路上行驶时,最高速度为每小时250公里。当在设计为250公里/小时或200公里/小时的路线上行驶时,最大速度为200公里/小时。
4. 直达特快旅客列车(Z字头)
最高速度是每小时160公里,铁路系统的标准代码是“直行时间”。其中大多数是整排软座,少数汽车配备硬卧和硬座,只有一些汽车停在终点站所在的火车站和/或铁路局内的大车站。这种火车是空调火车。
5. 特快旅客列车(T字头)
最高时速140公里,铁路系统标准念法为“特**次”。跨局特快全程只停省会城市、副省级市和少量主要地级市等特大站或直达,管内特快全程一般只停地级市。此类列车为空调列车。
6. 快速旅客列车(K字头)
最高时速120公里,铁路系统标准念法为“快**次”。全程停靠地级市类的中大站,也有少量直达的。此类列车95%以上为空调列车。其中K1-K2000为跨局列车,K7001-K9850为管内列车。
7. 普通旅客快车(普快)
范围是1001-5998,即快速客运列车,停靠在县级市和大多数县级大中型车站,大约有40列这种类型的火车。其中,1001-1998是长途列车跨越3局或更多局的本地列车,2001-2998是跨越2局的列车,4001-5998是短途列车铁路局内的本地列车。
8. 普通旅客列车
简称普客,或慢车,正规的说法中没有“普慢”。范围为6001-7598,停靠大部分可以停靠的站点。由于票价低廉,列车基本上“站站停”,很受沿线乘客喜爱。
9. 临时旅客列车(L字头)
在客流高峰期间运营的临时快速客运列车停靠在县级市和大多数县级主要车站,铁路系统的标准代码为“临时”。这种火车通常在春夏季和国庆节期间行驶。跨局临时旅客列车通常没有空调,这也被称为“农民工专列”。
10. 旅游列车(Y字头)
只有极少数的旅游列车使用这个数字,铁路系统的标准代码是“旅行时间”。其中Y1-Y498是局间列车,Y501-Y998是管内列车。
目前只有北京,天津存在这种列车,运行区间为北京北站~延庆站/沙城站,天津站/北站~宝坻/蓟县。
- 动车组列车:一等座、二等座、部分列车有商务座;还有部分夜间运行的动车组列车有软卧。
- 直达特快列车:以软卧为主,部分列车挂有硬卧和硬座或高级软卧;
- 特快列车:硬座、硬卧、软卧、部分有高级软卧或软座;
- 快速列车:硬座、硬卧、软卧,很少一部分有软座;
- 临时旅客列车、普通列车与快速列车基本相同;
- 城际动车组列车:一等座、二等座;
- 高速列车:一等座、二等座、商务座。
六、指标分析逻辑举例
6.1 单个指标分析
头等舱的多数有钱人;折扣票据的多是普通阶层且提前有计划的,或出游的或定时出差的;当天往返或隔天往返的基本都是商务出行;节假日往返的多是旅游或探亲。
6.2 多指标分析
年龄+价格:低年龄+折扣票据属于正常资质用户层;低年龄+正常票价或头等舱的不是富二代就是创业老板;中年+折扣票据的或是旅游客群或是普通阶层;中年+正常票据属正常阶层;中年+头等舱偏老板阶层(公务舱结合分析类似)。
往返地+身份证归属地:目的地与身份证归属地一致的,一般是回家探亲的;出发地与身份证归属地一致的,一般是常驻城市(可结合出发地次数增强判断)。
出行频率+目的地:出行频率高的,目的地基本一样的,基本是商务出行,且属于高端商务了,业务稳定的;出行频率高,但目的地经常变换的,大部分是开拓市场的或者是经常出游的。
另外,铁路出行黑名单可用来判断用户失信行为,能出现在出行失信名单的用户,证明在出行过程中有出现严重的不良行为,那保不准其在真实贷款后,会有不还款或者在催收环节恶意辱骂催收人员的行为。
只不过这部分人群数量过少,出行黑名单是从2018年下旬才逐渐按月公布,每期公布名单一般几百到上千个失信人度等,当信贷公司每天几万几十万的调用过程,只为查询这个几千个航旅失信名单,实际应用价值不大,也会增加中间的查询耗时,影响用户体验。
6.3 通过旅客周转量及客流量做分析
2018年每月份全国铁路旅客周转量及客流量
2018年全国铁路客流量为33.75亿人次,旅客周转量为14147亿人公里,人均运转里程为419公里。
2017年全国铁路客流量为30.84亿人次。
2017年全国铁路旅客周转量为13457亿人公里。
2017年全国铁路旅客人均运转里程为436公里。
2018年一到十二月份全国铁路主要指标完成情况表:
这个数据表可以根据当前建模溯源要求自行补充分析,主要是从月份周期中先定位大部分人群的出行目的、家乡位置等,非特殊月份进行商务、出差、通勤的分析会更精确。另外出行人次及公里数在给政府做人口迁徙流动决策分析时比较有用。
6.4 通过客运量做分析
2018年全国各大铁路局的客运量排名:
NO.1 上海局(客运量:6.78亿人;客票收入:768亿元)2018年发送旅人人数6.78亿人,(2017年6.28亿人),同比增长7.8%。客票收入方面,2018年768亿元,(2017年703亿元),同比增长9.2%。
NO.2 广州局(客运量:4.7亿人;客票收入:579.5亿元)2018年发送旅客人数4.7亿人,(2017年4.134亿人),同比增长13.7%。广州局旅客发送人数增长量排第一,增长幅度排第5。客票收入方面,579.5亿元,(2017年511亿元),同比增长13.4%,增量第一,增幅第六。
NO.3 北京局(客运量:3.2亿人;客票收入:456.7亿元)2108年发送旅客3.2亿人,(2017年3.07亿人),同比增长4.3%;客票收入方面,456.7亿元,(2017年430.7亿元),同比增长6%。
NO.4 成都局(客运量:2.93亿人;客票收入:289.3亿元)2018年旅客发送人数,2.93亿人,(2017年2.45亿人),同比增长19.4%,增量排名与增幅排名均排第三位。客票收入方面:2018年收入289.3亿元,(2017年222亿元),同比增长30.2%,增幅排第三。
NO.5 沈阳局(客运量:2.37亿人;客票收入:185.5亿元)2018年旅客发送人数2.37亿人,(2017年2.35亿人),同比增长1%;客票收入方面185.5亿元,(2017年178.3亿元),同比增长4%。
NO.6 南昌局(客运量:2.36亿人;客票收入:230亿元)2018年旅客发送人数2.36亿人,(2017年2.22亿),同比增长6.4%;客票收入方面,230亿元,(2017年210亿元),同比增长9.4%。
NO.7 武汉局(客运量:1.84亿人;客票收入:212亿元)2018年旅客发送人数1.84亿人,(2017年1.76亿人),同比增长4.5%;客票收入方面,212亿元,(2017年193.7亿元),同比增长9.5%。
NO.8 济南局(客运量:1.46亿人;客票收入:153.8亿元)2018年旅客发送人数1.46亿人,(2017年1.35亿人),同比增长7.4%;客票收入方面,153.8亿元,(2017年145.4亿元),同比增长5.7%。
NO.9 郑州局(客运量:1.35亿人;客票收入:146.7亿元)2018年旅客发送人数1.35亿人,(2017年1.27亿人),同比增长6.8%;客票收入方面,146.7亿元,(2017年135亿元),同比增长8.6%。
NO.10 南宁局(客运量:1.15亿人;客票收入:99.4亿元)2018年旅客发送人数1.15亿人,(2017年1.03亿人),同比增长12.1%;客票收入方面,99.4亿元,(2017年86.6亿元),同比增长14.7%。
NO.11 西安局(客运量:1.11亿人;客票收入:126亿元)2018年旅客发送人数1.11亿人,(2017年9071.6万人),同比增长22.6%,增幅全路第一,增量2054.7万人,增量也排到了第4位;客票收入方面,126亿元,(2017年96.4亿元),同比增长30.6%,客票收入方面,西安局增幅同样位居第一。
NO.12 哈尔滨局(客运量:1.1亿人;客票收入:82.7亿元)2018年旅客发送人数1.1亿人,(2017年1.12亿人),同比增长﹣1.3%,18个铁路局里面唯一一个负增长的铁路局;客票收入方面,82.7亿元,(2017年80.7亿元),同比增长2.4%。
NO.13 太原局(客运量:7520.7万人;客票收入:50.4亿元)2018年旅客发送人数7520.7万人,(2017年7313万人),同比增长2.8%;客票收入方面,50.4亿元,(2017年45.7亿元),同比增长10.2%。
NO.14 兰州局(客运量:6082.7万人;客票收入:56.99亿元)2018年旅客发送人数6082.7万人,(2017年5006万人),同比增长21.4%;客票收入方面,56.99亿元,(2017年48.74亿元),同比增长16.9%。
NO.15 昆明局(客运量:5463.5万人;客票收入:56.9亿元)2018年旅客发送人数5463.5万人,(2017年4759.6万人),同比增长14.7%;客票收入方面,56.9亿元,(2017年43.6亿元),同比增长30.5%,客票收入增幅排名第2。
NO.16 乌鲁木齐局(客运量:3802.5万人;客票收入:51.2亿元)2018年旅客发送人数3802.5万人,(2017年3557.9万人),同比增长6.8%;客票收入方面,51.2亿元,(2017年46.3亿元),同比增长10.7%。
NO.17 呼和浩特局(客运量:3566.6万人;客票收入:24.7亿元)2018年旅客发送人数3566.6万人,(2017年3467万人),同比增长2.8%;客票收入方面,24.7亿元,(2017年24.2亿元),同比增长2.3%。
NO.18 青藏铁路公司(客运量:1636.4万人;客票收入:21.5亿元)2018年旅客发送人数1636.4万人,(2017年1480.3万人),同比增长10.5%;客票收入方面,21.5亿元,(2017年19.9亿元),同比增长8.1%。
以上罗列的数据目的是找出铁路出行频率最高的城市集群,然后结合城市集群的经济发展及就业工资分布,可以交叉获取群体的资质能力。出行频率不高的城市集群或者是线下金融机构可以考虑的布点选择或者通过其他出行工具数据补充轨迹信息,获取群体资质能力。
七、用户画像系统铁路公司对外应用场景
铁路互联网售票系统上线以来注册用户已经超过3.5亿,乘车用户超过8亿,每天都产生海量的用户行为日志数据。随着铁路12306互联网售票系统,站车WIFI运营服务、广告平台、互联网订餐等系统数据的不断规范和收集,数据中已经囊括了铁路客运多年的运营数据,包括对客票产品的清晰描述和定位、对旅客的行为收集可达“可视化”程度、对延伸产品的转化的理解等方面,急需从平台囊括的万千数据中,借鉴当前互联网产品的发展模式,找寻适合铁路发展的数据增值应用,提高铁路客运的整体效益和服务水平。
铁路客运用户画像系统实现对全路局交通场景的信息以及延伸服务产生的数据进行交互、汇集、共享,通过数据清理和挖掘分析,为各种铁路客运服务系统进行资源管理、分析与服务提供支持。同时,根据具体的客运业务系统的需要,进一步开发扩展支撑功能。
增值服务主要针对六个方面:核验服务、精准营销、业务预测、风险识别、征信服务。它们都是构建在精准刻画的用户画像的基础之上,其往往存在目标人群定位不准确、轻视用户行为两个问题。而我们的目标是建立精准的“用户画像”,以来支撑构建出准确的用户分群和利用机器学习算法构建的精准营销(个性化推荐)系统、预测系统、风险识别系统、征信服务系统等。
7.1 核验服务
2015年年底央行发布的《非银行支付机构网络支付业务管理办法》。这份新的非银支付管理办法于2016年7月1日起正式实施。其要求支付机构为客户开立支付账户的,应当对客户实行实名制管理[45]。
无论从保障消费者权益、防范非法活动、降低支付风险、促进行业发展等那个角度来看,第三方支付实名制都是一件利国利民的好事。但在推行和实施的过程中,无论监管机构,还是支付机构,如能更好的兼顾用户体验,才能把好事办好。毕竟第三方支付行业胜在高效的支付效率和较低的用户交易成本,而差的用户体验必然增加用户交易成本甚至降低支付成功率。这无疑不利于仍然处于起步阶段的网络支付行业持续发展。
忙于响应监管、却疏于兼顾用户体验,支付宝、微信支付等主流第三方支付平台近期对于实名验证流程的大步推进,也让不少用户不由叫苦。各第三方支付平台急切需要简化用户核验流程,在提高用户体验的情况下完成用户的核验,故需要借助外部系统提供的核验服务。
而铁路为了保障铁路旅客生命财产安全,维护旅客运输秩序几年前就开始实行实名制,旅客通过互联网、电话等方式购票时,购票人需要提供真实准确的乘车人有效身份证件信息;取票时,应当提供乘车人的有效身份证件原件或者复印件。
目前铁路互联网售票系统注册用户突破3.5亿,乘车旅客信息超过7个亿,全部旅客信息都是通过实名制核验的。所有的数据都是真实可靠的,所以铁路客运用户画像系统可以对第三方服务平台提供身份核验服务,发挥铁路旅客数据的价值,降低第三方支付平台实名制实施的难度。
当然铁路的身份核验服务肯定不如公安部的身份核验服务覆盖率、准确性及时效性,对于一些非涉及资金及敏感信息的场景,铁路的身份核验服务可以使用。
7.2 精准营销
对于互联网的营销原本就属于数据驱动的领域,大数据更是提供了一个前所未有的机会,以大数据为基础的智能营销是行业发展的必然趋势。
近几年为了满足旅客现代化、多元化、全行程、综合性的出行服务需求,提高铁路整体形象,按照“统一规划、协同建设、分级管理、资源共享”的组织原则,建设铁路客运延伸服务系统,开展餐饮服务、酒店预订、旅游预订、定制服务、行程信息服务、站车商业、体验店等围绕旅客出行的业务服务和各业务销售渠道的广告管理业务。
随着铁路延伸服务的不断完善,铁路客运互联网产品个数和种类快速增长,信息过载是铁路客运大数据环境下最严重的问题之一。这种浏览大量无关的信息和产品过程,无疑会使淹没在信息过载问题中的用户不断流失。
推荐系统作为有效缓解该问题的方法,受到工业界和学术界越来越多的关注。如何充分利用丰富的用户反馈、社会化网络等信息进一步提高推荐系统的性能和用户满意度,成为大数据环境下推荐系统的主要任务。用户需要花费大量的时间才能找到自己想买的产品。
根据旅客的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。为了解决这些问题,铁路客运用户画像系统需要构建个性化推荐系统。
该系统是建立在海量用户画像系统的应用数据挖掘基础上,进行准确定位产品与用户关系的智能服务系统,常见的算法有:协同过滤、基于内容的推荐、基于人口统计学的推荐,为了兼顾各个算法的优点,采用混合推荐算法,为铁路延伸服务系统传入不同推荐算法的推荐的产品列表,以帮助铁路延伸服务为其用户购买产品提供完全个性化的决策支持和信息服务。
7.3 业务预测
(1)旅客流量预测
铁路以其运量大、速度快、低效能、污染少、安全可靠等不可替代的优势,逐渐成为了城市间公共客运系统的骨干架构。然而,单一地考虑某一条线路的走向、站点位置,而未从全局整体规划考虑,就不可避免的造成资源的浪费。
铁路客运为了保持市场竞争力,实现利润最大化,需要了解日常铁路客运流量、淡旺季变动指数、冷热门线路。其中,为了准确把握市场,需要对客流进行充分的了解和预测。
(2)餐饮服务预测大数据应用显现出巨大的经济价值。
正是由于餐饮行业竞争激烈而又利润微薄,要想成功实属不易,不少餐馆开始转向大数据以获得竞争优势。而对于餐饮业,大数据的关键在于数据分析的能力,有效的数据分析能力才可能产生高质量的结果。良好的数据资产将成为未来核心竞争力,一切皆可被数据化,铁路客运系统目前服务的用户量已超过7亿,每天会产生大量的数据,这些数据的积累,有助于企业进行预测和决策。
基于铁路客运用户画像系统收集的用户行为数据,通过深入分析,用户的基本信息、消费频次、点菜口味、消费水平等都会被发现,并将其进行提炼,分析有助于企业进行预测和决策,并将其运用到餐饮行业“进、销、存、管理运营”等四个重要节点。
(3)酒店服务预测
市场预测是酒店开展收益管理工作的基础,其主要作用是为酒店收益管理人员获取市场信息、掌握未来市场的需求变化情况,分析顾客的消费行为、实施客房预订与存量控制,价格决策以及确定超订量等提供必需的数据。同时,也为酒店管理者制定市场战略和进行市场决策提供重要的参考依据。
(4)旅游服务预测
旅游行业是大数据应用前景最广阔的行业之一,对用户的行为分析,可以准确预知客流趋向,进而采取相应的措施疏导客流。可以知道游客喜欢什么样的产品,进而开发建设适销对路的产品;还可以知道游客需要什么样的公共服务,进而改进旅游公共服务。
通过铁路客运的海量用户行为数据,进行数据挖掘,可以准确的分析出旅游的客源市场在哪里、哪些产品是消费者关注的,这就为精准营销提供了重要的数据支撑。
7.4 风险识别
(1)异常购票用户识别
为了识别异常用户主要使用两种方案:用户与客票系统交互日志;用户常用联系人之间的关系网络。
用户行为日志作为铁路互联网售票系统提供服务过程中,用户与系统交互过程中产生的有关用户访问行为的数据,日志数据详细描述用户对互联网售票系统的使用情况,通过对海量的购票日志数据进行数据分析,挖掘并提取出用户异常购票行为特征,建立规则库,根据规则识别出异常购票行为。
基于用户的常用联系人构建关系网络,识别出异常用户的子拓扑图,根据识别出的子拓扑图在全量用户及常用联系人的关系网络中进行相似度计算,识别出危险性较高的用户。
通过离线分析识别出异常购票行为和异常购票用户的识别模型,当用户在铁路互联网售票系统购票过程中,实时的收集该用户的行为日志数据以及基本数据(个人信息、常用联系人信息等),并与离线分析出的识别模型进行匹配,从而达到实时的管控和打击黄牛党刷票等行为的目的,维护了互联网售票交易的公平性。
(2)羊毛党识别
羊毛党以多种形式存在于网络里。虚拟多台电脑设备并使用IP欺骗的方式,用软件同时控制多台智能终端做为肉机,在社区软件里组成关联群、招聘“兼职人员”等等,专业的羊毛党可以用极低的成本获取极高的收入,致使许多电商、O2O平台损失惨重,甚至被搞垮。
运用技术手段,在注册环节减少恶意软件的入侵;提高领取门槛;完善用户的信息审核,邀请用户填写仔细的个人资料,锁定IP,设定最大阈值的注册量,通过相关历史数据,对已注册用户进行比对,通过规则对其进行识别等。
八、用户画像系统的应用
8.1 征信服务
大数据的发展对征信发展起到了非常大的促进作用,征信最早起源于消费分期,没有定量的描述。进入大数据时代,用户的行为数据得到了沉淀和积累,可以使用机器学习和数据统计的模型来计算和评估用户的信用,从而促进社会诚信建设的快速发展。
九、铁路数据应用场景及价值
以下围绕铁路数据在社会及经济2个维度,简单罗列相应的应用场景供参考。
9.1 社会价值
(1)为政府部门提供宏观经济分析报告
铁路客流大数据及货运大数据均体现覆盖区域的人口流动及经济变动情况,形成全国或区域化的宏观经济分析报告,可为政府部门提供全国及区域经济变动情况,辅助政府部门实施更精确的宏观经济调控策略及手段。
(2)与执法部门实现联防联控
铁路大数据已覆盖全国超过8亿的人口,是人民群众出行的主要交通工具,因此铁路部门可以与执法部门联通,联防联控,及时发现犯罪分子的踪迹,实现快速精确打击抓捕犯罪分子的目的,保障铁路出行安全及社会稳定。
(3)助力智慧城市的发展
通过对铁路大数据的挖掘分析及提取,通过XXX打通各部委数据,打造适合智慧城市需求的数据产品,助力智慧城市的发展,实现对城市的精细化和智能化管理,从而减少资源消耗,降低环境污染,解决交通拥堵,消除安全隐患,最终实现城市的可持续发展。
(4)打造包括铁路、高速、国道及海事等全面的交通运输信用体系
通过整合共享公路建设、水运工程建设、道路运输、水路运输、安全生产、海事执法,以及铁路、民航、邮政等领域的信用信息,与全国信用信息共享平台、国家企业信用信息公示系统等国家级平台进行对接共享。推动奖惩信息在行政许可、招标投标等业务系统中的应用,加快构建“守信者无事不扰,失信者利剑高悬”的奖惩格局。
(5)打造铁路智慧供应链,支撑实现货运跨界收益
铁路智慧供应链利用铁路物流平台,实现上下游供应链及并行的商贸或生产供应链间的资源配置优化,促进物流服务产业链直接相关的商贸及供应链金融服务体系融合,并将通过“运贸融一体化”来获取跨界收益。
(6)为优化交通接驳设施提供决策支持
不同区域、不同季节、不同时间的铁路客运量是不一样的,针对铁路客运数据的统计分析,为各站点所在城市的交通部门提供交通接驳设施安排及规划,为乘客带来从铁路出口直达城区中心或各景点区域地带的无缝链接交通乘坐体验。
(7)为打造旅游景点选址提供铁路热力数据支持
政府或投资机构可以选择全国铁路乘客热力数据,从人口集中游玩的区域中挖掘适合打造新的旅游景点的数据支撑,或者为扩充景点区域提供可靠游客流量数据支撑。
(8)为政府实现流动人口监测提供人口流动数据做参考
外来人口大部分都是通过铁路运输实现的,特别是长距离迁徙。而外来人口是各个城市都需要重点关注的,不管是短期游玩还是长期居住。因此铁路的客流数据可以提前告知各个城市监管部门,提前做好外来人口的流动监控。
(9)为物流园区科学布点规划提供运力数据参考
铁路历年货运数据可以支撑货运起始地、中转地及目的地三地的物流园区选择,实现铁转路或路转铁的运力调配最优,降低运输链条上各企业的物流运输成本,提高装卸货及运输的效率。
(10)为物流公司提供铁路运输信用体系的不良运输企业名单,降低合作风险
铁路运输体系中涉及的关联运输企业数量众多,这个合作过程中产生的不良运输企业名单,可以为各物流公司在选择合作伙伴时及时发现潜在风险,降低合作后的损失。
(11)为商业车险保费定价提供相关决策支持
商车保费定价中行驶里程、约定行驶区域、车型、投保车辆数、绝对免赔额等都会影响其定价,与铁路货运长期合作的车辆行驶区域相对稳定,里程也比较清晰,有利于车险公司实现更精确的车险保费定价。
9.2 经济价值
(1)为保险机构提供经营决策支持
保险机构根据存量客群在保险机构及铁路场景的活跃度,根据年龄、性别、舱位等级、频次及出发到达地点等维度,打造不同保费、保额及保期的出行意外险甚至健康险或寿险等,实现千人千面千险的产品创新,满足不同保险客群的实际保障需求。
根据中国银保监会发布的2018年保险数据统计报告显示,2018年保险业新增保单件数290.72亿件,同比增长66.13%。其中,寿险本年新增累计保单0.89亿件;健康险32.01亿件,增长417.28%;意外险64.99亿件,增长168.51%。
寿险、健康险及意外险年新增保单约98亿件,均主要是与人相关的险种,因此在做营销画像可借助铁路大数据达到更好的效果。假设保险机构20%的客户是通过铁路大数据优化经营决策转化的,每次调用接口费用3元,则可为中铁带来58.8亿元的年收入规模(铁路大数据单次使用总费用按3元,以下例子同理)。
(2)满足保险机构投保反欺诈需求
保险反欺诈主要针对车险及寿险产品,通过对铁路大数据各维度的挖掘,结合外部风险数据,综合判断新增投保及存量续保客户是否有投保欺诈行为的潜在风险。
而2018年寿险本年新增累计保单0.89亿件,车险4.48亿件,假设其中20%的保单的反欺诈是通过铁路大数据实现的,则可为中铁带来3.2亿元的年收入规模。
(3)为旅游机构提供经营决策支持
2018年国内旅游55.39亿人次,而国家铁路旅客发送量完成33.17亿人次。铁路旅客人次少于旅游人次,则可以铁路人次数据作为评估标准。假设铁路人次中有80%是通过铁路出行旅游的(剩下20%为非旅游需求),则也有26.5亿人次,其中平台20%的用户通过通过铁路大数据优化经营决策转化的,则可以带来15.9亿元的年收入规模。
(4)为银行机构提供经营决策支持
随着居民可支配结余资金的稳定增长,国人们对理财的潜在需求在持续提升。同时,互联网网民人数稳定增长以及支付技术的快速发展等为互联网理财的发展提供了基础。
截至2018年12月,我国购买互联网理财产品的网民规模达1.51亿,则各大平台需要对共15亿的注册用户进行资质分层才能知道哪些是优质客群(转化率按照10%反推计算注册用户数量),则可为中铁带来45亿的年收入规模。
(5)为电商平台提供经营决策支持
截至2018年12月,我国网民规模为8.29亿,假设电商平台用户基本覆盖网民,则电商平台用户总数也为8.29亿元,如每人每年需要消费一次,电商平台需要对这些用户进行资质分层,判断该向平台用户推送什么产品。假设平台20%的用户通过铁路大数据优化经营决策转化的,则可带来近5亿的年收入规模。
(6)为教育机构提供经营决策支持
2013年至2017年,毕业生总数从700万人增至800万人,年复合增长率为3.3%,并将于2022年达到930万人。不断增长的高校毕业生总数使其求职竞争更加激烈,毕业生们对职业技能培训的需求增加。
截至2018年上半年,在线教育人数达1.72亿,按照年30%的增长率,新增部分人数是通过铁路大数据优化经营决策转化的,则可带来1.5亿元的年收入规模。
(7)为酒店平台提供经营决策支持
截至2018年12月,在线旅行预订用户规模达4.10亿,较2017年底增长3423万,增长率为9.1%,占网民整体比例达49.5%。网上预订机票、酒店、火车票和旅游度假产品的网民比例分别为27.5%、30.3%、42.7%和14.5%。则酒店在线预订用户数量有近1.24亿人,假设其中平台30%的用户通过铁路大数据优化经营决策转化的,则可带来1.1亿元的年收入规模。
(8)为网约车平台提供经营决策支持
截至2018年12月,我国网约出租车用户规模达3.30亿,假设其中平台30%的用户通过铁路大数据优化经营决策转化的,则可带来2.97亿元的年收入规模。
十、结语
除了以上场景外,现在使用数据比较成熟也比较愿意花钱的,其实都是金融或与金融相关的风控场景、然后才是营销获客的客户分层场景。而风控场景除了公安、银联、运营商及设备数据算是比较易得及实现比较多外,包括铁路数据这些国有数据,99%的风控人员都基本没接触过,更别说运用在风控建模上了。
而现在大数据行业的发展已经是国家重点推进的,因此可用的数据维度其实会越来越多,不仅风控人员不仅需要时刻关注,并了解更多新的有效数据。各行各业与数据相关的其实都需要关注不同数据的应用逻辑,保持数据应用敏感度,这才可以将可得数据在合规的前提最快的应用起来,不管对内还是对外。
主要参考材料:
- 基于出行全过程的旅客城市群出行方式选择,研究基于大数据的铁路客运用户画像系统研究及应用
- 基于计划行为学的旅客中长距离出行方式选择行为研究
- 基于客票特征数据的我国高速铁路旅客出行行为分析研究
- 基于铁路出行数据的旅客常住地智能识别算法研究
- 其他网上公开相关材料