1. 首页
  2. >
  3. 技术专题
  4. >
  5. ETL

支付宝健康码中的大数据技术

从1月开始的疫情让很多人的生活都按下了暂停键。许多行业已经遭遇不小创伤,尤其是餐饮、住宿、旅游、娱乐等行业。

支付宝健康码中的大数据技术

但是在互联网行业,由于信息技术的特殊性,利用互联网实现远程办公,远程工作成为了这一波疫情中很突出的一道风景线。

而在高度细分的IT产业中,最为引人注目的就是大数据技术人员!为什么这么说呢?且听我慢慢道来。

支付宝健康码中的大数据技术

举例来说,经历了3个月的疫情影响,国内很多城市已经开始陆续解封,各地复工的人员也越来越多,但是国外疫情却开始大规模蔓延,疫苗开发实现全体免疫还有待时日。

所以为了防止好不容易控制住的疫情出现反弹,各类基于大数据的应用层出不穷,在这些应用中使用最广泛的就是“健康码”这个应用。

我们来看下“健康码”技术原理,大家就明白为什么会大数据的人现在会这么抢手了。

支付宝健康码中的大数据技术

一、数据源

首先要说第一点数据源,“健康码”的生成包含了个人基础信息,例如人脸识别,同时结合了公安、移动运营商、卫健委、高铁、机场、高速公路道口等信息,由于此次公共卫生事件涉及10多亿人,而且每个人每天都会产生新的生活轨迹,所以在大数据时代,面对各种各样的数据“洪流”,如果希望从中提取出有效信息,就如同在高压水枪下喝一口水一样困难。

这样就凸显了大数据技术的重要性。

二、状态机

第二点则是状态机,用过健康码的同学都知道这个码会有三种颜色,红黄绿,大部分人的码是绿色的,代表健康,可以出入很多公共设施,例如商城,地铁或办公写字楼。

同时随着检疫手段的不断提高,最近又开始公布有无症状感染者等信息的披露,一旦发现有相关人员感染确诊,那么在指定时间和感染者有接触的相关人员也必须进入自我隔离状态,从码的角度来说就是会变成黄色。

那么这种数据的获取和处理就不是传统的静态数据的筛查,而是实时的动态数据的比对和监控,使用非大数据技术想完成这个功能,基本是天方夜谭。

那大数据技术是如何来做到的呢?

支付宝健康码中的大数据技术

首先从采集的角度来看,此次健康码的数据源不是静态数据源,而是动态数据源。

如果说双十一只是每年一次的平台压力测试,那么健康码则是每天都是平台的压力大考,利用数据接入层的负载均衡接入能力,后台每天都会产生数以亿计的数据量。

其次,从存储角度来看,利用大数据技术的海量存储功能,接近PB级别数据存储和扩容的能力,这也是传统技术无法做到的。

三、数据整合

其三,也是重中之重,仅仅把数据存储下来可不能解决健康码要解决的问题,关键是要数据分析和数据整合

所以利用大数据技术中最重要的ETL和流处理能力,不管是采用Spark架构的内存计算模型还是利用Flink的流处理模式,集合上千台服务器的计算能力,让我们的数据进行实时的比对,实时的处理成为了可能。