您现在的位置:主页 > d99cc报码室开奖结果 >

d99cc报码室开奖结果

每天数百亿用户行为数据美团点评怎么实现秒级转化分析?

文章来源:本站原创作者:admin 发布时间:2019-09-17 点击数:

  用户行为分析是数据分析中非常重要的一项内容,在统计活跃用户,分析留存和转化率,改进产品体验、推动用户增长等领域有重要作用。美团点评每天收集的用户行为日志达到数百亿条,如何在海量数据集上实现对用户行为的快速灵活分析,成为一个巨大的挑战。为此,我们提出并实现了一套面向海量数据的用户行为分析解决方案,将单次分析的耗时从小时级降低到秒级,极大的改善了分析体验,提升了分析人员的工作效率。

  本文以有序漏斗的需求为例,详细介绍了问题分析和思路设计,以及工程实现和优化的全过程。

  下图描述了转化率分析中一个常见场景,对访问路径“首页-搜索-菜品-下单-支付”做分析,统计按照顺序访问每层节点的用户数,得到访问过程的转化率。

  统计上有一些维度约束,比如日期,时间窗口(整个访问过程在规定时间内完成,否则统计无效),城市或操作系统等,因此这也是一个典型的OLAP分析需求。此外,每个访问节点可能还有埋点属性,比如搜索页上的关键词属性,支付页的价格属性等。从结果上看,用户数是逐层收敛的,在可视化上构成了一个漏斗的形状,因此这一类需求又称之为“有序漏斗”。

  这类分析通常是基于用户行为的日志表上进行的,其中每行数据记录了某个用户的一次事件的相关信息,包括发生时间、用户ID、事件类型以及相关属性和维度信息等。现在业界流行的通常有两种解决思路。

  对于第一种解法,最大的问题是需要做大量join操作,而且关联条件除了ID的等值连接之外,还有时间戳的非等值连接。当数据规模不大时,这种用法没有什么问题。但随着数据规模越来越大,在几百亿的数据集上做join操作的代价非常高,甚至已经不可行。

  第二种解法有了改进,通过聚合的方式避免了join操作,改为对聚合后的数据通过UDAF做数据匹配。这种解法的问题是没有足够的筛选手段,这意味着几亿用户对应的几亿条数据都需要遍历筛选,在性能上也难以接受。

  那么这个问题的难点在哪里?为什么上述两个解法在实际应用中变得越来越不可行?主要问题有这么几点。

  基于上述难点和实际需求的分析,可以总结出几个实际困难,称之为“坏消息”。

  另一方面,还是能够从问题的分析中得到一些“好消息”, 这些也是在设计和优化中可以利用的点。

  如果用一句话总结这个问题的核心本质,那就是“多维分析和序列匹配基础上的去重计数”。具体来说,最终结果就是每层节点符合条件的UUID有多少个,也就是去重后的计数值。这里UUID要符合两个条件,一是符合维度的筛选,二是事件序列能匹配漏斗的定义。去重计数是相对好解的问题,那么问题的重点就是如果快速有效的做维度筛选和序列匹配。

  下图是部分行为日志的数据,前面已经提到,直接在这样的数据上做维度筛选和序列匹配都是很困难的,因此考虑如何对数据做预处理,以提高执行效率。

  很自然的想法是基于UUID做聚合,根据时间排序,这也是前面提到的UDAF的思路,如下图所示。这里的问题是没有过滤的手段,每个UUID都需要遍历,成本很高。

  再进一步,为了更快更方便的做过滤,考虑把维度和属性抽出来构成Key,把对应的UUID和时间戳组织起来构成value。如果有搜索引擎经验的话,很容易看出来这非常像倒排的思路。

  这个数据结构还是存在问题。比如说要拿到某个Key对应的UUID列表时,需要遍历所有的value才可以。再比如做时间序列的匹配,这里的时间戳信息被打散了,实际处理起来更困难。因此还可以在此基础上再优化。

  可以看到优化后的Key内容保持不变,value被拆成了UUID集合和时间戳序列集合这两部分,这样的好处有两点:一是可以做快速的UUID筛选,通过Key对应的UUID集合运算就可以达成;二是在做时间序列匹配时,对于匹配算法和IO效率都是很友好的,因为时间戳是统一连续存放的,在处理时很方便。

  基于上述的思路,最终的索引格式如下图所示。这里每个色块对应了一个索引的block,其中包括三部分内容,一是属性名和取值;二是对应的UUID集合,数据通过bitmap格式存储,在快速筛选时效率很高;三是每个UUID对应的时间戳序列,用于序列匹配,在存储时使用差值或变长编码等一些编码压缩手段提高存储效率。

  在实际应用中,通常会同时指定多个属性或维度条件,通过AND或OR的条件组织起来。这在处理时也很简单,通过语法分析可以把查询条件转为一颗表达树,树上的叶子节点对应的是单个索引数据,非叶子节点就是AND或OR类型的索引,通过并集或交集的思路做集合筛选和序列匹配即可。

  上面解决的是维度筛选的问题,另一个序列匹配的问题相对简单很多。基于上述的数据格式,开奖记录商场主要楼层的通道里可以找到自助榨汁机、迷你KTV和抓,读取UUID对应的每个事件的时间戳序列,检查是否能按照顺序匹配即可。需要注意的是,由于存在最大时间窗口的限制,匹配算法中需要考虑回溯的情况,下图展示了一个具体的例子。在第一次匹配过程中,由于第一层节点的起始时间戳为100,并且时间窗口为10,所以第二层节点的时间戳101符合要求,但第三层节点的时间戳112超过了最大截止时间戳110,因此只能匹配两层节点,但通过回溯之后,第二次可以完整的匹配三层节点。

  通过上述的讨论和设计,完整的算法如下图所示。其中的核心要点是先通过UUID集合做快速的过滤,再对过滤后的UUID分别做时间戳的匹配,同时上一层节点输出也作为下一层节点的输入,由此达到快速过滤的目的。

  首先明确的是需要一个分布式的服务,主要包括接口服务、计算框架和文件系统三部分。其中接口服务用于接收查询请求,分析请求并生成实际的查询逻辑;计算框架用于分布式的执行查询逻辑;文件系统存储实际的索引数据,用于响应具体的查询。

  1.简单。不管是架构设计,还是逻辑复杂度和运维成本,都希望尽可能简单。这样的系统可以快速落地,也比较容易掌控。

  2.成熟。评估一个系统是否成熟有很多方面,比如社区是否活跃,项目是否有明确的发展规划并能持续落地推进?再比如业界有没有足够多的成功案例,实际应用效果如何?一个成熟的系统在落地时的问题相对较少,出现问题也能参考其它案例比较容易的解决,从而很大程度上降低了整体系统的风险。

  3.可控。如果一个系统持续保持黑盒的状态,那只能是被动的使用,出了问题也很难解决。反之现在有很多的开源项目,可以拿到完整的代码,这样就可以有更强的掌控力,不管是问题的定位解决,还是修改、定制、优化等,都更容易实现。

  4.可调。一个设计良好的系统,在架构上一定是分层和模块化的,且有合理的抽象。在这样的架构下,针对其中一些逻辑做进一步定制或替换时就比较方便,不需要对代码做大范围的改动,降低了改造成本和出错概率。

  基于上述的选型思路,服务的三个核心架构分别选择了Spring,Spark和Alluxio。其中Spring的应用非常广泛,在实际案例和文档上都非常丰富,很容易落地实现;Spark本身是一个非常优秀的分布式计算框架,目前团队对Spark有很强的掌控力,调优经验也很丰富,这样只需要专注在计算逻辑的开发即可;Alluxio相对HDFS或HBase来说更加轻量,同时支持包括内存在内的多层异构存储,这些特性可能会在后续优化中得到利用。

  在具体的部署方式上,Spring Server单独启动,Spark和Alluxio都采用Standalone模式,且两个服务的slave节点在物理机上共同部署。Spring进程中通过SparkContext维持一个Spark长作业,这样接到查询请求后可以快速提交逻辑,避免了申请节点资源和启动Executor的时间开销。

  上述架构通过对数据的合理分区和资源的并发利用,可以实现一个查询请求在几分钟内完成。相对原来的几个小时有了很大改观,但还是不能满足交互式分析的需求,因此还需要做进一步的优化。

  有一句鸡汤说“以大多数人的努力程度而言,根本没有到拼天赋的地步”,套用在这里就是“以大多数系统的架构设计而言,根本没有到拼语言性能的地步”。语言本身不是门槛,代码大家都会写,但整个系统的架构是否合理,数据结构是否足够高效,这些设计依赖的是对问题本质的理解和工程上的权衡,这才是更考量设计能力和经验的地方。

  上述方案目前在美团点评内部已经实际落地,稳定运行超过半年以上。每天的数据有几百亿条,活跃用户达到了上亿的量级,埋点属性超过了百万,日均查询量几百次,单次查询的TP95时间小于5秒,完全能够满足交互式分析的预期。

  整个方案从业务需求的实际理解和深入分析出发,抽象出了维度筛选、序列匹配和去重计数三个核心问题,针对每个问题都给出了合理高效的解决方案,其中结合实际数据特点对数据结构的优化是方案的最大亮点。在方案的实际工程落地和优化过程中,秉持“简单、成熟、可控、可调”的选型原则,快速落地实现了高效架构,通过一系列的优化手段和技巧,最终达成了3~4个数量级的性能提升。

  业锐,2015年加入美团,现任美团点评数据平台查询引擎团队负责人。主要负责数据生产和查询引擎的改进优化和落地应用,专注于分布式计算,OLAP分析,Adhoc查询等领域,对分布式存储系统亦有丰富经验。

曾半仙| 集发彩坛| 马经历史图库| 大赢家心水论坛| 跑狗图| 仙人掌高手| 老钱柜| 一肖中特| 管家婆| 开奖结果| 2018马会特码梅花诗| 奇人中特| 牛牛高手论坛| 跑狗图| 扬红论坛|