Yelp的数据管道开源了/中国直播网|中国直播网

Yelp的数据管道开源了

2016-12-26 23:17来源：编辑：轩皓宇

在过去的几个月里，中国直播网，Yelp一直在不断地向大家分享着他们的数据管道的情况(文章列表见页尾)。这是一套基于Python的工具，可以实时地将数据流向需要它们的服务，并随之加以必要的数据处理。这一系列的文章讲述了如何从MySQL中将消息复制出来、如何跟踪模式的变化及演进、并最终分享了如何把数据接入到Redshift和Salesforce等不同类型的目标存储。

幸好Yelp非常慷慨，他们不只是分享了自己的设计思路和经验，更是赶在圣诞节之前向大家献上了一份大礼，中国直播网，把主要模块开源出来了!

在读过了所有这些关于我们的数据管道的文章之后，可能你会觉得我们这些Yelp的人不过是像一个孩子在向大家炫耀他的新玩具一样，肯定会自己捂得严严的，不会和大家分享。但是和大多数有了新玩具又不会分享的孩子一样，我们愿意分享——所以我们最终决定要把我们的数据管道的主体部分开源出来，然后大家就可以开心地迎来新年假期了。

闲话少说，下面这些就是Yelp为大家的假期准备的圣诞礼物：

MySQL Streamer会不断地查看MySQL的binlog，得到最新的表变更操作。Streamer负责捕获MySQL数据库上的单条数据更改操作，并把它封装成Kafka消息，发布到Kafka的某个Topic中。如果有必要，也会做模式转换。

Schematizer服务会跟踪每一条消息所使用的模式信息。在有新模式出现时，Schematizer会处理注册消息，并为下游的表生成更改计划。

Data Pipeline clientlib为生产和消费Kafka消息提供了非常易用的接口。有了clientlib，就再也不必关心Kafka的Topic名字、加密或消费者程序的分区情况了。你可以站在表和数据库的角度去考虑问题，不必关心其它细节。

Data Pipeline Avro utility包提供了读写Avro模式的Python接口。它也可以为表的主键等模式信息提供枚举类，这一点Yelp在实践中发现非常有用。

Yelp Kafka库扩展了Kafka-python包，并提供了多重处理消费者组等新功能。这个库可以帮助大家非常高效地与Kafka进行交互。这个库也让用户可以判断出Yelp内部的Kafka跨区域部署情况。

数据管道中不同组成部分的概览图。单个服务用方形表示，而共享包用圆角表示。

这些项目每个都有Docker化的服务，你可以很容易地把它们用到你的架构中。我们希望对于每个用Python构建实时流处理程序的开发者来说，它们都能有用。

有了之前的文章介绍，现在又有了开源的代码，相信有许多数据处理工程师的圣诞假期都会过得无比充实了。

Yelp的系列文章深度讲解了他们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去，他们如何自动跟踪表模式变化、如何处理和转换流，以及最终如何把这些数据存储到Redshift或Salesforce 之类的数据仓库中去。

每天处理几十亿条消息：Yelp的实时数据管道

Yelp的实时流技术之二：将MySQL表数据变更实时流到Kafka中

Yelp的实时流技术之三：不止是模式存储服务的Schematizer

Yelp的实时流技术之四：流处理器PaaStorm

Yelp的实时流技术之五：数据管道之Salesforce Connector

Yelp的实时流技术之六：近实时地将Kafka中的数据流入Redshift

特别声明：本文为中国直播网直播号作者或机构上传并发布，仅代表该作者或机构观点，不代表中国直播网的观点或立场，中国直播网仅提供信息发布平台。
版权声明：版权归著作权人，转载仅限于传递更多信息，如来源标注错误侵害了您的权利，请来邮件通知删除，一起成长谢谢
欢迎加入：直播号，开启无限创作！一个敢纰漏真实事件，说真话的创作分享平台，一个原则：只要真实，不怕事大，有线索就报料吧！申请直播号请用电脑访问https://zbh.zhibotv.com.cn。

标签：

Yelp的数据管道开源了

相关资讯

热门频道

精彩推荐

热门标签

热门排行