Apache Spark结构化流处理与Apache Kafka实时端对端整合

编者按 本文翻译自DataBricks官方博客,主要描述了Apache Spark 2.0中推出的新功能Structured Streaming(结构化流处理)从Kafka中读取消息,实时处理后再写入不同的下游系统的使用示例。 结构化流处理API使得以一种兼具一致性和容错性的方法开发被称为连续应用的端到端流处理应用成为可能。它让开发者不用再去深究流处理本身的细节,而且允许开发者使用类似Spark SQL中的熟悉概念,比如DataFrames和DataSets。由于上述原因,很多人有兴趣仔细研究一些使用案例。从入门,到ETL,再到复杂的数据格式,都已经有了很多材料涉及了。结构化流处理API同样也可以和一些第三方的组件整合,比如Kafka,HDFS,S3,RDBMS等等。 »