Link

AWS 分析服务

目录

  1. AWS 分析服务
    1. 参考文档
    2. Kinesis 流数据处理
      1. Kinesis Data Firehose
    3. EMR
    4. Amazon Athena
    5. Glue

参考文档

http://d0.awsstatic.com/whitepapers/aws-overview.pdf

Kinesis 流数据处理

快速收集、处理和分析实时的流数据。

  • Kinesis Video Streams:将视频从终端上传到 AWS 进行机器学习
  • Kinesis Data Streams:从上万的数据源中捕获数据
  • Kinesis Data Firehouse:捕获、转换数据流,并加载到数据存储(例如 S3)中

  • Kinesis Data Analytics:通过 SQL 或者 Apache Flink 实时处理信息流

Kinesis Data Firehose

Kinesis Data Firehose 是一种流 ETL 解决方案。其功能包括采集、转换流数据,并将其加载到 Amazon S3、Amazon Redshift、Amazon OpenSearch Service 和 Splunk,让您可以借助正在使用的现有业务情报工具和控制面板,进行近乎实时的分析。这是一项完全托管式服务,会自动扩展以匹配数据吞吐量,并且无需持续管理。它还可以在加载数据前对其进行批处理、压缩和加密,从而最大程度地减少目的地使用的存储量,同时提高安全性。

EMR

EMR 是行业领先的云大数据平台,适用于使用多种开源框架进行数据处理、交互分析和机器学习,例如 Apache Spark、Apache Hive、Presto。借助 EMR,您可以用不到传统本地解决方案一半的成本运行 PB 级分析,并且其速度比标准 Apache Spark 快 1.7 倍以上。

https://aws.amazon.com/cn/emr/faqs/?nc=sn&loc=5

Amazon Athena

Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 分析 Amazon S3 中的数据。Athena 简单易用。只需指向您存储在 S3 中的数据,定义架构并使用标准 SQL 开始查询。

Glue

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备和合并数据以进行分析、机器学习和应用程序开发的工作。 AWS Glue 提供数据集成所需的全部功能,使您只需几分钟时间便可以开始分析数据并将数据投入使用,而不用耗时几个月。

数据集成是指准备和合并数据以进行分析、机器学习和应用程序开发的过程。该过程包含多项任务,例如从各种来源发现和提取数据,丰富、清理、标准化和合并数据,以及在数据库、数据仓库和数据湖中加载和组织数据。这些任务通常由各自使用不同产品的不同类型的用户来处理。

您应该使用 AWS Glue 来发现您所拥有的数据的属性、将其进行转换并准备好进行分析。Glue 可以自动发现存储在 Amazon S3 数据湖、Amazon Redshift 数据仓库以及在 AWS 上运行的各种数据库中的结构化和半结构化数据。它通过 Glue 数据目录提供统一的数据视图,该数据目录可用于 ETL (Extract、Transform、Load)以及使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 等服务进行查询和报告。Glue 会自动为您的 ETL 作业生成 Scala 或 Python 代码,您可以使用熟悉的工具对这些代码进一步进行自定义。 您可以使用 AWS Glue DataBrew 以可视化方式清理和标准化数据,而无需编写代码。您应该使用 AWS Glue Elastic 视图在多个数据存储之间近乎实时地合并并连续复制数据。AWS Glue 属于无服务器服务,因此无需配置和管理计算资源。