当前位置： > 财经>正文

如何轻松构建基于流式数据的分析和应用信托产品概述怎么写好

2023-07-24 10:38:59 互联网未知财经

如何轻松构建基于流式数据的分析和应用

产品概述数据总线 DataHub基本介绍

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供对流式数据的发布 (Publish)，订阅（Subscribe）和分发功能，让您可以轻松构建基于流式数据的分析和应用。数据总线DataHub服务可以对各种移动设备，应用软件，网站服务，传感器等产生的大量流式数据进行持续不断的采集，存储和处理。用户可以编写应用程序或者使用流计算引擎来处理写入到数据总线DataHub的流式数据比如实时Web访问日志、应用日志、各种事件等，并产出各种实时的数据处理结果比如实时图表、报警信息、实时统计等。

数据总线DataHub服务基于阿里云自研的飞天平台，具有高可用，低延迟，高可扩展，高吞吐的特点。数据总线DataHub与阿里云流计算引擎StreamCompute无缝连接，用户可以轻松使用SQL进行流数据分析。

数据总线DataHub服务也提供分发流式数据到各种云产品的功能，目前支持分发到MaxCompute（原ODPS），OSS等。

系统整体功能图

产品优势高吞吐

最高支持单shard每日1.6亿Record级别的写入量。

实时性

通过数据总线DataHub ，您可以实时的收集各种方式生成的数据并进行实时的处理，对您的业务产生快速的响应。

易用性

数据总线DataHub 提供丰富的SDK包，包括C++, JAVA, Pyhon, Go等语言。

数据总线 DataHub服务也提供Restful API规范，您可以用自己的方式实现访问接口。

除了SDK以外，数据总线 DataHub 还提供一些常用的客户端插件，包括：Fluentd，LogStash，Flume等。您可以使用这些客户端工具往数据总线 DataHub 里面写入流式数据。

数据总线 DataHub 同时支持强Schema的结构化数据（创建Tuple类型的Topic）和无类型的非结构化数据（创建Blob类型的Topic），您可以自由选择。

高可用

服务可用性不低于99.9%。

规模自动扩展，不影响对外服务；数据持久性不低于99.999%。

数据自动多重冗余备份。

动态伸缩

每个主题（Topic）的数据流吞吐能力可以动态扩展和减少，最高可达到每主题256000 Records/s的吞吐量。

高安全性

提供企业级多层次安全防护，多用户资源隔离机制；

提供多种鉴权和授权机制及白名单、主子账号功能。

使用场景

数据总线 DataHub作为一个流式数据处理服务，结合阿里云众多云产品，可以构建一站式的数据处理服务。

流计算StreamCompute

StreamCompute是阿里云提供的流计算引擎，提供使用类SQL的语言来进行流式计算。数据总线 DataHub 和StreamCompute无缝结合，可以作为StreamCompute的数据源和输出源，具体可参考实时计算文档

流处理应用

用户可以编写应用订阅数据总线 DataHub中的数据，并进行实时的加工，把加工后的结果输出。用户可以把应用计算产生的结果输出到数据总线 DataHub中，并使用另外一个应用来处理上一个应用生成的流式数据，来构建数据处理流程的DAG。

流式数据归档

用户的流式数据可以归档到 MaxCompute（原ODPS）中。用户通过创建数据总线 DataHub Connector，指定相关配置，即可创建将数据总线 DataHub中流式数据定期归档的同步任务。

聚慧财富

如何轻松构建基于流式数据的分析和应用信托产品概述怎么写好

相关文章

最新文章

版权声明

联系我

特别鸣谢

聚慧财富

如何轻松构建基于流式数据的分析和应用 信托产品概述怎么写好

相关文章

最新文章

版权声明

联系我

特别鸣谢

如何轻松构建基于流式数据的分析和应用信托产品概述怎么写好