海量结构化数据解决方案 - 表格存储场景解读

阿里云云栖号 12-19 741

前言：

此时你们对“推荐系统标签存储结构有哪些”大概比较关切，姐妹们都需要分析一些“推荐系统标签存储结构有哪些”的相关文章。那么小编也在网摘上网罗了一些对于“推荐系统标签存储结构有哪些””的相关文章，希望咱们能喜欢，各位老铁们一起来学习一下吧！

数据是驱动业务创新的最核心的资产。不同类型的数据如非结构化数据（视频、图片等）、结构化数据（订单、轨迹），面向不同业务的使用要求需要选择适合的存储引擎，能够真正发挥数据的价值。

比如：非结构化的数据-视频图片等适合对象存储OSS，强事务的结构化数据-交易订单适合MySQL。

而针对于海量的非强事务的海量结构化/半结构数据：

这些场景特点是：

1. 数据规模大，常见的关系型数据库难以存储。

2.需要支持很高的读写吞吐与极低的响应延迟。

3. 数据结构相对简单，无跨数据表的关联查询，数据存储写入是无需复杂的事务机制。

表格存储Talestore正是为了解决上述数据的存储、访问以及计算。

历史订单场景

在电商、金融、外卖、新零售等所有涉及交易与协定的所有场景中，都涉及大量的订单。记录社会方方面面。传统关系型数据能够解决需要支持强一致的事务的在线业务，但海量的订单关系型数据无法保存全量数据，需要数据分层。

架构核心需求：

在线数据同步：做实时数据与历史数据分层—支持实时同步在线业务历史数据存储：历史订单数据存储—支持低延迟数据点查，搜索。高性价比海量存储数据分析：针对历史库进行报备统计分析—需支持计算组件分析统计!

核心优势

弥补在线库容量问题，降低在线库压力PB级历史库存储，可全量保存所有数据，并能提供低延迟高并发查询索引订单内多字段，提供任意条件组合查询IM/Feed流场景

IM（Instant Messaging，即时通讯）成为当前互联网业务基础组件，在社交、游戏、直播等场景广泛需要。需要高效支持海量消息的存储、同步、检索。

架构核心组件

消息历史库：按对话存储历史消息—需海量数据，存储易拓展消息同步库：按接受者存储同步消息—需支持高并发写入，实时拉取（写扩散）消息索引：针对历史库数据支持数据检索—需数据更新同步

核心优势

Tablestore Timeline 消息模型，专为 IM/Feeds 场景设计，简化开发同步表百 TB 存储，存储表 PB 级存储。分布式架构，LSM存储引擎，支撑每秒百万写扩散消息写入，毫秒级同步库拉取读写扩散混合同步模型时序场景-监控/IOT

针对实时数据的记录与分析极大的丰富了我们对于数据的使用场景。针对系统的运维监控、针对Iot场景中对于环境与人的监控都更有效帮助我们做事实理解与决策。这里需要面临众多设备与系统的高并发写入与数据存储，以及决策分析。

场景核心需求

数据高并发写入：面向众多设备与系统支持百万级节点实时写入数据实时聚合：针对原始数据监控预聚合，降低精度—支持数据实时同步对接流计算数据存储：长久保存数据—需单表规模极大，高性价比存储

核心优势

核心单表数据规模达 10 PB，可自定义数据生命周期核心单表持续每秒写入进 5000万个数据点数据实时写入，大大提升数据可见时效性毫秒级实时查询展示趋势图和报表，查询性能不受单表规模约束舆情&风控分析

针对舆情信息的分析与把控，可以有效的分析与洞察市场。比如针对点评、新闻、评论等信息的收集分析。需要丰富的多类数据高并发写入与便捷的数据流转进行计算分析

场景核心需求

原始数据写入存储：海量数据爬虫需要高并发写入能力与PB及存储。多数据类型存储：爬取的内容与生成的标签类似丰富需要写入Schema-Free数据分析：针对数据分阶段处理原始信息->结构化标签->结果存储—需要支持实时计算与离线计算对接

核心优势

分布式 LSM 引擎数据存储，提供高并发高吞吐写入，PB 级数据存储通过数据更新捕获，实时触发后续对数据的自定义处理逻辑与大数据平台实时数据同步，分析结果写入结果表，供应用层实时查询推荐系统

推荐系统作为当前所有业务精细化运营的主要抓手，颠覆了传统内容输出方式，成为当前海量信息时代流转的核心引擎。广泛在电商、短视频、新闻等场景应用。需要高效支持海量消息存储与实时、离线分析。

架构核心组件

行为日志：存储客户端写入实时数据—需高并发写入，支持对接流式计算实时分析历史数据：冷数据同步下沉至OSS数据湖—需支持数据投递、便于数据分层用户标签：针对分析标签与推荐信息存储—需支持属性列横向拓展，高效检索

核心优势

数据规模：存储量无上限，冷热数据分层灵活定义海量并发：单表写入水平扩展，支持亿行每秒级别数据实时写入，实时可见数据实时投递 OSS数据湖， Tablestore 只存储热数据，提供丰富索引，高吞吐扫描

本文为阿里云原创内容，未经允许不得转载。

B站评论系统的多级存储架构