在大数量级的数据存储上,比较靠谱的分布式文件存储有哪些?

在大数量级的数据存储上,比较靠谱的分布式文件存储有哪些?,第1张

Ceph,GFS,HDFS。

一、 Ceph

Ceph最早起源于Sage就读博士期间的工作、成果于2004年发表,并随后贡献给开源社区。经过多年的发展之后,已得到众多云计算和存储厂商的支持,成为应用最广泛的开源分布式存储平台。

二、 GFS

GFS是google的分布式文件存储系统,是专为存储海量搜索数据而设计的,2003年提出,是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加,如大文件的读写。注重大文件的持续稳定带宽,而不是单次读写的延迟。

三、 HDFS

HDFS(Hadoop Distributed File System),是一个适合运行在通用硬件(commodity hardware)上的分布式文件系统,是Hadoop的核心子项目,是基于流数据模式访问和处理超大文件的需求而开发的。该系统仿效了谷歌文件系统(GFS),是GFS的一个简化和开源版本。【感兴趣的话点击此处,了解一下】

小编建议可以到亿万克官网了解一下,亿万克将持续走在创新第一线,不断为客户提供更加优质服务,为国家信息安全和新型数据中心建设保驾护航,助力国家碳中和碳达峰步入新篇章。

分布式存储系统

定义

分布式存储系统是大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务

特性

可扩展

低成本

高性能

易用

挑战

分布式存储系统的挑战主要在于数据、状态信息的持久化,要求在自动迁移、自动容错、并发读写的过程中保证数据的一致性。分布式存储涉及的技术主要来自两个领域:分布式系统以及数据库。

数据分布

一致性

容错

负载均衡

事务与并发控制

易用性

压缩/解压缩

分类

非结构化数据,一般的文档

结构化数据, 存储在关系数据库中

半结构化数据,HTML文档

不同的分布式存储系统适合处理不同类型的数据:

分布式文件系统

非结构化数据,这类数据以对象的形式组织,不同对象之间没有关联,这样的数据一般称为Blob(二进制大对象)数据

典型的有Facebook Haystack 以及 Taobao File System

另外,分布式文件系统也常作为分布式表格系统以及分布式数据库的底层存储,如谷歌的GFS可以作为分布式表格系统Google Bigtable 的底层存储,Amazon的EBS(d性存储块)系统可以作为分布式数据库(Amazon RDS)的底层存储

总体上看,分布式文件系统存储三种类型的数据:Blob对象、定长块以及大文件

分布式键值系统

较简单的半结构化数据,只提供主键的CRUD(创建、读取、更新、删除)

典型的有Amazon Dynamo 以及 Taobao Tair

分布式表格系统

较复杂的半结构化数据,不仅支持CRUD,而且支持扫描某个主键范围

以表格为单位组织数据,每个表格包括很多行,通过主键标识一行,支持根据主键的CRUD功能以及范围查找功能

典型的有Google Bigtable 以及 Megastore,Microsoft Azure Table Storage,Amazon DynamoDB等

分布式数据库

存储结构化数据,一般是由单机关系数据库扩展而来

典型的包括MySQL数据库分片集群、Amazon RDS以及Microsoft SQL Azure


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/tougao/8067318.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存