发布时间:2023-1-23 分类: 行业资讯
数据时代
在数据时代,数据和业务的保护以及数据的管理已经成为企业发展必不可少的基础条件。根据有效的统计,目前,数据量正在增加,其重要性呈指数级增长。据外媒报道,来自希捷,一家国际数据公司和一家数据存储公司的最新报告显示,随着云计算、大数据、物联网等科技产业的快速发展,数据流量的增长速度正在加快。到2025年,新数据总量有望从2018年的33ZB增长到175ZB。在过去的几年里,全球数据量以每年40%以上的速度增长,未来这一速度还会更快。非结构化数据约占海量数据的80%。通常,我们认为带有s的文件
海量小文件的应用在生活中越来越普遍。社交网络、移动通信、网络视音频、电子商务、传感器网络、科学实验等各种应用产生的数据。不仅拥有巨大的存储容量,还具有数据类型多样、数据大小变化大、流动快等诸多显著特点。这通常会产生数百万、数十亿甚至数十亿的海量小文件。
技术挑战
数据是资产,庞大的数据资产对企业的重要性不言而喻。有必要为这些海量的小文件提供保护方案,以确保数据资产的安全。然而,传统的文件备份是通过基于二叉树遍历遍历文件系统,然后传输单通道的数据来实现的,如果所有文件都是几个k,那么磁盘的遍历时间要比实际的数据读取时间长得多。这给大规模小文件备份的高效实施带来了挑战。
用户故事
三甲A医院每天有上万名患者,平均每个患者每天产生的病例档案(包括病例、影像等档案)数量为1M。平均每天住院患者1万人,当年文件大小约3.4TB,数据365万。按照15年的要求,有51TB和5475万的数据。
这家三甲医院有十几个分院,目前的中大数据建设需要医院总部对所有分院的数据进行汇总和融合。初评数据中大数据底层数据为pB级(1pB=1024TB)。
B庭有一个电子档案项目,大概有100TB的数据。它想为全市所有法院的电子档案建立一个统一的管理平台。粗略评估,总数据为3.6pB,有很多几kb的小文件。如果平均文件大小为100KB,则总数据量约为396亿。
我们再来看看网速。千兆网络下的网络峰值只有100 M/S,数据传输以平均100 m/s的速度进行,千兆网络下,数据传输需要12天。
然而,当文件数量达到数千万时,传统的文件备份方式会对业务系统产生很大的影响。如果业务系统是长时间运行的服务器,资源不足甚至会造成业务系统堵塞;然而,采用传统的文件备份方式进行备份时,文件大小小于100KB的海量小文件的速度会迅速下降。之前测试过的1kb数千个小文件的备份速度只能以KB/s传输。
因此,如何面对海量的小文件,如何快速、低影响地进行备份,成为一个亟待解决的技术问题。
浪擎解决方案
浪擎DAYS容灾系统全面解决海量小文件备份问题,高效守护企业数据资产安全。
磁盘级备份
磁盘级备份是指通过磁盘块的方式备份数据,备份文件所在的磁盘或分区,并可自定义所需文件进行恢复。磁盘级备份可以解决海量小文件备份过程中频繁IO访问对业务系统的影响,是对业务系统影响最小的方案之一。而且由于采用了磁盘级备份,无论文件数量是几千万还是几十亿,大小是1M还是1KB,对整体备份速度都没有影响,也就是在千兆网络下,磁盘级备份速度始终可以保持峰值(平均100M/S)进行传输。
并行多通道备份
当文件数量达到数千万时,以传统单通道文件备份的形式备份大量小文件会越来越慢。针对这种情况,浪擎自主研发了并行多通道备份方法。通过初始化和遍历所有文件,将文件均匀分布到多个通道进行数据传输,数据传输后实现并行多通道备份。而且即使使用最常见的8核CpU服务器进行海量小文件备份,也可以同时使用16个通道进行海量小文件的数据传输。10万多个文件并行多通道备份,备份时间是单通道的一半,文件越多,备份效率越高。
分布式多通道备份
当文件数量达到几千万,文件大小相差很大,从几KB到几十MB不等时,备份这么多大小相差很大的小文件就比较困难了。即使采用并行多通道模式,不同通道传输的数据总量也会不同,部分通道会空闲,导致数据传输时间相对较长。
针对这种情况,浪擎在并行多通道备份的基础上进行了深度优化,提出了分布式多通道备份方案,实现多通道备份的负载均衡,使各通道能够满负荷进行数据传输。将数据并行与实时数据交互相结合,减少了初始化时间,实现了整体性能提升和优化的海量小文件备份方案。
多节点、多任务、多网卡传输
除了采用多种备份方式备份大量小文件外,为了充分利用现有资源,提供备份速率,浪擎还采用多节点、多任务、多网卡进行数据传输。多节点是通过存储多个服务节点,减少单个节点性能限制对备份数据传输的影响;多任务是通过多任务并行实现数据传输,充分利用时间资源;多网卡充分利用单个节点上多个网卡的资源进行数据传输,提高了并行任务的整体备份效率。
关于浪擎
浪擎科技以“数据价值最大化”为使命,致力于数据安全和智能领域的产品研发和技术服务,从而推动数字化转型发展的巨大变革。2011年致力于容灾产品的研发,2015年进入全国市场。目前,浪擎科技已在上海建立了两个研发中心,成都业务办事处已部署在北京,浙江,江苏,江西、四川等20个玉笙城市
数据安全产品线为重要业务和数据提供全生态、全栈备份保护,实现云上云下的数据安全和管理;数据智能产品线为用户搭建数据中心提供全环境、敏捷智能的数据汇聚、集成、共享管理,助力数据驱动业务。