西部数据公司副总裁兼中国区总经理 蔡耀祥
全球的数据量正持续以每年约23%的速度增长——各行各业产生的数据量越来越多,因此长期保存这些数据变得愈发困难。另一方面,在中国“3060 ”双碳目标的指导下,企业级数据中心的数据存储不仅需要高性能、大容量和更低的总体拥有成本,还要向着绿色、低能耗的可持续方向不断发展。
一个有效的解决方案就是冷存储。通过更深入地了解组织的数据需求,我们发现企业采用冷存储可以确保随时访问有价值的数据,同时减少数据存储的总体拥有成本和能耗。
冷存储的兴起
冷存储,可以理解为针对不常访问数据的存储。在该类场景中,数据被归档或保存在“冷存储”中,将很少被使用,但在需要时又得做到可以随时访问,因此不必优先考虑IO性能。这与需要进行数据处理的高性能 “热存储”相反,而且也不同于可能永不访问,或允许花费数小时或数天访问的“冻存储”。
随着技术创新和数字化转型的加速推进,越来越多的此类数据将持续产生,即使当下不用,也具备一定价值,不应被即刻丢弃。譬如在智慧视频和安全相关行业,同一段视频不能记录第二次,一旦意外丢失,决不会以完全相同的方式再次呈现,而且你永远不知道什么时候需要回看视频,因此数据永久保留很有必要。在汽车行业,自动驾驶测试将产生大量数据,且不会重复同样的测试,因此,企业可保留数据以便在自动驾驶算法革新的过程中持续加以利用。对于播放职业球赛的电视台来说,永远有可能要重播球员的比赛视频,所以视频内容也要全部保留下来。
其实,在各行业的各种具体场景下,用户都有随时访问旧数据的可能。一些企业尽管当下不需要访问数据,但也可能已经预知何时会需要。比如机器学习的场景下,创建庞大的训练数据极为耗时,一旦积累了数据集,尽管可能很少被访问,却拥有一定价值。因此,企业需要保留这些数据用于机器训练,以节省再次创建庞大数据集的时间,也可将其出售用于其他训练项目。
可见,越来越多的企业需要探索冷存储方法。而需要长期保留这些数据的企业面临着一个关键问题,到底是将数据存放在昂贵、更快速的存储基础架构中实时取用,还是存放在性价比更高的冷存储层中,在以后需要时再重新访问?
冷存储便是针对该场景的解决方案,它允许以更低的成本存储数据,与需要实时多次访问的“热数据”(如金融交易)相比,这些数据被访问频率更低。基于这一优点,企业可以更轻松地选择理想的数据存储解决方案,而不是陷入以更高成本扩展存储资源还是删除一些潜在重要数据的两难境地。
正因如此,冷存储方兴未艾,并将持续加速发展。行业分析师认为,当前至少60%的数据可以归入存档类数据,到2025年,这一比例可能达到80%或更多。因此,冷存储正成为存储行业增长最快的细分领域之一。云服务提供商也纷纷迎合这一发展趋势,采用可访问的存档重新设计其存储架构,并确保对冷存储中的数据进行高效管理,降低总体拥有成本和能耗。
企业该如何进行冷存储?
广义程度上,冷存储属于一种用例,企业需要探索特定的技术和解决方案来将这个用例变为现实,其中需要注意的重点包括:
首先,将冷数据视为主数据对待。冷数据必须在线存储,并且易于搜索和访问。企业不仅要能够存储数据,还需要在这些数据集持续增长的情况下解决实时、高效访问数据的挑战。例如,电视台如果需要重播几年前举行的一场体育赛事,它得具备一套基础设施保证可以精确找到这些数据。因此,旧数据仍然需要被当成主数据来对待,尤其是在可访问性方面。
不将存档数据视为主数据是一种失策,而这也涉及到另一个重要考量——数据保护。
即使这些数据被存放在二级存储上,仍然需要像主数据一样受到保护。无论是确保数据在站点发生灾害时不会丢失,还是免受人为威胁等,只有像主数据一样进行数据保护,冷存储中的数据才能安全无虞。
另一个重要注意点就是成本。尽管冷存储为长期保存数据提供了一种更具成本效益的解决方案,但要实现其最佳功效还需考虑多种因素。
业内人士可能经常认为云存储将是最具成本效益的冷存储库。然而,对于某些企业的特定场景下,事实可能并非如此,而且如果持续向云端增加更多数据,成本也会随之提升。虽然云技术在弹性和保护方面具有独到的优势,但它并非所有场景下企业的最优选择。
另一方面,有些企业认为磁带技术是成本更低的存储技术,所以必须部署磁带来满足所有冷存储需求,然而许多情况下这其实时难以实现的。企业必须分析整体拥有成本,深入研究采用技术的服务等级协议,因为对某些公司来说,简单地投资构建多个存储层可能并无法节省那么多成本,而且会增加不必要的复杂性。简言之,并没有“放之四海而皆准”的解决方案。
立足HDD创新,应对绿色数字未来
随着人工智能、机器学习、自动驾驶、智慧视频、物联网以及智慧城市等新兴应用的不断演变,数据生成来源比以往任何时候都更多,冷存储领域也正不断发展,并凸显出其重要性。市场正大量投资云存储、基于HDD的解决方案和磁带技术创新,以满足未来企业数字化转型和冷存储的需求。
如今,大多数二级冷数据都保存在磁带或HDD上,而热数据则存储在SSD中。HDD正在向下一代磁盘技术和平台演进,旨在降低拥有成本和能耗,并提高主动存档解决方案的可访问性。HDD技术的最新进展包括新的分区存储技术、更高的面密度、机械创新、智能数据存储以及材料创新等等。
西部数据一直处于HDD技术创新的前沿,不断提高存储容量和性能并降低客户的总体拥有成本和能耗,帮助客户应对庞大和多样化的数据存储需求。2021年,西部数据突破传统存储界限,推出了整合HDD与闪存优势的OptiNAND 技术,带来了全新的闪存增强型磁盘架构设计。2022年,西部数据推出了基于OptiNAND技术的22TB Ultrastar DC HC570 CMR HDD,在成熟的单碟2.2TB的氦气封装技术上实现了10碟更高的面密度;开发出了创新的UltraSMR技术并发布26TB Ultrastar DC HC670 UltraSMR HDD,通过引入数据块编码和先进的纠错算法,增加了每英寸磁道数(TPI),与22TB的CMR HDD相比带来了约18%的容量提升。西部数据通过HDD产品和技术的迭代更新,为云服务提供商、企业级客户和下一代数据中心带来了更低的TCO与能耗。
<西部数据22TB Ultrastar DC HC570 HDD (左) 和
西部数据26TB Ultrastar DC HC670 UltraSMR HDD (右) >
除了不断进行产品创新,西部数据还评估并强化了应对气候变化影响的措施,致力于实现更可持续的未来。这一点在第四次工业革命不断演进,自动化替代传统人工操作的进程中尤为重要。去年11月,西部数据的上海工厂成功入选世界经济论坛全球灯塔工厂网络,并凭借在可持续发展领域的突破性成果,被授予中国首家“可持续发展灯塔工厂”荣誉称号。
作为全球数据基础架构提供者,西部数据拥有全面且丰富的HDD和闪存解决方案,助力企业和数据中心实现高效和可持续的数据存储。