云存储
名词解析
云存储是一种网上在线存储(英语:Cloud storage)的模式,即把数据存放在通常由第三方托管的多台虚拟服务器,而非专属的服务器上。托管(hosting)公司运营大型的数据中心,需要数据存储托管的人,则透过向其购买或租赁存储空间的方式,来满足数据存储的需求。
云存储
简介
云存储是一种网上在线存储(英语:Cloud storage)的模式,即把数据存放在通常由第三方托管的多台虚拟服务器,而非专属的服务器上。托管(hosting)公司运营大型的数据中心,需要数据存储托管的人,则透过向其购买或租赁存储空间的方式,来满足数据存储的需求。数据中心营运商根据客户的需求,在后端准备存储虚拟化的资源,并将其以存储资源池(storage pool)的方式提供,客户便可自行使用此存储资源池来存放文件或对象。实际上,这些资源可能被分布在众多的服务器主机上。
云存储这项服务乃透过Web服务应用程序接口(API), 或是透过Web化的用户界面来访问。
工作原理
云存储是在云计算(cloud computing)概念上延伸和衍生发展出来的一个新的概念。云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和”超级计算机”同样强大的网络服务。
云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,保证数据的安全性,并节约存储空间。简单来说,云存储就是将储存资源放到云上供人存取的一种新兴方案。使用者可以在任何时间、任何地方,透过任何可连网的装置连接到云上方便地存取数据。如果这样解释还是难以理解,那我们可以借用广域网和互联网的结构来解释云存储。
网络结构
相信大家对局域网、广域网和互联网都已经非常了解了。在常见的局域网系统中,我们为了能更好地使用局域网,一般来讲,使用者需要非常清楚地知道网络中每一个软硬件的型号和配置,比如采用什么型号交换机,有多少个端口,采用了什么路由器和防火墙,分别是如何设置的。
系统中有多少个服务器,分别安装了什么操作系统和软件。各设备之间采用什么类型的连接线缆,分配了什么IP地址和子网掩码。
但当我们使用广域网和互联网时,我们只需要知道是什么样的接入网和用户名、密码就可以连接到广域网和互联网,并不需要知道广域网和互联网中到底有多少台交换机、路由器、防火墙和服务器,不需要知道数据是通过什么样的路由到达我们的电脑,也不需要知道网络中的服务器分别安装了什么软件,更不需要知道网络中各设备之间采用了什么样的连接线缆和端口。 广域网和互联网对于具体的使用者是完全透明的,我们经常用一个云状的图形来表示广域网和互联网,如下图:虽然这个云图中包含了许许多多的交换机、路由器、防火墙和服务器,但对具体的广域网、互联网用户来讲,这些都是不需要知道的。这个云状图形代表的是广域网和互联网带给大家的互联互通的网络服务,无论我们在任何地方,都可以通过一个网络接入线缆和一个用户、密码,就可以接入广域网和互联网,享受网络带给我们的服务。
参考云状的网络结构,创建一个新型的云状结构的存储系统,这个存储系统由多个存储设备组成,通过集群功能、分布式文件系统或类似网格计算等功能联合起来协同工作,并通过一定的应用软件或应用接口,对用户提供一定类型的存储服务和访问服务。
当我们使用某一个独立的存储设备时,我们必须非常清楚这个存储设备是什么型号,什么接口和传输协议,必须清楚地知道存储系统中有多少块磁盘,分别是什么型号、多大容量,必须清楚存储设备和服务器之间采用什么样的连接线缆。为了保证数据安全和业务的连续性,我们还需要建立相应的数据备份系统和容灾系统。除此之外,对存储设备进行定期地状态监控、维护、软硬件更新和升级也是必须的。如果采用云存储,那么上面所提到的一切对使用者来讲都不需要了。云状存储系统中的所有设备对使用者来讲都是完全透明的,任何地方的任何一个经过授权的使用者都可以通过一根接入线缆与云存储连接,对云存储进行数据访问。
结构模型
存储层
存储层是云存储最基础的部分。存储设备可以是FC光纤通道存储设备,可以是NAS和 iSCSI等IP存储设备,也可以是 SCSI或SAS等 DAS存储设备。云存储中的存储设备往往数量庞大且分布于不同地域。彼此之间通过广域网、互联网或者FC光纤通道网络连接在一起。
存储设备之上是一个统一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。
基础管理层
基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。
CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。
应用接口层
应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘应用平台,远程数据备份应用平台等。
访问层
任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。
云存储不是存储,而是服务
就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。
云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。
实现前提
编辑
一、宽带网络的发展
真正的云存储系统将会是一个多区域分布、遍布全国、甚至于遍布全球的庞大公用系统,使用者需要通过ADSL、DDN等宽带接入设备来连接云存储。只有宽带网络得到充足的发展,使用者才有可能获得足够大的数据传输带宽,实现大量容量数据的传输,真正享受到云存储服务,否则只能是空谈。
二、 WEB2.0技术
Web2.0 技术的核心是分享。只有通过web2.0技术,云存储的使用者才有可能通过 PC、手机、移动多媒体等多种设备,实现数据、文档、图片和视音频等内容的集中存储和资料共享。
三、应用存储的发展
云存储不仅仅是存储,更多的是应用。应用存储是一种在存储设备中集成了应用软件功能的存储设备,它不仅具有数据存储功能,还具有应用软件功能,可以看作是服务器和存储设备的集合体。应用存储技术的发展可以大量减少云存储中服务器的数量,从而降低系统建设成本,减少系统中由服务器造成单点故障和性能瓶颈,减少数据传输环节,提供系统性能和效率,保证整个系统的高效稳定运行。
四、集群技术、网格技术和分布式文件系统
云存储系统是一个多存储设备、多应用、多服务协同工作的集合体,任何一个单点的存储系统都不是云存储。
既然是由多个存储设备构成的,不同存储设备之间就需要通过集群技术、分布式文件系统和网格计算等技术,实现多个存储设备之间的协同工作,多个存储设备可以对外提供同一种服务,提供更大更强更好的数据访问性能。如果没有这些技术的存在,云存储就不可能真正实现,所谓的云存储只能是一个一个的独立系统,不能形成云状结构。
五、 CDN内容分发、P2P技术、数据压缩技术
CDN内容分发、P2P技术、数据压缩技术、重复数据删除技术、数据加密技术
CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。如果云存储中的数据安全得不到保证,想来也没有人敢用云存储,否则,保存的数据不是很快丢失了,就是全国人民都知道了。
六、存储虚拟化技术、存储网络化管理技术
云存储中的存储设备数量庞大且分布多在不同地域,如何实现不同厂商、不同型号甚至于不同类型(如FC存储和 IP存储)的多台设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理将会是一个巨大的难题,这个问题得不到解决,存储设备就会是整个云存储系统的性能瓶颈,结构上也无法形成一个整体,而且还会带来后期容量和性能扩展难等问题。
云存储中的存储设备数量庞大、分布地域广造成的另外一个问题就是存储设备运营管理问题。虽然这些问题对云存储的使用者来讲根本不需要关心,但对于云存储的运营单位来讲,却必须要通过切实可行和有效的手段来解决集中管理难、状态监控难、故障维护难、人力成本高等问题。因此,云存储必须要具有一个高效的类似与网络管理软件一样的集中管理平台,可实现云存储系统中所有存储设备、服务器和网络设备的集中管理和状态监控。
架构
架构方法分为两类:一种是通过服务来架构;另一种是通过软件或硬件设备来架构。
传统的系统利用紧耦合对称架构,这种架构的设计旨在解决HPC(高性能计算、超级运算)问题,正在向外扩展成为云存储从而满足快速呈现的市场需求。下一代架构已经采用了松弛耦合非对称架构,集中元数据和控制操作,这种架构并不非常适合高性能HPC,但是这种设计旨在解决云部署的大容量存储需求。各种架构的摘要信息如下:
紧耦合对称(TCS)架构
构建TCS系统是为了解决单一文件性能所面临的挑战,这种挑战限制了传统NAS系统的发展。HPC系统所具有的优势迅速压倒了存储,因为它们需要的单一文件I/O操作要比单一设备的I/O操作多得多。业内对此的回应是创建利用TCS架构的产品,很多节点同时伴随着分布式锁管理(锁定文件不同部分的写操作)和缓存一致性功能。这种解决方案对于单文件吞吐量问题很有效,几个不同行业的很多HPC客户已经采用了这种解决方案。这种解决方案很先进,需要一定程度的技术经验才能安装和使用。
松弛耦合非对称(LCA)架构
LCA系统采用不同的方法来向外扩展。它不是通过执行某个策略来使每个节点知道每个行动所执行的操作,而是利用一个数据路径之外的中央元数据控制服务器。集中控制提供了很多好处,允许进行新层次的扩展:
● 存储节点可以将重点放在提供读写服务的要求上,而不需要来自网络节点的确认信息。
●节点可以利用不同的商品硬件CPU和存储配置,而且仍然在云存储中发挥作用。
● 用户可以通过利用硬件性能或虚拟化实例来调整云存储。
● 消除节点之间共享的大量状态开销也可以消除用户计算机互联的需要,如光纤通道或infiniband,从而进一步降低成本。
● 异构硬件的混合和匹配使用户能够在需要的时候在当前经济规模的基础上扩大存储,同时还能提供永久的数据可用性。
● 拥有集中元数据意味着,存储节点可以旋转地进行深层次应用程序归档,而且在控制节点上,元数据经常都是可用的。
功能
云存储提供的诸多功能和性能旨在满足伴随海量非活动数据的增长而带来的存储难题:
· 随着容量增长,线性地扩展性能和存取速度。
· 将数据存储按需迁移到分布式的物理站点。
· 确保数据存储的高度适配性和自我修复能力,可以保存多年之久。
· 确保多租户环境下的私密性和安全性。
· 允许用户基于策略和服务模式按需扩展性能和容量。
· 改变了存储购买模式,只收取实际使用的存储费用,而非按照所有的存储系统,包含未使用的存储容量,来收取费用。
· 结束颠覆式的技术升级和数据迁移工作。
优势
(1)存储管理可以实现自动化和智能化,所有的存储资源被整合到一起,客户看到的是单一存储空间;
(2)提高了存储效率,通过虚拟化技术解决了存储空间的浪费,可以自动重新分配数据,提高了存储空间的利用率,同时具备负载均衡、故障冗余功能;
(3)云存储能够实现规模效应和弹性扩展,降低运营成本,避免资源浪费;
云存储技术在安防领域应用存在的问题
受限于安防视频监控自身业务的特点,监控云存储和现有互联网云计算模型会有区别,如安防用户倾向于视频信息存储在本地、政府视频监控应用比较敏感、视频信息的隐私问题、视频监控对网络带宽消耗较大等问题。
主要用途
云存储通常意味着把主数据或备份数据放到企业外部不确定的存储池里,而不是放到本地数据中心或专用远程站点。支持者们认为,如果使用云存储服务,企业机构就能节省投资费用,简化复杂的设置和管理任务,把数据放在云中还便于从更多的地方访问数据。
数据备份、归档和灾难恢复是云存储可能的三个用途。
“云的出现主要用于任何种类的静态类型数据的任何种类的大规模存储需求。”“你不想在云中存储数据库,但是你可能想在云中存储你的数据库的一个历史的副本,而不是将其存储在很昂贵的SAN或NAS技术中。”
“一个好的概测法是将云看作是只能用于延迟性应用的云存储。”“备份,归档和批量文件数据可以在云中很好地处理,因为可以允许几秒的延迟响应时间。”另一方面,她指出,由于延迟的存在,数据库和“性能敏感”的任何其数据不适用于云存储。
但是在将数据迁移至云中之前,无论是公共云还是私有云,用户都需要解决一个更加根本的问题。
“如果你进入云存储,你能明白存储空间的增长在哪里失去控制,或者为什么会失去控制么,以及在整个端到端的业务流程中存储特殊的一组数据的时候,价值点是什么?仅仅将技术迁移到云中并不是最佳的解决方案。”
减少工作和费用是预计云服务在接下来几年会持续增长的一个主要原因。据研究公司IDC声称,全球IT开支当中有4%用于云服务;到2012年,这个比例会达到9%。由于成本和空间方面的压力,数据存储非常适合使用云解决方案;IDC预测,在这同一期间,云存储在云服务开支中的比重会从8%增加到13%。
备份
根据调查结果,发现50%的受访者表示他们使用云作为生产数据的主要存储方式,但是有一个更大的数字,即63%的IT部门表示使用云作为数据备份。同时,43%的用户用云进行数据归档。
企业开始云存储,备份和长期数据归档通常是这种转换最好的开始点,并指出这些最初的用例的运营成本也对于采用云存储的企业更易于看到。
然而,许多调查受访者表示使用云进行数据备份的一个原因在于云存储服务在市场上的占有率,从更为传统的产品,比如来自CommVault的产品,到云网关,甚至是新出现的云灾难恢复,比如数据保护即服务等。
虽然更多的组织开始试水云存储,不管是通过备份服务、归档或者使用云来保存生产数据,并不是所有的企业都开始这样做。围绕安全、法规遵从的担忧,以及围绕云服务的厂商锁定问题仍旧是一些IT部门没有开始的主要原因。
现在的云存储选择要比以前多很多。谷歌的近线冷存储和数据归档服务,与之对应的就是亚马逊Web服务的Glacier,这二者就是企业可以考虑的新云存储选择。
选择
● 服务模式:最普遍的情况下, 当你考虑云存储的时候,你就会想到其所提供的服务产品。这种模式很容易开始,其可扩展性几乎是瞬间的。根据定义,你拥有一份异地数据的备份。然而,带宽是有限的,因此要考虑你的恢复模型。你必须要满足你网络之外的数据的需求。
● HW模式:这种部署位于防火墙背后,并且其提供的吞吐量要比公共的内部网络好。购买整合的硬件存储解决方案非常方便,而且,如果厂商在安装/管理上做的好的话,其往往伴随有机架和堆栈模型。但是,这样你就会放弃某些摩尔定律的优势,因为你会受到硬件设备的限制。
● SW模式:SW模式具有HW模式所具有的优势。另外,它还具有HW所没有的价格竞争优势。然而,其安装/管理过程序要谨慎关注,因为安装某些SW的确非常困难,或者可能需要其他条件来限制人们选择HW,而选择SW。
分类
云存储可分为以下三类:
1.公共云存储
像亚马逊公司的Simple Storage Service(S3)和Nutanix公司提供的存储服务一样,它们可以低成本提供大量的文件存储。供应商可以保持每个客户的存储、应用都是独立的,私有的。其中以Dropbox为代表的个人云存储服务是公共云存储发展较为突出的代表,国内比较突出的代表的有搜狐企业网盘,百度云盘,乐视云盘,移动彩云,金山快盘,坚果云,酷盘,115网盘,华为网盘,360云盘,新浪微盘,腾讯微云,cStor云存储等。
公共云存储可以划出一部分用作私有云存储。一个公司可以拥有或控制基础架构,以及应用的部署,私有云存储可以部署在企业数据中心或相同地点的设施上。私有云可以由公司自己的IT部门管理,也可以由服务供应商管理。
2.内部云存储
这种云存储和私有云存储比较类似,唯一的不同点是它仍然位于企业防火墙内部。至2014年可以提供私有云的平台有:Eucalyptus、3A Cloud、minicloud安全办公私有云、联想网盘等。
3.混合云存储
这种云存储把公共云和私有云/内部云结合在一起。主要用于按客户要求的访问,特别是需要临时配置容量的时候。从公共云上划出一部分容量配置一种私有或内部云可以帮助公司面对迅速增长的负载波动或高峰时很有帮助。尽管如此,混合云存储带来了跨公共云和私有云分配应用的复杂性。
隐患
从功能实现上来讲,异地文件存取与文件分享共步技术早在互联网形成之初就已经得到应用,上个世纪互联网刚刚进入国内时就有厂商提供过网盘服务,当时所谓的网盘并不是大家所熟知的网络虚拟磁盘,当时的网盘更像是一个SVN 或FTP 的客户端,而今十多年的发展以后,融入了移动互联网营销理念与新技术的“网盘”被包装成了“云存储”高调的出现在大众面前,据相关统计数据显示国内一线的云存储服务商每天的用户数据新增量已经达PB为单位,可见每天都有数以亿计的用户正在向自己云存储空间中上传下载着各种文件,在这种环境下排除网络宽带消耗之外,我们是否应该反思一下云存储下的未来隐患。
版权风险
有关版权问题已经大范围的出现在了国内的网盘服务中,一些个人或团体会将以影视音乐为主体的文件通过云存储的客户端上传至网盘中,然后通过分享的方式对圈子内提供下载,大量的有版权的视频音乐被这种特殊盗版方式进行传播,而且这种传播方式暂时属于监管的空白,部分云存储提供商在版权单位的压力下开始限制链接分享的范围,加强文件的过滤。但是这些手段不能从根本上解决云存储中用户上传文件的盗版传播。而要建立起一整套影视文件数字指纹签名检验系统除了庞大的研发的运维成本外,各个利益团体之间的技术标准统一也是短期内难以实现的,但是在问题得到解决之前,此刻这种分享还在进行中,面临侵权问题不仅是用户还有云存储的提供商。
个人隐私
有很多移动平台用户喜欢随时将自己用手机或平板拍摄的照片与视频通过云存储快速上传到网盘中,这样可以非常快捷的通过WEB 或PC 客户端在异地甚至即时取回照片,但是大家可能不太相信的是你上传的每一张照片或其他文件都有可能是云存储的服务端明文保存的,据参与过某云存储项目开发的人员介绍,从运维成本上考虑实现私钥加密不太现实,管理员可以从服务端的平台中直接查看和删除用户上传的文件,这些文件中不乏用户的机密文件或用户私隐,现阶段大型服务端都是通过建立严格的制度体系来约束管理人员的职业操守,但是人都是有弱点的,一旦人的操守被弃的时候在其权力范围内可视的内容是否还是只属于你自己呢?
数据安全
从数据安全上分两个方面分析,
1.用户的操作安全:大多数的云存储都设计了多客户端数据同步机制,一般以最后一次更新为标准,其他客户端开启时自动同步,这点与SVN的设计有很大的差别,当一个用户在公司编辑某个文件后,回到家中再次编辑,那么当他再次回到公司时文件已是昨晚在家更新过的,这是理想状态下的,在很多时候用户编辑一个文件后,会发现编辑有误,想取回存在公司的文件版本时,可能在没有支持版本管理云存储中你的附本也已经被错误的更新了,同样的道理你删除一个文件时候,如果没有额外的备份,也许你到网盘回收站中再找了,版本管理技术上并不存在问题,但是会加大用户的操作难度,云存储服务商只有少数的私有云提供商有限的支持,多数情况下这种覆盖是时常发生的。
2.服务端的安全操作:云存储服务器早已经成为了黑客入侵的目标,因为服务器上不仅有无穷用户数据,对此类大用户群服务的劫持更加是黑色收入的重要来源,也就是说服务器的安全性直接影响着用户上传数据的安全,在服务器虚拟化技术的支撑下V2V迁移的可靠性相当高,多数的云存储厂商都预备安全防护方案,但是不能忽视的永远人的操作。
运营停止
在当下的互联网环境下,提供公众的云存储服务,每年的资金投入在5亿元以上,而且对私提供的云存储盈利模式还并不清晰,究竟有多少服务商可以持续永久的提供这种服务,这种服务后期是否收费?是否会因为亏损问题、盈收问题而被迫停止运营,在这种情况已有用户的数据向何处迁移?数据安全由谁负责,IM和Emai的盈利模式已经成熟所以相关厂商可以持续免费,而云存储的投入至少是前两者之和的十倍,厂商之间的服务整合和公约形成,首要解决并不是技术问题,而是利益分配问题,服务商在一定时间会关停服务才是用户数据留存问题最大的隐患。
企业私有
考虑到公共云存储所存在的数据异存安全性、私密文件保护隐患方面的问题、以及企业上网行为管理的在执行上的需求,云存储作为一种方便快捷的文件备份方式很多企业开始在自己的网络内部架设私有的云,将云存储的服务端部署在企业的内部网络中,服务端的维护与管理可以由企业自行控制,企业员工可以在授权范围内安全的使用私有的云存储功能。很多在公共云存储服务端无法实现的功能,都能在私有的环境下得到良好的解决。作为一套适用于中小企业的私有云存储系统,必须区别于公共云存储的设计,从现今的需求上看主要分为两个方面: