炼数成金 门户 大数据 开源软件 查看内容

开源的隐性成本

2013-7-30 13:20| 发布者: 天空之城| 查看: 5917| 评论: 0|原作者: 翻译:天空之城

摘要: 反思HPC基础设施软件经济体,当客户在选择开源和商业产品时,会有很多不同的相关管理和生产方面的费用需要考虑。本文想要通过这些探讨以便给出一个真实的成本。

管理 Linux 集群 开源 开源软件

反思HPC基础设施软件经济体

简介:
基于开源软件群集和Linux操作系统已开始主宰高性能计算(HPC)。由于他们的性能优越,成本高效益和灵活性。同样的代理商在开源软件上选择专业的HPC外也降低了对小中心访问。部署和管理开源群集的复杂性和相关成本可能会侵蚀放在第一位考虑的非常成本效益。
当客户在选择开源和商业产品时,会有很多不同的相关管理和生产方面的费用需要考虑。本文想要通过这些探讨以便给出一个真实的成本。我们也会研究商业管理产品,如IBM®HPC平台,使HPC客户回避很多间接成本,支持常常困扰开源环境的相关问题和使他们能够部署强大的、易于使用的集群。

HPC:为什么这个辩论会不同?
开源与商业软件的利与弊在IT公司已讨论多年。虽然有时看上去只是Windows和Linux之间的选择,但是问题却要更复杂,不仅仅只是一个简单的操作系统的选择。
享受75%的市场份额的Linux与不到6%的份额的微软Windows的比较,使得Linux和Windows 的HPC圈辩论很大程度上得到了解决。Linux在TOP500超级计算机网站上占据更多的主导地位。出于这个原因,在HPC辩论更经常集中在是否要部署一个纯开源管理环境或使用一个支持商业产品建立开源Linux环境。

所占的实际成本
开源软件除了很多利益外,也存在它的缺陷。尤其是对于小型组织,可能缺乏必要的专业人员操作和维护开源软件和中间件的环境。

所谓的免费不是真的免费
部署和维护开源软件的相关成本可以表现在几个方面。这些包括:
1. 花在系统管理上增加的时间
2. 由于缺乏正式的支持渠道,在处理问题上时间会过度
3. 操作相关的费用,如质量保证的保险和内部的回归测试
4. 集群生产力降低导致的停机时间,次优的集群性能和低利用率
5. 如果新的软件开发技能需要维护一个开源环境,则会有教育方面的费用
6. 组织会发现去爬行运营成本不单在业务的研究上,软件维护业务也同样有
7. 意料之外的成本,在需要的时候开源软件可用但功能不完整

其他考虑
除了以上说的一些因素,在使用开源软件时其他因素也会产生成本和风险,这些包括:
1. 对开源软件缺乏技术路线图,使规划面临挑战
2. 重要的软件维护(如避免因为害怕破坏脆弱的软件环境而执行更新和应用安全补丁)
3. 开源软件的选择会妨碍新硬件的选择或分层兼容软件,限制选项并导致昂贵的重建努力下游
4. 开源社区支持的质量不同,如果完全可用,一般仅仅只关注特别的软件组件。这使管理员有责任承担起他们软件自身的综合问题。

“稀少”的问题
开源和商业软件的对比通常假定其可以有同等技术的水平。这也适用于组件的广泛使用,如操作环境,数据库和脚本语言,在使用中,开源软件的质量能被很好的识别。它通常是不真实的,然而,对于更专业的软件来说会更广泛地部署和更少的彻底执行。
一些在HPC里特定的区域,其开源解决方案有非常具有挑战性的源并成功整合,这些包括:
1.web管理控制台和门户网站
2. 驱动器高速互连优化
3. 报告和分析工具
4.管理工程工作流的工具
5. 促进应用程序集成的工具
6. 负载驱动的供应解决方案
这些和其他性能往往成为关键需求。然而,由于开源解决方案不可用或缺乏必要的功能,组织可能面临巨大的成本开发、采购或集成所需的功能。

真正的TCO:更像微积分
对HPC是否部署开源或商业软件有时会被描绘为一个二进制选择。然而在实践中,组织机构会有一系列不同的选项。
图1说明了一系列纯粹开放和商业解决方案之间的备选方案。总拥有成本(TCO)曲线的形状取决于环境,因此这并不是绝对的,而是为了说明,不同的组织权衡成本和收益是不同的。
对于大多数组织来说,处于一个或多个极端可能会很昂贵并限制他们的选择和下游灵活性。

组织部署和支持自己的纯开源环境(操作在图1左端点)承担大量的内部集成、开发和支持成本。对有很深的技术专长和已经开发应用程序的组织这可能是合理的,但对于小型组织这会非常昂贵。
在另一种极端,一个基于专有操作环境的商业解决方案,如Windows HPC Server,成本会出现在不同的地方。组织将支付更高的成本用于软件许可、维修和专业服务,但将享受一个更好的支持和集成系统。
一个已存在于HPC Linux或UNIX®中可以在Windows环境中影响TCO的风险是由于缺乏大量的开源工具,。组织操作一个完全专有的环境可以在他们被迫收购或开发自身所需的解决方案时承担额外的成本。
还可能会有人员成本。例如,可以简单的假设管理Microsoft Office或Microsoft Exchange环境具有相同合适的技术可以很容易移植到更复杂的任务管理Windows HPC集群里。不管环境的部署,具有更高层次专业知识的人力成本要考虑在内。

一个实际有用的方法
许多客户选择一个更实效的方式——混合使用开源和商业软件,最大限度地减少总成本的同时又能运营他们期望的能支持完整范围的应用程序。一个支持HPC产品的商业部署在他们选择的Linux操作系统,为用户提供“两个世界最好的东西。”
使用这个组合产品提供了自由的选择,同时也降低了运营和支持成本。这是因为集群用户能够充分利用Linux上提供的丰富的HPC工具。然而,他们不需要处理整合开源组件的挑战。此外他们可以找寻一个提供技术的组织来帮助其快速的解决问题。
IBM® Platform Computing提供集群管理产品,特别在占领“sweet spot”这个TCO上,如图2所示。
HPC平台介绍
平台HPC可以使得利用HPC集群的能力,弹性和可伸缩性变得更容易。无论用户的集群或大或小,HPC平台可以快速让其聚集和运作。这样可以简化应用程序集成过程,以便他们可以专注于自己的工作,而不是管理他们的集群。
其他结合了多个工具和界面的HPC集群解决方案, 没有被整合,被证明,或被一起测试。在此相比之下,HPC平台是行业里唯一完整的管理产品。 它包含一个成熟、健全的组管理功能,可以以一个统一的门户接口通过。在行业最好的客户支持下,平台聚集了HPC将近20年的产品和技术领导。
HPC平台包括以下关键技术:
1.易于使用的集群管理
2. 集成应用程序支持
3. 健全的工作负载,系统监测和报告
4. 动态操作系统多重引导
5. MPI商业库
6.任何地方都能进入访问的基于网络的界面
7. 支持NVIDIA CUDA工具包的GPU
因为HPC平台可以完全通过一个浏览器,部署好的Linux集群和非专业人员来管理。这消除了长期以来使用Linux的障碍,特别是对较小的网站。
web界面不仅可以简化管理,更能使集群更容易使用。容易使用的应用程序接口减少了培训和支护需求,减少了作业提交错误,并能提高生产力。

此外,HPC平台可以让用户通过一个web界面轻松部署Linux和Windows混合集群管理。它可以自动搜集集群资源,引导不同的操作系统,以应对不断变化的工作负载需求。这避免了昂贵的资源的重复,并提供一个明显更大的集群用户资源池,从而提高员工的工作效率。


储蓄来源
部署HPC平台可以帮助组织节约或减少几个方面的成本。这包括:
1. 管理方面的减少
2. 减少培训和支护成本
3. 提高用户生产力
4. 避免集群故障的时间
5. 改善集群利用率
6. 避免意料之外的成本

下面将详细介绍了这些储蓄来源的更多细节。

人员储蓄:即使一个经验丰富的Linux管理员要从开源组件里建立一个功能齐全的集群也需要数周的时间。HPC平台可以显著地减少安装和配置一个集群的时间,因为它是一种预注册和预测试并已包含所有HPC网站需要的软件功能的产品。因为它全面的、易于使用的web接口, HPC平台可以很容易地安装和由非专业人士管理。

生产力的改进:HPC集群平台能让用户更高效并确保集群宕机时间是保持在最低限度。集群文件管理器和快照库这些功能会承担风险任务,如软件升级和打补丁。如果出现任何问题通过软件升级或补丁安装,它们使管理员能够轻松地恢复到一个已知良好的配置。这有助于减少停机时间,使软件更改简单并让用户能安心的通过执行软件更新打破某些功能。

隐藏成本避免:一些组织的系统和网络管理工具不作为HPC发展成本的一部分。收购和整合这些工具可能产生真实成本。许多其他集群管理解决方案需要为许多功能增加额外支出,包括HPC平台的特征功能。这些增加额外费用有:
1.系统监控和报警工具
2.工作负载管理系统
3.以用户为中心的应用程序门户网站
4.商业级的MPIs
5.基于web接口的数据处理
6.动态节点配置和管理工具

减少出错率:一种成本的来源,是由于有时会忽略用户在作业提交的错误。一个16-way的MPI工作运行了两个小时需要再次运行,因为用户提交了错误的“成本”CPU工作32小时。在此期间,其他工作可能需要停留在工作负载管理系统等待可用的资源。通过提供适合应用程序的接口,以及通过允许用户监控和管理他们即时的工作,减少工作提交错误的可能性。如果有一个错误,用户可以迅速识别误差并采取纠正行动且不用打扰管理员。

提高集群的效率:在成本和生产力上,一个80%的利用率的集群与95%利用率的集群有着一个显著的差异。基于IBM®LSF™平台的HPC平台,被广泛认为是在类商业工作负载管理系统里最好的。通过利用优越的调度功能,客户可以更好地调整业务需求的集群资源并可以达到更好水平的集群利用率,可以使他们用更少的成本做更多。

优越的价格和性能:因为HPC平台提供的工具和库是为选定供应商调整和优化的硬件配置,所以客户可以放心他们能得到最高性能的集群。自己动手从开源组件来构建集群,客户要冒部署优化库和工具集的风险。组件可能会起作用,但在性能水平的降低下,会破坏整个高性能集群的部署。

风险的降低:依靠先期测验,注册配置充分支持IBM Platform Computing和硬件厂商合作伙伴。客户可以放心,任何问题都可以快速高效地解决而不需要现场顾问或额外的专业知识帮助,产生未列入计算的成本。

基础设施成本避免:很多网站都运行Linux和Windows应用程序,而不是独立配置的集群,通过Windows和Linux节点的混合组成群集可以减少使用平台HPC集群管理的总成本。HPC平台提供负载驱动操作系统OS作为标准功能,允许用户使用一个单一的管理工具,避免不必要的基础设施支出。

“Future-proofng”:随着时间的推移,维持成本趋向占据IT相关的支出。一个集群可能会运行很多年,但是一到添加节点到集群的时间时,升级是一个挑战,因为新的硬件平台可能需要新的操作系统和驱动程序而在集群最初安装时不存在于头节点。
客户可以通过HPC平台添加新硬件模型,从一个不需要从零开始重新安装的现有的集群头节点更新所需要的设备驱动程序。这意味着集群可以容易地增加节点,避免昂贵的下游”拆开,替换”的场景和延长集群基础设施的使用寿命。

比较成本
TCO估计基于多种因素,包括自然安装,内部功能,应用程序的类型和停工期的成本。例如,考虑一个典型的32个节点集群服务,10知识工人每个花大约30%的时间处理HPC应用程序。基于这种情况下,假设环境是由一个单一的、完全能胜任的兼职的集群和应用程序管理员。还假定客户将部署相同的硬件和互连环境及相同的开源或商业支持的操作系统,不管客户选择开源软件还是HPC平台。

图4比较了在运行具有相同HPC集群运营商支持的开源软件栈这个假设的环境下的TCO年鉴,充分整合了HPC管理产品。根据

图说明,组织不仅需要做出基于它们的账户详情如劳动力成本和折旧的TCO的决定,他们还需要包含考虑生产力成本。因为一个非生产性或闲置工程团队花费远远高于一个兼职管理员,这些费用会迅速使行政成本缩少。因此,真正的储蓄机会所在的领域,应如应用程序的集成,提高生产率,减少停工期及时无风险升级,提高资源的利用率。
附录A详细说明了图表4中支持TCO的假设和运算。如果示例描述了一个有更多活跃用户或更少内聚行政管理专门知识,关于商业软件的争论将更引人注目。
该模型假定,通过利用适应的聚集而更有效的基础设施共享或更复杂的资源共享有机会减少集群节点数的10%。即使没有节约基础设施成本,减少管理成本或积极影响用户工作效率的情况下,HPC平台也很引人注目。此外,模型中没有解释资源的使用寿命,这可能在一个HPC平台环境中通过简化异构集群管理扩展,进一步提高成本节约。


总结
虽然Linux集群主导HPC,有许多关于成本和复杂性的问题可以使开源解决方案具有挑战性。此外,确定实际成本很复杂,因为每一个环境都是不同的,所以组织会使用自己的方法和基于自己的需求和功能评估成本。
对于许多组织来说,最实用的和最具有成本效益的方法就是在Linux平台上配置一个商业支持集群管理产品。HPC平台代表了一个有吸引力的解决方案,因为它是一个完整的产品,在避免开源软件的棘手问题和管理成本时它保留了许多开源软件的好处。
因为它是一个完整的、集成的产品,所以HPC平台让分析师、工程师和科学家专注于他们的工作,而不是如部署、管理和支持开源集群这样的较少的生产性活动。



附录一:比较开源与HPC集群经理TCO

附加信息:

•由假设(u)可知基础设施支持和动力成本减少。
•不可预见的增量成本(v)源于成本的寻址功能需求,这种需求开源软件可能还不支持。这些成本可能采取的形式有软件购买、咨询,或寻找、集成、部署和支持额外的分层解决方案的时间和精力。
•这个分析假定一年工作220天,例如,在解释成本时,22天 (略高于4个工作周)会被认为是一个人一年工作时间的10%。
•无论是否选择开源或商业软件都会有相关的费用管理和用户生产力,因此该模型只解释了在开放源的部署可能显示自己的增量成本。与HPC平台相关成本类似的是基线成本。 
•这个分析简化为这个白皮书,但基于一个由IBM开发的TCO计算器计算平台。



For more information
   To learn more about IBM Platform Computing, please contact your IBM marketing representative or IBM Business Partner, or visit the following website: ibm.com/platformcomputing

2

鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (5 人)

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2017-4-28 23:49 , Processed in 0.696925 second(s), 26 queries .