成功案例
《产业观察室》没有BAT的命,也能像BAT轻松管理服务器
作者:管理员    发布于:2016-05-03 10:45:40    文字:【】【】【

即便是国内互联网三巨头(百度、阿里巴巴、腾讯,简称BAT),也面临着极为严峻的服务器管理问题。

在原有数百万级别的服务器保有量上,BAT三巨头每年仍然保持着高速增长的服务器采购量,占比超过中国服务器年整体出货量的30%,采购投入的规模每年超过100亿元,就服务器管理而言,“规模决定难度,量变激发质变”。

BAT 三巨头效仿Facebook的OCP项目,共同发起“天蝎整机柜服务器技术规范2.0”,很大程度上正是BAT降低规模化服务器采购的成本、优化服务器部 署方式,降低服务器管理和运维难度的其中一种解决方案:试图以“尽可能统一化、标准化和模块化的服务器硬件及软件系统”,取代原有的“不同供应商提供不同 型号服务器,又涉及不同管理平台”的问题。

但BAT可以通过发起天蝎规范帮助解决自身的服务器采购、部署、管理和运维问题,其他的企业可就没这么“财大气粗”了,虽然在规模上无法与BAT相提并论,但毕竟BAT在资金、人员、经验等方面存在巨大优势,实际上,绝大多数企业所面临的服务器管理现状更为严峻。

更何况在移动化浪潮、互联网+、大数据分析、企业社交化等新需求的推动下,企业每天上线的新业务量与日俱增,采购新服务器更是热情高涨。对许多企业的CIO来说,本来在服务器管理上就捉襟见肘——缺人、缺钱、缺时间——这样一来岂不是就要逼入绝境?

服务器:买来是用的 不是拼指标的

客观来说,许多CIO在采购服务器时,单纯依靠服务器硬件指标及价格决定购买产品,忽略服务器产品所包含的软件功能及技术附加值,在相当大的程度上,是许多CIO面临上述问题的根本原因。

作为一种工业标准化的产品,服务器之间可以进行轻松的指标对比,处理器型号、内存速度和容量、硬盘(或SSD)的容量、网卡的速度、设备的高度(即机架的U数量)、PCIe等接口的可扩展能力,轻轻松松就能够拉出一个详尽的Excel表。

但这样“简单粗暴”的对比,却忽略了一个重要的服务器价值,那就是服务器管理软件,这是服务器供应商之间存在非常大隐性差距的地方,更是服务器进入数据中心之后,根本上拉低CIO“设备使用幸福感”的“木桶上最短的那一块木板”。

为什么这么说呢?关键在于,服务器买回来是要用的,不是放在数据中心里面“拼硬件参数和计算能力(Flops)”的,这意味着,服务器管理员从拿到服务器开 始,就要做很多软件方面的工作,比如说批量部署服务器、上线操作系统和应用;实时监控服务器的性能和故障;保证定期检查潜在威胁和升级服务器固件;支持 Microsoft System Center、VMware vCenter等第三方虚拟化平台等等一系列的工作。

我们知道,对CIO来说服务器管理员是“数量守恒”的,投入到服务器管理上的“时间和精力也是守恒的”,将人员、资金、时间和精力投放在基本的服务器部署、管理和运维上,就意味着无法投入更多资源拥有数据中心创新。

所以,在选择服务器供应商时,深入了解其所提供的服务器管理软件平台,是非常重要,甚至是必要的,但是,参考标准是什么?

“简化版”服务器管理软件选择指南

就最基本的功能来说,资源监控、日志收集、硬件状态记录是必不可少的,并集中在一个“仪表盘(Dashboard)”上供用户了解,这是各家服务器管理软件 都有具备的功能,总体来说差别不大,但就当前的主流设计思路来说,以HTML5为基础,数据及趋势的可视化是一个比较重要的趋势;支持平板电脑、智能手 机,结合服务器设备上的条形码、二维码扫描甚至是NFC进场通讯技术,也是逐渐具备的要素。

让服务器管理变得更加简单是服务器管理软件的宗旨之一,也是重要的考量标准,上面只是其中比较小的一部分。比如说,Agent-Free(无代理模式)提供了更简单的部署方式和服务器资源占用;集中式的故障控制台和远程接入/控制系统等都是简化管理的重要组成部分。


笔记本电脑、一杯咖啡、一个小推车,排查设备故障的“标配”,在面对大规模数据中心时,每节省一秒都是有价值的——你不会想一直站着上班的。

想要像国外大片一样,拿着iPhone或是iPad穿梭于数据中心,轻点几下屏幕就完成服务器部署、配置、管理和运维,简化的服务器管理软件界面是顶重要的一件事情。

简化的目标是减少人力资源的浪费,基于策略的自动化管理更是如此,就服务器管理软件来说,以普遍存在的服务器管理工作为蓝本,基于管理员设定的管理策略,自动化、脚本化、批量化的完成管理工作,是第二个要要迈上的台阶。

自动化部署、升级和更新(比如升级Firmware、部署操作系统或虚拟化平台)是服务器管理软件的重要工作,通常一台服务器此类相关工作的完成时间在 10-40分钟不等,扩展到十几甚至上百台服务器,其所耗费的时间就是一个天文数字,以单一配置文件,进行自动化、脚本化的快速部署或是预部署的意义正在 于此。

在服务器故障发现、定位、报 警以及修复方面,服务器管理软件的任务同样艰巨,在基于传统的事件日志与硬件状态报告之上,服务器管理软件正在增加故障判断甚至是故障“预测性分析”等技 术,在清晰定位、展现故障情况的同时,尝试着提前帮助服务器管理员预发现和判断服务器故障,进而加快甚至屏蔽系统软硬件故障带来的业务性能下降。

说一个简单的数据中心管理问题:在数百台甚至数千台服务器机群众,如何快速的定位一台出现问题的服务器甚至是一块硬盘?如果出现问题的设备较多,又怎么办?就此而言,服务器管理软件针对故障设备/组件,自动化开启故障灯闪烁,其实是一个非常关键的实用功能。

简单一聊,就谈了这么多有关服务器管理软件的参考因素,但这还远不全部,甚至,我们还落下了当前最重要的一件事情没说。

服务器管理软件:数据中心、云计算的重要组成部分

很多数据中心的管理者存在这样一个误区,那就是云计算是SaaS、PaaS和IaaS,IaaS则是整个数据中心,是计算、存储和网络,与服务器管理软件根本没什么关系,后者“不过是让服务器能够上线,可以监控”的工具而已。


服务器管理软件的重要性绝对当得上“Orchestration”的身份

事实恰恰相反,服务器管理软件恰恰是云计算底层设备最关键的管理者和协调者,它不仅充当着“Management”的功能,更是服务器的第一个“Orchestration”。

以虚拟化为例,之所以服务器管理软件与VMware vCenter或Microsoft System Center的紧密结合成为当下必备,核心因素在于虚拟化平台已经下探到“裸金属(物理服务器)”的管理上,保证虚拟化平台不停机的固件升级、硬件故障错 误检测及修复、能耗管理/节流、集群监控、可视化设备管理,都需要更为接近底层、更为熟悉自家服务器的服务器管理软件的支持,后者是VMware或微软虚 拟化平台在物理设备上的最重要也是最核心的“合作伙伴”。

举例来说,当一个VMware服务器集群遇到物理服务器固件升级的问题,服务器管理软件和VMware必须配合好虚拟机在物理服务器上的转移,同时确保服务 器正常更新固件、正常重启和虚拟机的回迁,这不仅仅是“虚拟机管理平台透过服务器管理软件观察服务器状态的问题”,更是两者协调、编排升级任务及工作负载 的问题。

与此类似,在数据中心逐渐 云化的过程中,数据中心自动化及云编排平台(Data Center Automation and Cloud Orchestration Software Tools)也同样依赖服务器管理软件完成大量的设备管理、资源供给、工作负载编排等任务,这也就是为什么,100%支持REST API成为服务器管理软件如今不可或缺的功能。

在这篇文章中,我们简单的探讨了服务器管理软件对数据中心管理的价值,就CIO和IT管理者来说,它甚至不仅仅是一个工具,更是一个不可忽视的、重要的“合作伙伴”:向下,探伸到服务器中,监控、管理、运维;向上,触及虚拟化、云计算,协调、合作、支持。

所以,在选择服务器的时候,把服务器管理软件的水平纳入参考体系,这是一定、确定以及肯定了的标准。

版权所有 Copyright(C)2004-2018 北京中天启月科技有限公司