系统管理员的9项关键任务清单

系统管理员的9项关键任务清单
2019年07月23日 16:46 云智小号

系统管理员对企业及其网络运营中心和数据中心的可靠和稳定运行至关重要。系统管理员必须具备系统底层平台(即Windows,Linux)的专业知识,并熟悉多个领域,包括网络,备份,数据恢复,IT安全,数据库操作,中间件基础知识,负载均衡等。系统管理员任务不仅限于服务器管理,维护和修复,还包括支持平稳运行的生产环境的任何功能。

虽然对于系统管理员而言,有一个看似无穷无尽的责任清单,但有些问题比其他问题更为重要。如果你是一名系统管理员,那么请确保你已准备好遵循以下这些最佳实践,它们是你的关键任务。

1.文档

文档是系统管理员如何保存资产记录,包括硬件和软件类型,数量,以及许可证等资源。如果生产环境中存在任何问题,文档可帮助识别可能涉及的硬件,虚拟机,设备,软件等。

硬件库存

使用以下详细信息维护所有物理和虚拟资源的列表:

  • 操作系统:Linux或Windows,带有版本的虚拟机管理程序

  • RAM:物理服务器中的DIMM插槽

  • CPU:逻辑和虚拟CPU

  • HDD:硬盘的类型和大小

  • 外部存储(SAN/NAS):使用管理IP地址和接口IP地址创建和建模存储

  • 打开端口:在服务器端打开的端口用于传入流量

  • IP地址:带VLAN的管理和接口IP地址

  • 工程设备:例如,Exalogic,PureApp等。

软件库存

  • 配置的应用程序:如,Oracle WebLogic,IBM WebSphere Application Server,Apache Tomcat,Red Hat JBoss等。

  • 第三方软件:未随附已安装的操作系统的任何软件

许可详情

维护物理服务器和虚拟服务器(VM)的许可证数量和详细信息,包括Windows许可证,Linux OS订阅以及虚拟机监控程序主机的许可证限制。

2.服务器健康检查

  • 运行流程:检查消耗的资源多于预期的流程,并采取措施微调应用程序(在应用团队的帮助下)。

  • CPU利用率:始终如一地监控和检查关键进程的CPU利用率,如“java”,“http”,“mysql”等,以确保这些CPU资源不会超出预期。如果是这样,那么请与应用团队协调以在应用级别进行检查并对其进行微调。并行分析操作系统参数,如“Ulimits”。

  • 内存利用率:检查内存利用率并清除缓存(如果需要)。

  • 僵尸进程:在终止后检查进程表中PID仍然存在的进程。僵尸进程会降低服务器性能,因此查找并删除任何存在的内容。

  • 负载均衡值:如果遇到性能问题,请检查平均负载并调整服务器的性能。

  • 磁盘/SAN/NAS利用率:检查外部附加存储的I/O报告,以跟踪和检查读/写操作的速度。如果发现任何问题,请立即与存储和网络团队协调以纠正错误。

3.备份和灾难恢复计划

与备份团队通信并为其提供备份的数据和客户端优先级。生产服务器的建议备份条件是:

  • 增量备份:每周一至周五

  • 完整备份:周六和周日

  • 灾难恢复演习:每月一次(最好是必要时或每季度一次)与备份团队一起进行恢复模拟演习,以确保在出现问题时可以恢复数据。

4.修补

必须立即实施已知漏洞的操作系统修补程序。有许多类型和级别的补丁,包括:安全/危急/中等

发布补丁时,请检查错误或漏洞详细信息以了解它是如何应用于你的系统的(例如,漏洞是否会影响系统中的硬件?),并在需要时采取任何必要的操作来应用补丁。确保交叉验证应用程序与修补程序或升级的兼容性。

5.应用程序兼容

在使用任何应用程序之前,请检查其与硬件和操作系统的兼容性,并确保进行负载测试(在应用团队的支持下)。

6.服务器强化

Linux:

  • 设置BIOS密码:这可以防止用户更改BIOS设置。

  • 设置GRUB密码:这会阻止用户更改GRUB引导加载程序。

  • 拒绝root访问:拒绝root访问可以最大限度地减少入侵的可能性。

  • Sudo用户:创建sudo用户并分配有限的权限来调用命令。

  • TCP包装器:这是保护服务器免受黑客攻击的武器。为SSH守护程序应用规则以仅允许受信任的主机访问服务器,并拒绝所有其他主机。对FTP,SSH文件传输协议等其他服务应用类似的规则。

  • Firewall/iptables:为服务器的传入流量配置firewall和iptables规则。包括特定端口,源IP和目标IP,并允许,拒绝,拒绝公共区域和私有区域的ICMP请求等。

  • 防病毒:安装防病毒软件并定期更新病毒库。

  • 安全和审核日志:定期检查日志,并在需要时检查日志。

  • 日志轮转:将日志保留一段有限的时间,如 “7天”,以保持足够的磁盘空间,以实现更好的操作。

Windows:

  • 设置BIOS密码:这可以防止用户更改BIOS设置。

  • 防病毒:安装防病毒软件并定期更新病毒库。

  • 配置防火墙规则:防止未授权方访问系统。

  • 拒绝管理员登录:限制用户进行可能会增加系统漏洞的更改的能力。

7.使用syslog服务器

通过在环境中配置syslog服务器以保留系统和应用日志的记录,在发生入侵或问题时,系统管理员可以检查以前的和实时的日志来诊断和解决问题。

8.自动化

许多系统管理员任务(例如服务器运行状况检查,资源利用率,备份触发器,传输文件和日志等)必须在特定时间完成。因此,系统管理员必须编写脚本或使用外部工具并将它们配置为cron作业,以便在适当的时间自动执行任务。

9.监控工具

安装和配置Nagios,HP等实时监控工具,以监控你的IT基础架构并发布有关潜在问题的警报。

总结

虽然这些是系统管理员负责的最重要的任务,但该角色的责任远远超过此列表中的工作范畴。例如,系统管理员必须与多个团队协调以解决问题,与客户沟通和更新,保持100%的正常运行时间,与审计团队进行讨论,准备每周/每月/每季度报告,使用适当的工具持续监控服务器和服务,维护硬件控制台并响应任何触发的警报。

系统管理员始终是数据中心或网络运营中心的重心,用于解决与Web托管,应用和服务器中断以及其他关键IT操作等相关的问题。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部