<正规的IT运维外包工作的内容是什么?_沐林森

正规的IT运维外包工作的内容是什么?

  • 时间:2019-07-08 14:55:28
  • 作者:IT外包公司
  • 来源:IT外包知识网
  • 浏览:67

今天深圳IT运维外包公司在这里和大家一起来看看,关于那些正规的工作主要是什么,T外包互联网运维工作,服务导向,稳定、安全、高效率为三个基本点,确保公司的互联网业务能够为用户提供7×24小时的优质服务。接下来我们就具体来看看。


正规的IT运维外包工作的内容是什么?


操作维护人员加强了在线服务、基本服务、的稳定性,这取决于公司的互联网业务,并进行日常检查以发现服务可能存在的隐患。整体架构经过优化,可以屏蔽常见的操作故障。访问以提高服务的容灾能力。通过监控、日志分析和其他技术手段,及时发现和响应服务故障,缩短服务中断时间,使公司的互联网业务满足预期的可用性要求,并为用户提供持续稳定的服务。

在安全性方面,运维人员需要关注业务运营中涉及的所有方面,以确保用户可以安全地访问、的在线服务。

从网络边界划分、ACL管理、流量分析、DDoS防御,到操作系统、开源软件漏洞扫描和打补丁,再到应用服务XSS、SQL注入保护;

从安全过程梳理、代码白盒黑盒扫描、权限审核,到入侵检测、业务风险控制。

运营维护人员需要确保公司提供的互联网行业在可控的安全状态、下运行,确保公司业务数据和用户隐私数据的安全性,并且还需要能够承受各种恶意攻击。

在确保业务稳定性、的前提下,有必要确保业务的有效运作和公司内部的快速输出。运营和维护工作需要优化业务的各个方面。

例如,IO优化可提高数据库性能,图像压缩可减少带宽使用等,并以最少的用户输入和最大的用户价值和体验提供Internet服务。同时,有必要通过各种工具平台提高内部产品的发布和交付效率,提高公司内部运维的效率。

工作分类和操作

操作和维护的操作方向相对较大。随着业务规模的不断发展,互联网企业越成熟,运营维护岗位就越细分。目前,许多大型互联网公司在初期只有系统运维。服务质量为、,工作逐步细分。

一般情况下,操作维护团队的操作分类(见图1-1)和职责如下。

带您体验正式的操作和维护工作!带您体验正式的操作和维护工作!

图1-1操作和维护团队的分类

系统运行和维护

系统运行和维护负责IDC、网络、CDN和基本服务的构建(LVS、NTP、DNS);负责资产管理,服务器选择、交付和维护。详细的工作职责如下:1. IDC数据中心建设

收集业务需求,估计数据中心的未来发展,从骨干网络的分布,数据中心架构和互联网接入、网络攻击防御能力、容量扩展、空间预留、外部专线能力、现场服务支持能力,等评估选择数据中心。负责构建数据中心、的现场维护工作。

2.网络建设

设计和规划生产网络架构,包括:数据中心网络架构、传输网络架构、CDN网络架构,以及网络维护等日常运维工作。

3.LVS负载均衡和SNAT构造

LVS是整个站点体系结构中的流量门户,根据网络规模和业务需求构建负载平衡群集。

完成网络与业务服务器之间的连接,提供高性能的、高可用性负载调度能力,统一的网络层防攻击能力。

SNAT提供对数据中心内公共网络访问服务的集中访问,通过集群部署确保传出服务的高性能和高可用性。

4. CDN规划和建设

CDN的工作分为三个部分和三部分。

建立第三方CDN的选择和调度控制;根据业务发展趋势规划CDN新节点的布局;改进CDN服务和监控,以确保CDN系统、的稳定运行。

分析服务加速通道的文件特征和数量,制定最优加速策略和资源匹配;负责CDN日常故障排除,例如用户劫持。

5.服务器选择、交付和维护

负责服务器测试选择,包括服务器、组件的基本测试和服务测试,降低整体机器功耗并增加机架部署密度。

结合对公司业务的了解,推广新硬件、新解决方案,以降低业务的服务器投资规模。负责服务器硬件故障的诊断和定位,服务器硬件监控、健康检查工具的开发和维护。

6.OS、内核选择和OS相关的维护工作

负责OS选择、整个平台的定制和内核优化,以及补丁更新和内部版本发布;建立基本的YUM包管理和分发中心,提供通用包版本库;跟进每日各种OS相关的故障;业务类型,提供有针对性的优化支持

7.资产管理

记录和管理与运维相关的基本物理信息,包括数据中心、网络、机柜、服务器、ACL、IP等资源信息,制定有效程序,保证信息的准确性;开放式API接口,为自动化操作和维护提供数据支持。8.基本服务建设。

该业务严重依赖DNS、NTP、SYSLOG等基本服务,需要设计高可用性架构以避免单点并提供稳定的基本服务。

应用操作和维护

应用程序运行和维护负责在线服务更改、服务状态监控、服务灾难恢复和数据备份等,定期检查服务、故障应急响应等工作。详细的工作职责如下。

设计回顾

在产品开发阶段,参与产品设计评审,从操作和维护的角度提出评审意见,使服务能够满足操作和维护访问的高可用性要求。

2.服务管理

负责开发在线业务升级变更和回滚计划,并实施变更。掌握负责的服务和服务之间的关系。、服务依赖的各种资源。能够识别服务中的缺陷,及时通知和提前解决。

制定服务稳定性指标和访问标准,同时不断改进和优化程序和系统功能、的效率,提高运行质量。改善监控内容并提高报警准确性。

当在线服务失败时,第一次响应,可以根据流程通知已知的在线故障,并根据计划执行,未知故障组织组织联合故障排除。

3.资源管理

管理每个服务的服务器资产,整理服务器资源状态、数据中心分布、网络专线和带宽情况,可以合理利用服务器资源,根据不同服务的需要分配不同的配置服务器,保证充分利用服务器资源。

4.例行检查

制定日常服务检查点并继续改进。根据服务故障排除点定期检查服务。及时调查调查过程中发现的问题,消除可能存在的隐患。

5.计划管理

确定服务所需的、系统指标的阈值或临界点,以及发生此情况后的处理计划。建立和更新服务计划文件,并根据日常故障情况继续补充和改进,提高计划的完整性。能够制定和审查各种类型的计划,并定期进行预先计划练习,以确保计划的可执行性。

6.数据备份

根据规范制定数据备份策略并执行数据备份工作。确保数据可用性和完整性,并定期进行数据恢复测试。

数据库操作和维护

数据库操作和维护负责数据存储方案设计、数据库表设计、索引设计和SQL优化,更改数据库、监视、备份、高可用性设计等工作。详细的工作职责如下。

设计回顾

在产品开发的初始阶段,参与设计审核,从DBA、库表设计、SQL开发标准、索引设计等角度提出数据存储解决方案,使服务满足高可用性、数据库的高性能要求使用。2.容量规划

掌握主管服务器数据库的容量限制,明确了解当前的瓶颈点,并在服务未达到容量限制时及时优化、拆分或扩展。

3.数据备份和灾难恢复

制定数据备份和灾难恢复策略,并定期完成数据恢复测试,以确保数据备份的可用性和完整性。

4.数据库监控

提高数据库生存和性能监控,及时了解数据库运行状态和故障。

数据库安全

建立数据库帐户系统,严格控制帐户权限和开放范围,降低误操作和数据泄露的风险;加强对离线备份数据的管理,降低数据泄露的风险。

5.数据库高可用性和性能优化

针对数据库单点风险和故障设计相应的切换方案,减少故障对数据库服务的影响;不断优化数据库的整体性能,包括引入新的存储方案、硬件优化、文件系统优化、数据库优化、SQL优化等。随着成本的增加或小幅增加,数据库可以支持更多的业务请求。

6.自动化系统建设

设计和开发数据库自动化操作和维护系统,包括数据库部署、自动扩展、子库、权限管理、备份恢复、SQL审计和在线、故障转移等功能。

7.运营和维护研发

运维研发负责一般运维平台的设计和研发工作,如:资产管理、监控系统、运维平台、数据权限管理系统。提供各种用于操作和维护的API或研发人员来打包更高级别的自动化操作和维护系统。详细的工作职责如下。

8.运维平台

记录和管理服务及其相关关系,协助操作和维护人员自动完成、以完成日常操作和维护操作,包括机器管理、重启、重命名、初始化、域名管理、流量切换和故障计划实施。

9.监测系统

负责监控系统设计、开发工作,完成公司服务器及各种网络设备资源指标、在线业务操作指标采集、报警、存储、分析、显示和数据挖掘等,不断提高报警的及时性、准确性和智能促进公司服务器资源的合理化。

10.自动部署系统

参与开发部署自动化系统,负责自动化系统部署所需的基本数据和信息,负责权限管理、API开发、 Web端开发。结合云计算,开发并提供与PaaS相关的高可用性平台,进一步提高服务部署速度和用户体验,并提高资源利用率。操作和维护安全

运维安全负责网络、系统和服务的安全加固,并定期进行安全扫描、渗透测试,安全工具和系统开发以及安全事件应急响应。详细的工作职责如下。

1.建立安全系统

根据公司内部的具体流程,建立切实有效的安全系统。

2.安全培训

定期为员工提供有针对性的安全培训和评估,并在整个公司内建立安全领导体系。

3.风险评估

通过黑白框测试和检查机制,定期生成物理网络、服务器、业务应用程序、用户数据的整体风险评估结果。

4.安全施工

根据风险评估的结果,最薄弱的环节得到加强,包括设计安全防御。、部署安全设备、及时更新补丁、防御病毒、源代码自动扫描和业务产品安全咨询。为了减少可能泄露的数据的价值,目的是通过加密、匿名化、以混淆数据,甚至周期性地删除技术手段和过程来实现。

5.安全合规性

为了满足支付许可证等合规性要求,安全团队负责外部接口工作的安全性。

6.紧急响应

建立安全报警系统,收集第三方通过安全中心发现的安全问题,组织各部门修复发现的安全问题。、影响表面评估、验尸安全原因。

运维工作开发过程

早期的运维团队在人员较少的情况下,主要针对数据中心建设、基本网络建设、服务器采购和服务器安装交付工作。几乎很少涉及对在线服务、监控、管理和其他工作的更改。

此时,运营和维护团队更多地是基础架构角色,提供简单的、可用网络环境和系统环境。

随着商业产品的成熟,对服务质量的要求也越来越高。这时,运维团队还将承担一些服务器监控工作,并将负责LVS、Nginx等4/7层运营和维护工作,独立于业务逻辑。

此时,服务更改更加手动,或者出现一些简单的批处理脚本。监控的重点更多地放在服务器状态和资源使用上,监控服务应用程序的状态几乎是罕见的,监控更多使用各种开源系统,如Nagios、Cacti。

由于业务规模和复杂性的不断增加,运维团队将逐步分为两个部分:应用运维,系统运维。应用程序运维开始接管在线业务,逐步开展服务监控,整理出、数据备份和服务变更。随着服务的深入,应用程序操作和维护工程师能够开始一些简单的服务优化。同时,为了应对每天的大量服务变更,我们也开始编写各种操作和维护工具,对于一些具体的服务可以轻松批量更改。

随着业务规模的扩大,基础设施由于容量规划不足或承受风险能力弱而出现越来越多的故障,迫使运维人员开始投入更多精力进入多数据中心灾难恢复计划管理。在这个方向上。

业务规模达到一定水平后,开源监控系统在性能和功能方面无法满足业务需求;大量服务改变了复杂的服务关系、,手动记录、工具更改的方法是效率和准确性。无法满足业务需求。

还发生了各种安全事件,迫使我们将更多的精力用于安全防御。经营和维护团队逐步形成了前面提到的五大职业分类,每个类别都需要专业人才。

此时,系统运维更加注重基础设施建设和运维,提供稳定的、高效网络环境,为应用运维工程师提供服务器和其他资源。应用操作和维护更侧重于服务运行状态和效率。

数据库操作和维护是应用程序操作和维护工作的改进,更侧重于数据库域、性能优化和安全防御的自动化。运维维护研发和运维维护提供各种平台、工具,进一步提升运维工程师的工作效率,使业务运营更加稳定。、高效安全。


手动管理阶段:业务流量不大,服务器数量相对较少,系统复杂度不高。对于日常业务管理操作,每个人都更多地登录到服务器以进行手动操作。他们属于自己的行动。每个人都有自己的操作模式。缺少必要的操作标准、处理机制。例如,业务目录环境是各种。

工具阶段批量操作:随着大小、服务器系统的复杂性,全手动操作模式已不能满足业务快速发展的需要。因此,操作和维护人员逐渐开始使用批处理操作工具,并针对不同类型的操作出现不同的脚本程序。

但每个团队都有自己的工具,每次操作要求发生变化时都必须对其进行调整。这主要是由于、环境的操作规范不足,导致编程能力较弱。在这一点上,虽然效率提高了一部分,但很快就遇到了瓶颈。

操作的质量没有太大改善,甚至由于批量执行也会出现更大的问题。首先,我们创造了很多工艺规范,如修订机制,以观察一个服务器10分钟,然后进行下一步操作第一线,更新后至少20分钟。

这主要是根据人来监督和执行,但在实际过程中,实施往往没有这样做,反而降低了工作效率。

平台管理阶段:在这个阶段,我们对运行和维护效率以及不正确的运行率有更高的要求。我们决定启动运维平台,通过平台采用标准的、流程,从而节省人力,提高质量。

此时,抽象出服务改变动作,并形成操作方法。环境、、目录服务执行方式等统一服务标准,例如启动/停止启动程序必须包括停止、、超载。操作过程受平台限制,如先前在线服务器观察10分钟。

暂停控制点在平台上通过强制建立。第一台服务器的操作之后,需要操作维护人员完成相应的元素检查,然后才能继续执行后续的行动。

相自动编程系统:在每个平台的运行和维护,原有的方式转换成批处理操作操作平台有较大数量的服务、协会更复杂的服务、不再是足够的,需要改变服务更改更大层的抽象。

每个服务器都在容器中抽象化。编程系统根据资源使用显示服务办公室、到适当的服务器,并自动完成与各种操作系统和周围的维护,诸如备份系统、、系统日志的日志备份系统等的连接。

以上就是深圳IT运维外包公司为大家详细介绍的工作,当然还有很多工作细节等问题需要,需要我们这边来考虑的,希望以上的内容可以帮助大家。


[返回]
在线客服



客服电话

0755-23960038