千亿运维的智能革命,下一个头部玩家在哪里?

IT运维管理正在得到越来越多人的关注。

随着时间逐渐转入后疫情时代,各行各业的数字化转型可以说是热闹非凡,尤其是业务上云、远程办公、人机协同等开始落到实处。这一切数字化转型背后的保障——IT运维管理也陆续获得不同轮次的融资,甚至出现了估值超十亿美金的新兴独角兽。

“运维们”都在做些什么?

简单来说,保证上线的各项系统按照预期稳定运行,监控甚至预测什么时候可能会出现故障或风险,快速明确导致故障出现的原因,并提出行之有效的解决方案,是运维的主要工作。

但运维行业和安全行业比较相像的点在于:用户对于两者的价值感知和情感认知不像对业务系统那么明显,往往是在出了事故之后才感受到它们的重要性——人们更在意数字化转型完成后光鲜亮丽的成果,忽略了与之共生共存的运维系统。

只有痛过才会有切身的感受,这两年从AWS、阿里、华为云、特斯拉、苹果各大科技巨头乃至为我们提供健康码查询的政府部门,都出现过不止一次的大规模IT系统宕机,从而导致整体服务暂停,对自身品牌、客户体验乃至核心业务等都造成巨大影响。换句话说,每一次故障预判、故障处理,对企业自身运维能力来说都是一场大考。

而近几年来持续不断的数字化转型也带来了更加复杂的IT基础设施和大量的业务系统,如何让其持续稳定输出成了客户的牵挂。至此,运维部门的价值逐步彰显,投身下一代运维技术的创业企业亦如雨后春笋般冒头。

从IT运维软件的市场规模来看,Gartner认为全球的ITOM(IT Operation Management)的市场规模到20年底达到了339亿美元,同期艾瑞咨询预计国内的市场规模大约在114亿人民币左右。数据看上去似乎并不大,但如果从整个IT运维管理服务市场的角度切入,中国市场空间仅2020年就预计超过2500亿。

可以预见的是,这一2500亿的市场正在发生重塑。

01 重塑下的中国市场

中国IT管理服务的2500亿市场中,涵盖了原厂运维服务业务、第三方运维服务业务以及配套的运维管理服务软件、工具技术厂商等。这里面最大头的是原厂运维服务,占比超过40%,第三方运维服务超过50%,ITOM相关的各类软件工具等加起来不到10%。但从增速来看,ITOM的软件、工具等技术厂商正在高速发展,由此驱动整个IT管理服务市场的增长,笔者也观察到了市场出现的几个现象。

观察一:原厂运维服务市场增长失速,去IOE后带来了原厂运维服务市场的缺位。

早先国内IT基础设施市场基本由IBM、EMC为首的海外巨头独占鳌头,他们的IT服务能力经过数十年的打磨,已经非常成熟,能够很好的给客户提供从硬件到软件,再到运维服务端到端的服务解决方案。很多大甲方选择把单子给IOE们去做,不仅仅是因为更加稳定成熟的IT硬件,更在于其贴心的整体配套服务。

近几年,“国产化”运动大行其道,中大型客户主动或被动地在IT采购上向国产化厂商倾斜。但问题也随之而来,除了像华为、联想这样的一线国产品牌,大量国产化厂商的产品更像是“催生的早产儿”,与之配套的运维工具、运维服务更是严重缺失。很多企业在上了国产化软硬件后问题频出,只能在市场上寻找第三方运维服务、智能化工具和平台系统来解决IT国产化过程中伴生的阵痛。

另一方面,IOE等巨头们的市场份额被逐步蚕食,原厂运维部门的规模和预算不断被削减,就连服务能力也被逐步压缩到部分大客户身上。此外,仍有很多存量在使用IBM小型机、EMC存储的客户,很难再获得原厂十年前提供的同等优质服务。且这类客户的核心系统其实仍然跑在IOE设备上,他们同样需要寻找真正懂得IOE的第三方运维服务与软件厂商来提供后续运维。

观察二:数字化转型的持续深入带来运维难度指数级增加。

云计算、大数据、SDX等新一代信息技术的出现和发展颠覆了传统IT架构,IT运维的内容和管理模式也随之出现巨大变化。IT运维的业务人员的工作边界从原来关注机房环境管理、设备巡检、设备告警等物理硬件运维拓展到了应用运维、安全运维、开发运维等领域。

2015年的时候,一家约500人的企业可能也就只有OA、ERP、CRM等十几套系统,但现在,一家同等规模企业可能需要五十套业务系统。IT基础设施也不再是服务器、存储、网络的标准三件套,而是从公有云、私有云、混合云囊括到传统的IT硬件,甚至IBM小型机等啥都有的大杂烩。

以上,运维复杂程度的提升不是线性增长,而是指数级增长。

业务上每出现一个响应延时,就可能会带来几千个关联告警。同时,查找响应延时根因的链路也变得非常长,这早就不是多招点运维人员就能解决的问题了。

占运维总市场规模超50%的第三方运维服务市场,原先也以人力外包驻场服务为主。然而,在运维难度指数级提高后,原有的大规模初级运维人员所具备的技术栈已很难胜任新一代IT架构的运维需求。

观察三:逐年上升的人力成本和繁杂的IT系统建设间的矛盾。

从美国的IT发展历程中,我们可以看到一部美国IT工程师人力资本的变迁史。当企业的IT需求增速远远超过IT人才培养的增速时,美国企业的IT就经历了从In-house IT,到IT外包的发展,再到产品化软件以及现在估值已上天的SaaS模式。

这一发展过程的底层逻辑是社会的IT人力资本相对于IT需求的爆发逐步稀缺,于是,企业们经历了从各家养团队啥都自己开发,到外包出去交给专业软件公司去开发,再到现在SaaS模式下的开发一套软件全社会共享使用的过程。

笔者不敢妄言当下国内的工程师红利正在衰退,但IT工程师的成本变得越来越贵已是不争的事实。此外,由于运维业务在大多数客户组织体系中的价值彰显度不高,愿意做运维的专业优秀人才越来越少,也越来越难招。对指数级增长的IT运维需求,通过扩张人力来支撑显然力不从心。

另一方面,运维行业的一项核心能力是IT运维经验知识的积累。老师傅见过世面,看到一个告警就能大概知道是服务器问题还是网络问题,而新手即使熟读全部告警和日志也不一定能抓得住重点。奈何短期市场上的老师傅就这么多,新一代“老师傅”的成长周期太长,同样无法满足当下爆发式增长的运维需求。

因此,这个场景相比于“从监控视频中识别出员工有没有打瞌睡”更适合人工智能去落地,于是就有了这几年如火如荼的AIOps—智能化运维。通过AI算法将运维过程中的经验、知识沉淀成一个个模型,起码能够帮助运维新手们了解最重要的几十个告警,提示故障出现的可能因素以及解决方法,大幅减少工作量。

当下运维服务市场大多由原厂维保和人力运维外包构成,可以预见的是未来原厂维修的比重将持续下降,人力运维成本持续走高,市场会将客户需求推向具有智能化运维能力的软件厂商。当以人力为主的IT运维市场逐步迁移到技术平台主导的智能运维市场,原来分散的运维市场将会出现一批头部玩家。

到底什么样的软件公司才能够在市场变革的过程中拿下蛋糕?作为企业服务投资人,一般都会先看看海外市场主流玩家们的成长历程。

02 他山之石:Servicenow向上,Datadog向下

美国的IT运维长期来看一直是大赛道,容纳了不下十家不同类型的上市公司。其中最具典型特征的企业有两家,一个是运维赛道中市值最高,超过1200亿美金的Servicenow;另一个是赛道中PS(TTM)倍数最高,超过60倍的Datadog。

从Gartner定义角度来看,两家的主营业务分属ITOM赛道里的不同子领域:Servicenow的主要业务更多在ITSM--IT服务管理,而Datadog的主营业务在IT监控分析平台(AIOps)和各类分析工具。

成立于2012年的Datadog用了九年时间达到现在近500亿美金的市值,做对了什么?

彼时美国的IT基础设施正在经历大规模的迭代,从私有化部署到上云。在这个时间点创业的Datadog避开了APM、NPM等运维工具,进入了更多是开源软件工具市场的IT基础设施监控,并从一开始就不断打磨其核心监控平台,填补市场空缺。与此同时,Datadog赶上了客户上云的大时代,比其他“更早期玩家”更加具有可拓展性和灵活性,也更早拥抱了云原生的机遇。

经过五年时间的打磨,Datadog在2017年推出APM产品,2018年推出Log分析产品,2019年继续向IT监控分析领域的纵深拓展,推出了RUM产品,并在2019年年底上线了安全监控运维的产品。至此,Datadog基本形成了一套ITOM监控分析平台上长着多个重要的监控工具的产品体系。

Servicenow的发展则是另外一条路。

虽然Servicenow成立于2003年,但其体量的快速增长是在2011年Frank Slootman加入之后。团队的主营业务聚焦于ITSM(IT服务管理),也就是将IT运维过程中高频问题的自动化、常规问题的自助化、并发问题的有序化解决,并能实时跟踪和可视化问题解决的路径和流程。

Servicenow于2012年上市,2016年后开始向业务应用端发展,切入HR工作流管理、客户服务工作流管理(CSM),并从2019年开始切入到财税领域。通过ITSM平台构建了一个可集成丰富IT运维第三方应用的生态系统,不仅覆盖了IT运维场景,还跳出IT运维场景跨入其他通用企业服务场景。

这两个在行业里自成标杆的玩家,让我们看到智能运维作为企业数字化转型中的核心板块,不论是向上切入业务应用,还是向下延展,做深度覆盖完整监控体系乃至安全运维,都有成功的路径可循。

无论向上还是向下,二者都是从相对通用性的业务切入市场,快速打磨一套底层平台,将客户IT运维中重要的数据流、业务流整合在一起,形成了基于数据和AI的一体化、综合性的“数智运维平台”。再基于平台对数据、业务流程的打通与复用,持续拓展自身的产品版图,给客户提供“全栈式”的智能运维能力。

03 为什么中国没有自己的Servicenow和Datadog?

第一,运维的痛点来自于IT的复杂度,客户如果不够痛,那采购需求和采购意愿就不会那么强。当IT系统比较简单的时候,运维的价值只会在系统出现小概率系统故障时体现。虽然数字化转型喊了很多年,但对于大多数企业来说,数字化转型是在最近三两年才落到实处的。

第二,运维的需求以大客户为主,Servicenow和Datadog披露的财报数据就是非常明显的2/8法则。尽管他们都有上万付费客户,但其收入增长的核心驱动主要来自于那几百个头部大客户增长及其平均客单价的提升。

中美一个典型的不同点在于大客户的行业结构差别很大,中国的头部客户主要还是以房地产、金融机构、央企国企等大客户为主。在过去二十年里,这些企业对IT驱动业务发展的需求就不是特别旺盛,IT部门也没有得到足够的重视,成了企业整体中比较边缘的部门。

国内相当一部分大客户到现在也感受不到运维带来的压力,而少数对外提供互联网服务或数字化服务的大公司,目前运维的主要方式还是依靠内部的IT和运维团队,通过部分开源产品自行开发自动化运维工具和平台。因此,第三方运维厂商提供的能力对他们来说价值还比较低。

第三,IT运维人力成本的不同导致了中美企业间非常不同的智能化运维动力。中美两国企业选择智能化运维的动力不同,中国IT人员成本远低于美国,IT运维人员的成本也低于做系统架构和前端应用的开发工程师和算法工程师。笔者观察到,前几年很多大型企业通过自己招人或外包服务公司派人驻场服务等方式,解决IT运维的瓶颈问题。显然,这种方式在美国的可行性就比较低,只能通过不同类型的运维工具和平台来自动化的解决人力短缺的问题,所以这类美国厂商的收入增长都做得非常好。

不过,后疫情时代下,国内的企业们正在逐步消除这些智能运维软件成长的障碍。

疫情期间,笔者身边的国内五百强大客户们都感受过外来IT驻场人员没法进场干活的痛苦,也感受过突然切入线上化办公,新增数字化服务业务对原有IT体系的冲击。同时,国家层面在2020年、2021年持续强化数字化转型任务,大型央企、国企、政府部门都在持续加大投入。在经济增速放缓的现在,原来像房地产、金融机构等躺着赚钱的大巨头们也不得不选择数字化来驱动“失速的增长”。

未来持续的业务数字化转型已经是不可逆的大趋势,而作为数字化转型的稳定器,新一代运维平台建设和软件产品应用已经被身边很多五百强大客户们提上日程。可以预测的是,未来智能运维平台和系统工具在运维整体市场份额中将会持续提高。

那么,什么样的公司才能够成为中国版的Servicenow或者Datadog呢?

04 谁会成为真正的头部玩家?

由于中美两国的主要客群画像、数字化发展程度,订阅制商业模式的接受程度不同,笔者认为中国未来几年长出来的专业运维头部玩家可能和Servicenow、Datadog会不太一样。

第一,智能运维在中国目前很难SaaS。

国内的运维技术厂商目前基本还是以私有化部署的模式在销售,未来几年也比较难以SaaS提供服务。首先是用户客群间的差异,中国的中大型企业运维需求旺盛,却难以接受SaaS模式。况且SaaS目前典型的销售对象是中小客群,二者并非同一群人。

其次,运维监控内容涉及面广,运维工作流差别也很大。运维软件相较业务软件更为复杂,很难提供标化服务,加上国内企业DIY能力弱,大多数团队并不知道怎么使用模块化组件,需要厂商上门提供整体实施。

再者,国内外公有云的渗透率差别很大。目前国内的头部客户对上公有云仍然有很多顾虑,今年甚至出现部分地方政府让政企客户下公有云的情况,这也对SaaS化带来挑战。

但是,从目前身边大客户们的需求来看,同时支撑“云上云下"运维工作的混合云架构平台,有可能成为最终的一种主流部署方式,在这种混合模式下,服务的提供也会发生在远程+现场。形成平台和服务两者都同时远程+现场部署落地的模式。

第二,工具化路线并不太走得通。

大约在四五年前,国内出现了一批专门做APM的工具玩家。虽然大家的产品做得很好,但最终的商业化过程还是不可避免的陷入价格战,甚至出现0元中标的情况。最后,除了一个幸运儿在科创板开板早期上市,上市后表现也一般,其他要么转型,要么在发展期出现瓶颈,到现在还在挣扎。工具厂商做出来的产品同质化严重,必须要有先于对手一步切入市场的决心和能力,建立自身品牌知名度。

此外,运维的主流客户是中大型企业,一个工具供应商在中大客户的IT采购中的感知度并不高,很难形成深度粘性。在中国做运维,工具类的运维厂商很难成为市场上的大玩家,技术平台+服务型的公司才能站在运维主战场。

第三,做运维离不开服务,智能化帮助技术供应商提高服务效率和效果。

2B的产品销售不仅是找到痛点帮客户解决问题,同时也是在不断积累信任度。尤其是在运维领域,这是客户IT系统运行保障的生命线。运维与前端业务系统开发不一样的点在于,运维是一项融入于日常的保障工作,客户习惯于第三方提供一定量的现场服务。

一提到现场服务,很多投资人会把他们当作洪水猛兽。作为一把双刃剑,运维现场服务的问题在于其对企业规模化效率的影响和服务半径的限制。如果服务得好,就能够与企业建立深度信任,做到每年持续性收费并获得运维一手信息,提供新品销售,甚至是和客户一同打磨产品。

单纯做人力驻场服务的公司未来的空间和增长会受限,而离客户太远的新一代工具型公司也会存在问题,如何把握好客户服务和产品化、标准化之间的度,是下一代智能运维玩家要考虑的问题。

从结果来看,已经有智能运维独角兽认识到这个问题,从工具化转型成平台+服务的大运维模式,员工规模也超过千人。现在说其成功为时尚早,但是从现阶段的客户反馈来看,这种模式显然更被客户认可。

笔者认为,客户的运维需求一直没有变,需要的仍然是软件系统+服务。差别在于传统运维软件和人力服务已无法胜任当下复杂的运维需求,而新一代的智能运维软件,对客户来说能够降维自身工作量,对厂商而言能够提高自身对外服务的效率,优化自身服务成本。未来,随着用户IT运维需求的不断增长,新一代智能平台会有良好的拓展性,持续提供新工具和新方案。

运维赛道的智能化革命过程才刚开始,可预期的是未来会有更多中国特色智能运维公司进入这一战场,独属于中国的运维巨头也将在此诞生。

本文来自微信公众号“泡腾VCer”(ID:ptvc2020),作者:Marc,编辑:Janet,36氪经授权发布。

36氪平台

Copyright 2021 快鲸

扫码免费用

源码支持二开

申请免费使用

在线咨询