OneAPM蓝海讯通:创业十年,支撑百万并发IT服务

摘要: 关注ITValue,查

11-09 10:36 首页 ITValue

                                               关注ITValue,查看企业级市场最新鲜、最具价值的报道!


OneAPM联合创始人  黎卫


2017年IT价值峰会暨首届中国企业级技术峰会上,OneAPM联合创始人黎卫以《云和大数据时代的IT运维管理》为主题,分享了在当今的互联网环境下,企业领导者应该如何进行IT业务管理。

 

黎卫回顾了蓝海讯通OneAPM的创业史,他和其他三位创始人从2008 年开始为客户提供IT运维服务,到现在已经快满十年。2014年开始公司转型做SaaS业务,在2015年SaaS用户突破了1万家。在2016年8月份蓝海讯通成功在新三板挂牌,目前公司现在已经超过了350人,是国内目前第一家,也是到目前为止唯一一家能够覆盖整个IT运维管理全栈产品线的解决方案。


现在,OneAPM的客户在国内已经超过了两万家,其中包括国内三大运营商外、大型金融企业、政府大型企业等,李宁、马克华菲、美的、吉利汽车等都成为了蓝海讯通的客户。


目前,OneAPM的全链路云压测平台CPT物理节点遍布国内三大运营商,压力负载机覆盖全国31个主要地市,压力机资源来自国内外40+家云厂商和IDC公司,可用虚机数量达到了5000多台。黎卫表示,这个解决方案也成为了目前互联网公司面对海量并发,企业做云迁移争相购买的一款产品。


以下为OneAPM蓝讯通创始黎卫在“2017 IT价值峰会暨中国企业级技术峰会”上的演讲实录,经ITValue编辑整理发布:


黎卫:OneAPM蓝海讯通是一家2008年成立的公司,我们这长达十年的时间都投入在IT运维这一领域,我们接触到的都是国内的一些大型企业的客户。我今天向大家分享,在今天这样的一个市场环境下,公司如何搭建一个整体的IT运维解决方案。


有一个手游现在是一个非常火的话题,据统计,是2017上半年最吸金的移动平台游戏,从发布的财报的来看,单月的流水已经超过了30亿,这相当于微博在2016财年全年的净营收。今年承接该游戏KPL联赛售票业务的公司的技术团队找到我们,问了一个问题,说在KPL联赛时会有将近两百万人同时并发访问他们网站,包括登录、买票、观看比赛,这种情况下很担心这么高的并发,整个后端IT架构能不能扛得住?


我们向他们提供了CPT整体解决方案,帮他们搞定压测这件事。CPT解决方案是目前我们公司最好卖的一款产品,大量的互联网公司和传统企业选择了这个解决方案。


目前,全链路云压测平台CPT物理节点遍布国内三大运营商,压力负载机覆盖全国31个主要地市。压力机资源来自国内外40+家云厂商和IDC公司,可用虚机数量达到了5000多台。同时我们在底层还有多年沉淀下来关于ITOM的各种解决方案,去帮助企业输出数据。那么APM组建的云平台,能够解决一个什么问题呢?


01

企业向互联网+转型必须投资ITOM解决方案


现在的企业内部有着各种复杂的业务系统,特别是对于在座的各位CEO来说,很多传统的企业多年积累下来了大量的IT业务系统。这些业务系统,带来了越来越多的代码,那么整体质量怎么管理?我们为所有的客户提供了一整套的方法论,大家可以把这一套整个解决方案作为一个验收标准,让所有外包服务厂商、软件开发商,上线之前都必须得通过前端压测、后端代码优化、整体的网络优化和底层的最佳的硬件的配置调优。这像是IBM PC系列的服务器,对于企业来说是一个必须的投资。



如果企业投资建立了这样一套测试体系的话,能够保障所有业务系统在上线之前都已经过严格的优化和整体的测试。在今年上半年,吴晓波在总理主持召开的经济形势座谈会上讲到,现在的产业属于产业重型化向互联网+新金融转型。大家现在看到很多传统企业都在转型做电商和一些新的业务。在我们的客户中,有一家向互联网+转型的典型客户就是太保(太平洋保险)。我们在向太保提供服务的过程中,通过整套的解决方案发现太保业务代码以及底层Redis的性能问题,我们帮助他们解决了这些性能问题,顺利上线了系统。



作为一家全生命周期解决方案的提供商,我们给太保打造了这样的一个监控平台,展现整体的IT业务数据,从性能数据、用户体验数据到运营分析数据。这些大屏数据自于OneAPM全套产品线,这些数据涵盖了所有IT环境中请求详情和终端用户手上的App使用情况。



这些请求发起之后经过公网再到内网然后再到应用,直至底层的硬件,这整个环节我们都有对应的产品去提供对应的监控和数据采集。基于采集到的数据,我们可以帮用户去定制整体IT云主机或云机房内部的一些界面,帮助企业领导实时了解整个IT业务系统,当前处于一个什么样的状况,了解全国各地所有的业务和各个分站点或者各个分公司的情况。


02

IT运维归根结底是管人管事管物


用我们的数据、流程管理以及自动化的工具和前端的大屏展现把整套的流程梳理完,就是IT运维管理中的管物。



大家看一下,这张大屏其实是人和事的管理。这张图是企业基础设施的监控,大屏可以实时查看系统是否发生故障。发生故障时,可以对业务的各个环节去进行快速故障定位,包括业务、网络、应用都能够进行追踪。


如果说故障是出现在应用层,通过对应的APM产品,自动展现业务拓扑图,告诉企业负责人业务的整体性能状况。对于投诉,我们分为两种情况,一种情况是某一类登录或者支付的业务出现了问题。这种情况下的话,通过参数配置指定业务,展示指定业务当前的整体性能状况,出现故障之后,可以直接马上定位到故障代码。



而更多时候企业最头疼的是,接到一个投诉,用户打电话说OA审批出现了问题。这种情况我们需要对单笔交易去进行快速的故障定位,对单笔交易进行配置,这样也可以直接定位到具体的代码,发现当前的问题根源在什么地方。



除了后端,我们也实现了前端App、浏览器端的性能管理。目前我们可以在App上抓到地域分布、手机机型、操作系统版本等运营数据,这些数据结合起来能够为企业市场部提供工作相关的指导,例如市场广告费用应该往哪里投放?日活、月活等数据可以告诉企业活跃用户分布在什么地方,市场费用应该投向哪个方向?在做App版本迭代的时候,更新的版本应该注意哪些性能的问题,不同机型适配性的问题?以上这些问题的答案都可以在我们的平台上一目了然的看到。



浏览器端的监控产品能够采集用户的IT数据和运营数据,这些数据的话能够帮助企业实时展示有多少人通过浏览端去访问业务,以及这些用户当前的性能状况。通过分析这些数据能够极大地改善用户体验,提高应用健壮性,从而提升企业的营收。



所有的监控大屏是基于HTML5开发的,客户可以直接在线自定义,编辑完之后可以放在自己的电脑上,也可以投在整个办公室的大屏上面进行实时的展现。在座各位,如果说看运维人员不足往往是少量的运维人员面对海量的设备的情况,这种情况下您可能需要一套监控的产品,帮助运维人员去把所有的设备全部管理起来。


03

用十个运维人员搞定一百个运维人员的工作量


举例来说,我们去年做的一个将近3000多万的项目,就是对全市所有的摄像头的监控。如果按照以往的方式,可能一百个人团队都搞不定这些运维的事,用上监控系统后只需要十个人就能搞定所有的事情。



其实对于很多企业的信息化部门来说,最大的工作量是巡检。我曾经经历过一个特别有意思的事情,有一次北京下暴雨,我花了两个小时开车去燕山见一个朋友。他是一个政府部门的主任,他那段时间真的是太惨了,手下两个人一个生病,另一个怀孕马上要生产了,只能自己管理所有的设备。他每天早上都得花半天的时间登录各个主机、各个服务器、各个数据库查看相关的状况,然后生成一个巡检报告提交给领导。后来我告诉他,不用这么麻烦,我们的解决方案可以自动生成报告,一键搞定。



希望未来我们的产品可以服务更多的企业,减轻企业领导和运维的工作量,让大家有多余的时间回家陪陪家人。谢谢。



查看第九届IT价值峰会暨中国企业级技术峰会的更多精彩报道,请扫描下方二维码,进入峰会合集回顾中!







中国最大的技术高管实名社区,提供互联网时代最全面权威、也最前沿有趣的B2B市场信息解读。

点击www.itvalue.com.cn,进入ITValue社区,与CIO们一起脑力激荡!


我们只提供有价值的干货!

长按二维码
关注ITValue


首页 - ITValue 的更多文章: