华为女福尔摩斯:从几微米的犯罪现场中找线索



编辑 | 朱  叶
来源 | 心声社区、蓝血研究(lanxueyanjiu)
投稿 | lanxueziben(微信)
顾问招聘 | lanxueziben(微信)

2009年,泰晤士河旁,学院钟声传入耳畔。作为一名无线通信专业的研究生,我踏上了英伦的土地,充满了对技术的期待与憧憬。毕业后,我选择将自己的理想和未来发展投入华为这片更为广阔的技术海洋。
从一名充满好奇的懵懂学生到驰骋职场的一员,13年内我亲历了文化的交融、技术的飞跃,见证并参与了华为在英国从边缘市场到主流市场的演变,见证了我们的技术与解决方案在全球范围内产生的影响。其间经历的挑战与收获的成果,已成为我心中最宝贵的财富。这是一段跨文化、跨时代的独特时光,更是记忆中融合英伦风情和华为情怀最美好的岁月。
01
与华为的初次邂逅
2010年,一个阳光明媚的秋日上午,我与几位校友参加了华为英国分公司的面试。记忆中,具体细节或许已变得模糊,但我依然清晰地记得起我们在一间宽敞的会议室里共同经历了一场激烈的头脑风暴。面试结束,当我从那扇门走出来的时候,我感觉身心俱疲。但这种疲惫背后,更多是对华为严谨招聘标准的敬畏。
事实上,这仅仅是挑战的开始。在紧接着的专业面试中,华为英国AMS(保障和管理服务)的主管亲自坐镇。面对我在无线通信领域的专业背景,他冷静地指出了华为在英国的业务重心实际上偏向固网和核心网,我的专业似乎并未给我带来竞争优势。我坦然地接受自己在这方面的短板。然而,令我感到意外的是,他拿给我一份固网基础的资料,并给我一小段时间,让我学习后总结出来。那一刹那,我明白了华为的招聘哲学:不是寻找已经完成的完美拼图,而是寻找能够适应并完成这幅拼图的活力碎片。这样的选拔眼光和对人才的独到洞察,让我对华为倍增尊重。最终,我荣幸地成为了华为的一员,迫不及待地开始了我在接入技术领域的崭新征程。
02
第一次崩溃
当我初次涉足客户支持服务领域时,我的主管用一幅生动的画面为我展现了这一职业的深度与魅力:“视客户支持业务如静水流深,表面之下藏着不为人知的深沉与智慧。理解其深层的客观规律,我们可以在看似平静的表层下,妥善引领每一缕潜流,悄无声息中推进向目标。” 他还补充道:“我们的工作不是轰轰烈烈的战斗,而是默默无闻的奉献。正是这份坚持确保了客户网络的稳定、提升了客户的满意度,从而默默拓展和巩固了公司的基业。这便是集腋成裘,聚沙成塔的力量。”这些言语,在之后我面临挑战时,多次激励我要坚持初心。
华为的团队精神并非仅存于理论,而是穿插在每个项目和每次沟通中的真实实践。经过严密的员工培训后,我首次对接的客户是T客户(英国第二大xDSL[x数字用户线]宽带运营商)。他们的接入网络体量庞大,由5套HA U2000双机网管管理着12000余台设备。由于版本的不断迭代,我和另外两位同事需要每隔一周驻守客户办公室,提供7×24小时的现网运行支持。然而,如何应对客户的质疑与技术的挑战,仍然是我要修炼的一门必修课。
有一次,一位非常苛刻的客户对我的能力提出了质疑,不断挑战我的技术水平。在我和研发部门沟通并给出解决方案后,客户依然对我持怀疑态度,不仅多次反复确认一些非关键性问题,甚至在电话中对直白地我表达了对我不信任。面对这样接连的打击,我的情绪一时难以抑制,第一次感受到了崩溃。
我的主管知道了这件事后,在核实了我的技术方案与沟通细节无误后,罕见地向客户的主管发送了一封投诉邮件,要求其尊重华为的工程师并向我道歉。同事们也纷纷站出来给我提供声援与安慰。那一刻,我深感团队给予的不仅仅是工作上的支持,更是在精神上的依靠与保护。这便是我在华为所体验到的那股强大的团队战斗力,不仅在工作中凝聚着每个成员的力量,在每个成员需要的时候,也会提供最坚实的支持。

团队合影(右一为作者)
03
小微米引发的大事故
作为一名“永远在线”的维护人,随时随地对客户的响应就是我们对“以客户为中心”最实际的承诺。一年接近两万英里的出差里程数,我的足迹遍布整个英国。很多时候,尽管我们可以委托合作方进行现场服务,但出于对快速问题定位的执着与对维护客户利益的不懈追求,我常常亲自去现场站点,保障信息收集的精准和高效。与此同时,我也能够与中高层客户、内部团队以及第三方供应商、本地分包商等建立良好的沟通渠道和机制。
在一次全网大版本升级中,我们遭遇了前所未有的挑战。升级初期,非常罕见地出现了大量的故障单板,然而“坏件”返回后却显示功能正常,找不到任何硬件和软件故障。起初,大家还认为是个别器件的零星软失效问题,但是随着升级,每晚都会出现大量的坏板,存在严重影响业务的风险。客户开始察觉到异常,事件快速发酵,很快上升到客户CTO层级,本来时间紧迫的升级也被叫停。客户高层非常重视此事,要求华为每天每隔两小时开会过进展。我们组织了专项公关组,由我牵头,负责与研发对接,并向一线客户及时汇报进展。
在排除了一系列软硬件bug后,我们随即开始了令人窒息的问题寻踪之旅。既然宏观领域走不通,定位方向开始转向微观领域。英国和国内的实验室分别申请、采购了多个数码显微镜和电子显微镜,对坏件逐个区域进行扫描。在经历了无数个不眠之夜的上站复现,经历了无数次的信息收集和比对,这个隐藏得很深的“罪魁祸首”终于被“捕捉”到了!之所以说是“捕捉”,是因为造成故障的根因竟然是一个直径只有几微米、肉眼不可见、只能用电子显微镜观察到的“锌晶须”。

高倍显微镜下的“锌晶须”
锌晶须来源于机房中常用的镀锌产品。无需任何外部刺激,锌晶须会从经过防腐蚀镀锌处理的金属表面生长出来,被称为“自发性生长”。锌晶须极其微小,能随机生长并具备导电性。对于微电路而言,它们却已“大”到足以引发包括短路、电压变化和其他信号干扰等问题。一般情况下,锌晶须的生长是无法避免的,并于两年左右到达最大值,之后可以在涂层表面维持稳定状态直到外力影响后断裂掉落。掉落后的锌晶须并不会对设备产生过多影响,但是如果晶须掉落的位置恰巧在容易导电或短路的管脚部位,就有可能触发系列问题,严重时很可能会发生设备故障和系统重置。更“狡猾”的是,由锌晶须引起的短路会使晶须被电流蒸发,或者在抽拉板卡后被移位,这些都给我们的故障分析增加了不少难度。
经过我们的分析,由于该项目中产品的单板和风扇位置关系特殊,导致锌晶须生长出来后,恰巧被高速运转的风扇吹到了业务板芯片的管脚附近,造成芯片短路从而导致业务单板复位失败。另外,返回的坏件经过长途运输的颠簸,很多锌晶须都从短路的位置掉落,才导致研发实验室无法复现问题。第一时间得知问题根因后,我并没有如释重负,因为背后隐藏的问题显然已经超出了接入网的范畴,我感受到了沉重的无力感。
不过,“众人拾柴火焰高”,在大家的努力下,我们找到了破局的方向。我们联合2012实验室的材料科学专家、清华大学化学工程博士团队、英国本地的锌晶须研究专家以及第三方电镀工艺专家,一同与客户侧的专家展开了长达8个月的深入合作,其间经历了一系列繁琐且复杂的过程:研究历史文献、考察现场站点、断裂应力测试、电镀工艺排查,积尘和风道模拟……为了排除客户对华为产品本身质量的质疑,每一个环节我们都进行了全方位、深入的分析。最终,我们与客户达成了临时快速解决方案和长期解决方案协议并且获得了CTO的肯定。
“用魔法打败魔法”,我们利用机柜内原本的风扇,在设备复位前提前增大风速,将可能会掉落的锌晶须提前吹落,同时在站点巡检时重点展开锌晶须的深度清洁,此临时方案的优势是可以立刻投入使用并最大程度降低风险。面向后续的长期方案,我们持续优化工艺和产品设计,计划通过风道来“引导”锌晶须掉落到安全位置。
一个问题定位背后的投入,无疑是对客户网络质量的至上承诺。我们并不希望仅仅用一个临时的规避方案来应付客户,长期解决方案更是应真正站在客户的立场,从根本上消除未来网络运行中的任何风险和隐患。我深感,这正是华为核心价值观的深刻体现。

团队与锌晶须斗智斗勇(左三为作者)
04
从“看病”到“防病”
在科技日新月异发展之中,拥抱变革、不断学习和适应市场的波动不仅是生存之道,更是推动企业不断向前的源动力。2016年,接入网B客户的高层领导给我们出了一道难题:希望华为帮助其降低固定网络故障率,提升网络质量满意度。
“提升网络质量满意度”这个需求,不同于其他的日常问题定位。日常定位像“看病”,哪里出了问题,我们就去找问题、去解决问题,实现药到病除;现在,为保障客户网络更稳定,我们要面对隐藏的问题,需要提前“防病”,预测问题会出现在哪里,并提前介入阻隔问题。这是对我们既往工作模式的一种颠覆,而大数据的出现让其有了一丝破局的可能。
过去两年多,华为在故障预测预防领域曾做过一些尝试,但都没有取得较满意的结果。当我接手这个项目时,相当于踩着前人的肩膀、捡了一个“便宜”:我已经知道,常规的定位手段都不管用,我必须另辟蹊径!仔细分析后,我发现做好问题预测的核心在于:需要具备足够多的有效数据和可靠的规律。有了这两个基础,通过复杂的算法进行数据训练和预测也有了可能。
正好那段时间大数据技术盛行,我买了几本这方面的书来学习,然后又碰上B客户的CEO在采访中提到他对大数据和人工智能技术很期待。我隐约感觉,这是“天时地利人和”的思路,可以朝着这个方向试试,成不成再说!况且,当时我也没有什么其他的好方法。于是,我咨询了公司内的专家,发现2012实验室正在筹备这方面的能力,还有一个专门的稳健网络团队可以提供支持。
在与团队的紧密合作下,我们利用数据分析和专家的经验,构建了一套预测故障模型。我们引入了SWHC(滑动窗的分类算法)和STD(业务稳定度算法)等先进算法,能更准确地预测并解决潜在的问题。此外,我们的大数据平台是基于开源框架ELK(一种开源日志分析监控平台)构建的,与预测部分是分开的,因此可以直接接入NetCare(网络保障业务的综合交付作业平台)的数据底座,最大限度地采集有效数据。我们将重心放在“主动预防”和“智能诊断”上,通过大数据技术尽可能地在用户察觉之前解决问题,确保客户网络的稳定性和客户的良好体验。经测试,客户对我们的方案表示高度认可,也进一步加深了对我们的信任。
依托该项目,我们完成“接入网稳健网络方案”的孵化,并引入大数据技术完成报障预测场景的设计及验证,开发的方案原型工具为后续方案产品化及商业成功奠定了坚实的基础。“稳健网络方案”依托存量深耕项目,逐步发展为CS(客户支持)主动服务品品牌,也是业界第一个真正尝试在电信网络中做故障预测和预防的服务解决方案,承担了“大数据+AI”在维护领域尝试落地应用的重担,我们也实现了“能力构筑从0到1”和“销售拓展从1到N”的双重突破。

项目团队合照(左上方第一位为作者)
05
与华为同行的十三年
在华为的职业旅程不仅塑造了我深厚的专业素养,也见证了我与团队一起达成的显著成就。在我的职业生涯中,我曾获得网络保障团队之星、西欧杰出个人奖、GTS年度总裁奖、NCE总裁奖、优秀个人、明日之星等荣誉,这些都见证了我的专业技能和对组织的贡献。我特别珍惜2017年获得的“金牌个人”荣誉,这是团队对于我在专业领域内持续发展和对创新不懈追求的认可。
十三年的职业生涯,不短也不长,在这漫不经心的十三年中,我经历了从技术实施到项目管理,再到团队领导的多方位发展。这个时间跨度,既不短暂到忽略过去的经验和学习,也不长到满足现状、停滞不前。在我看来,这十三年是一段承前启后的重要时期,其中包含了无数的挑战、学习和转变,它们构建了我今天的职业形象和技能树。透过这段时间的探索和成长,我意识到,真正的成功并非来自于荣誉和成就,而是来自于我们为此所做的努力和过程中的成长。
我始终信奉的一句话:“旅程本身,就是奖赏。”这也是我在职业生涯中始终保持学习和进步的动力来源。回忆起过往的十三年,我不能忘记那些点滴:参与客户项目各类维护、增值服务、解决方案交付、售前支持等,即便面临客户的质疑和技术上的种种困难,我坚定地引领团队向前,最终不仅为客户提供了高效的解决方案,也赢得了客户的信任和认可。在我职业生涯中的一些交汇点上,与客户的互动成为了无形的鞭策与鼓舞。例如,在一些关键时刻,当系统部的领导询及客户运维团队关于维护管理的情况,或是否有需要特别关注的问题时,客户运维总监往往会平静而确信地回应:“一切稳定,Korina(作者的英文名)已经管好了!”“有Korina在,即便有问题,我们都可以处理!”虽然,这些话或许只是客户不经意间的“场面话”,但对我来说,也默默体现了一种信任和肯定,成了我继续前行的动力之一。
与此同时,我们的团队也屡次受到表彰,例如“金牌团队奖”和“西欧最佳维护团队奖”等,这些奖项不仅肯定了我们作为一个团队的卓越表现,也反映了我们在业务运营、客户服务和技术创新等多个方面的全面能力。在多个项目中,我深知无论个人有多么出色的能力,一个人的力量始终有限。真正推动项目成功的,是整个团队的通力协作和每个成员的努力。因此,我始终注重团队建设和精神,强调每个成员的价值,发挥他们的优势,并鼓励他们在项目中发声、发挥影响力。
在英国这片古老而充满魅力的土地上,我们的团队在历史悠久的城市街道中编织着现代化的科技故事。英伦的文化底蕴为我们的团队提供了一个独特的工作背景,古老的哥特式建筑与我们创新的科技项目形成了一种时空交错的奇妙感觉。我们的团队,正是在这种古与今、传统与创新的交织中,汲取着源源不断的灵感与动力,不断推动着我们向前,并在科技的道路上书写着属于我们自己的故事。

团队合影(前排右四为作者)
▼▼▼
蓝血研究院公开课
课程内容 课  时 开课形式  时间
《华为干部培养与训战结合赋能方法》
2天1夜 线下 12/22-23
《企业大学:仗怎么打,兵就怎么练》 1天
线上
待定
《华为经营计划与预算预测》
1天 线上 12/2
《客户洞察与竞争情报》 2天1夜 线下 11/17-18
《战略解码工作坊》 2天1夜 线下 待定
《从战略到执行-从市场机会到经营构建》 2天1夜 线下 待定
《经营分析会,战略落地的有效手段》 2天1夜 线下 待定
《经营型组织诊断》 1天
线上 待定
《营销战术与大客户关系》 2天1夜 线下 待定
《驱动经营实现价值倍增的利润中心建设》 1天 线上 待定
《华为财经变革及数字化转型》 2天1夜 线下 待定
《标杆企业营销业绩倍增实战兵法》 3天2夜 线下 待定
《打造立体型激励体系》 2天1晚 线下 待定
《人才盘点与任职资格》 1天 线上 待定
《一线呼唤炮火的项目管理实践》 2天 线下 待定
《华为内控体系建设实践》 1天 线上 12/9

格格老师:18603075818(微信同号)
到顶部