wepoker官网-引领华丽娱乐新潮流

走进wepoker官网 公司简介 企业文化 荣誉&认证 下属公司 联系我们 产业布局 音频事业部 电器事业部 智能事业部 电声事业部 智能锁事业部 资讯中心 公司新闻 媒体报导 行业洞察 wepoker官网登录入口 wepoker官网-引领华丽娱乐新潮流 加入我们 社会责任

CN / EN




行业洞察

2025-07-21
wepoker客服|结夜|破解大模型运维落地困局 GOPS大会博睿数据“AI+可

  近日✿ღ,第二十六届 GOPS 全球运维大会暨研运数智化技术峰会盛大举行✿ღ。博睿数据产品总监贺安辉在可观测性专场发表精彩演讲✿ღ,凭借深厚的技术底蕴和独到的行业见解✿ღ,荣获大会 金牌讲师 称号✿ღ。

  本次演讲以 “AI + 可观测加速智能运维转型升级” 为题✿ღ,围绕 AI 能力分层演进✿ღ、智能体技术爆发✿ღ、AI + 可观测性等前沿议题✿ღ,为行业勾勒出智能运维转型升级的清晰路径✿ღ。演讲不仅精准切中当前运维的核心痛点✿ღ,更前瞻性地展示了如何依托AI智能体驱动大模型深度理解复杂运维场景✿ღ,推动运维模式从被动响应走向主动洞察✿ღ,从人工决策迈向智能协作✿ღ。现场座无虚席✿ღ,演讲内容引发与会百余位行业专家的热烈探讨与深度共鸣✿ღ。

  2024年诺贝尔化学奖授予了David Baker✿ღ、Demis Hassabis和John M. Jumper✿ღ,将人工智能(AI)与计算化学相结合✿ღ,一年内预测出 2 亿个蛋白质结构✿ღ,而传统方法需几十年才能预测几万个wepoker客服✿ღ,这体现了 AI 在各领域的创新超乎想象✿ღ。如今✿ღ,AI 与娱乐✿ღ、医疗✿ღ、工业✿ღ、交通等行业的结合如火如荼✿ღ,但在可观测或运维领域相对小众✿ღ,仍有许多难题待解决✿ღ。

  其一✿ღ,运维数据体量呈指数级增长✿ღ,云原生技术引入使私有云✿ღ、混合云容器数量大幅增加✿ღ,但传统运营手段受历史限制✿ღ,难以观测老旧代码✿ღ,且无法轻易放弃✿ღ。

  其三结夜✿ღ,尽管监控覆盖看似完善✿ღ,但问题发现率✿ღ、根因定位时长✿ღ、解决问题效率并未同步提升✿ღ,受多因素制约✿ღ。

  一是采集困难✿ღ,数据有浪费✿ღ,采集准确性存疑✿ღ,缺乏规范化定义✿ღ,如指标定义不完整✿ღ、数据间缺失覆盖等✿ღ。

  二是数据治理难✿ღ,不同团队对同一业务系统采用不同手段✿ღ、术语✿ღ、标签✿ღ,标识不一致✿ღ,元数据随时间变化✿ღ,难以捕捉实时关系✿ღ。

  五是 AI 落地难✿ღ,传统方法需配备算法团队✿ღ,花大量时间训练✿ღ,且模型易失效✿ღ,应用场景搭建也面临团队诉求多难以满足的问题✿ღ。

  其实 AI 能力是分层的✿ღ,市场上不同玩家所处的层次各有差异✿ღ:在基础设施层✿ღ,包括云计算厂商✿ღ、数据中心建设方✿ღ,以及英伟达这样的算力巨头✿ღ,他们提供底层的算力支撑能力✿ღ。当前AI市场的发展可以分为三个层面来看✿ღ:

  目前这一层主要由少数巨头主导✿ღ。国内比如阿里云✿ღ、华为云✿ღ,它们能提供自研芯片和战略支持✿ღ;全球范围来看✿ღ,像英伟达✿ღ、英特尔这样的公司也容易形成垄断✿ღ。

  虽然现在大模型越来越多✿ღ,但真正有竞争力的并不多✿ღ。国内比如DeepSeek✿ღ、豆包✿ღ,国外像谷歌的Gemini等✿ღ,仍然是少数几家占据主导地位✿ღ。

  这一层是最难被垄断的✿ღ,因为每个垂直领域都会衍生出无数不同的解决方案✿ღ。比如智能体方向✿ღ、人形机器人✿ღ、智能驾驶等✿ღ,还有很多问题需要探索✿ღ。因此✿ღ,应用层才是未来AI真正发展的巨大空间和关键着力点✿ღ。

  最近半年✿ღ,智能体这个概念逐渐被行业接受✿ღ,但运维领域的从业者仍然会问✿ღ:智能体到底是什么?它真的能提升效率吗?

  在我们看来✿ღ,智能体是一种创新技术模式✿ღ,其改变运维逻辑的关键在于✿ღ:具备认知推理✿ღ、自主决策执行及强目标导向能力✿ღ,可高效理解运维环境并自主完成工作✿ღ。

  关于智能体与传统工具(如变更防御✿ღ、故障发现系统)的协作✿ღ,核心在于通讯协议✿ღ。当前协议体系尚处群雄逐鹿阶段✿ღ,我们正基于 MCP 协议开展探索 —— 其采用独立约定的开放式协议✿ღ,只需遵循统一规范即可实现跨系统通信✿ღ,且协议恒定可保障后续升级兼容性✿ღ,有效打通运维体系全量信号交互✿ღ。

  单个智能体的能力是有限的✿ღ。比如问它当前服务健康状况是好是坏这种简单问题✿ღ,它能回答✿ღ;但遇到复杂问题✿ღ,这种方式就不够用了✿ღ。

  第一阶段是明确的自动化工作人员✿ღ,不需要AI介入✿ღ。比如给它一段固定脚本✿ღ,它就能稳定执行✿ღ,日复一年准确率很高✿ღ。但这种方式非常固化——如果升级版本改了参数✿ღ,整个工作流就必须调整✿ღ。

  第二阶段是AI增强型智能体✿ღ。这时我们可以给它简单输入✿ღ,它能结合预训练知识和IT技术来获取信息✿ღ。不过这个阶段仍是一对一的简单交互模式✿ღ。

  现在博睿数据正在推进第三阶段✿ღ,通过工作流整合人的编排能力和智能体的自主决策能力wepoker客服✿ღ,使其能够处理复杂任务✿ღ。目前实践表明✿ღ,这种模式确实能有效解决更复杂的问题✿ღ。

  从架构上看✿ღ,这是一个典型的分层设计✿ღ。最底层是数据底座✿ღ,负责接入各类数据源✿ღ;中间层是PaaS平台能力✿ღ,包含外部连接✿ღ、数据治理✿ღ、智能化的数据抽象✿ღ,以及权限标签等应用能力封装✿ღ;最上层则可以衍生出无限的应用场景✿ღ。

  目前市场上已经能看到不少创新实践wepoker客服✿ღ。比如国外一些竞品实现了这样的功能✿ღ:当仪表盘曲线出现监测数据时✿ღ,系统能自动识别背后的数据维度和异常情况✿ღ,这些都是已经落地的应用案例✿ღ。

  今天我们主要聚焦于智能能力板块✿ღ,探讨 AI 与可观测体系的结合✿ღ,展开来讲便是这份 AI 能力详解大图✿ღ。

  首先看最下层✿ღ,是可观测的全域数据模型 ✿ღ。它能够对企业内各类可观信号✿ღ,诸如日志✿ღ、指标✿ღ、调用链✿ღ、事件✿ღ,以及对象关系等进行标准化处理✿ღ,构建广泛连接✿ღ。为何强调其关键地位?在 AI 领域有 “垃圾进✿ღ,垃圾出” 的说法 ✿ღ,若底层数据杂乱无章✿ღ,AI 应用效果必然欠佳✿ღ。例如企业中 IP 地址不规范✿ღ,主机名存在多种表述✿ღ,AI 将难以准确识别✿ღ。许多客户直接询问能否在不更换平台的情况下嫁接 AI 能力✿ღ,实际上✿ღ,若不先审视底层平台数据是否规范就强行嫁接✿ღ,效果必定不理想✿ღ。开展运维工作时✿ღ,切勿忽视底层数据平台✿ღ,若不在此投入精力✿ღ,仅聚焦上层应用✿ღ,如同表面开花✿ღ,会产生反噬作用✿ღ,底层建设不完善✿ღ,上层应用也难以良好运行✿ღ。

  构建好全域数据模型后✿ღ,向上还需依托 one service 层与统一查询语言 ✿ღ。不少企业在这一层面的建设也不完善✿ღ,查询日志✿ღ、指标时采用的语法各异✿ღ,导致返回数据依然杂乱✿ღ。故而✿ღ,博睿搭建统一查询语言✿ღ,与全域数据模型协同发力✿ღ。借助统一语法查询✿ღ,从数据源头进行规范✿ღ,流入 AI 引擎的将是高质量语料✿ღ,应用效果会更优✿ღ,这两层的作用至关重要✿ღ。

  继续向上✿ღ,便到了 AI 发挥关键作用的环节✿ღ。在国内✿ღ,人们习惯为硬件付费✿ღ,开展 AI 落地实践时✿ღ,往往先考虑配置硬件✿ღ,然而配置完成只是基础✿ღ,核心在于如何运用✿ღ、如何挖掘落地场景✿ღ。众多客户完成硬件配置后✿ღ,却不知如何推进落地✿ღ,以智能问答为例结夜✿ღ,多年前便已出现✿ღ,但尚未形成大规模落地场景✿ღ。

  从博睿数据的实践来看✿ღ,需拓展落地场景✿ღ,在图右侧构建诸多与 MCP 相关的能力✿ღ,实现大模型与运维的高效互通✿ღ。这一过程的关键桥梁便是 MCP✿ღ,其提供的能力分为不同层级✿ღ:基础类用于查询指标✿ღ、日志✿ღ、事件等✿ღ,以了解主机✿ღ、容器数量及指标情况✿ღ;中级类包含告警屏蔽✿ღ、收敛通知等动作✿ღ,例如智能体发现持续一周的重复告警✿ღ,可调用 MCP 能力执行屏蔽操作✿ღ,期间涉及智能体间的协作✿ღ;高级类涵盖横向拓扑✿ღ、链路分析✿ღ、自动标签化等功能✿ღ,助力大模型发挥价值✿ღ。

  再往上延伸便是应用场景✿ღ,当前重点发力于智能问答✿ღ、根因分析智能体✿ღ,后续将逐步推进建设✿ღ。这些智能体覆盖业务领域各环节✿ღ,如应急值守✿ღ、自愈恢复✿ღ、决策指挥等✿ღ,若能通过这些智能体闭环完成任务wepoker客服✿ღ,便可达成运营人员 “无人值守式运维” 的终极目标✿ღ,即工作人员只需在工作时专注自身事务✿ღ,待出现问题时由智能体告知✿ღ,无需时刻关注运维流程 ✿ღ。

  接下来看落地效果✿ღ,第一个场景是根因分析的实验结夜✿ღ。在根因分析的实践中✿ღ,过往已有多年积累 ✿ღ, 比如依靠实践经验建立台账✿ღ,各团队协作组建应急作战室等✿ღ。但这里存在一个核心问题✿ღ:信息过载✿ღ。

  在座各位应该都参与过一线应急处置✿ღ,那种场景下争分夺秒✿ღ,涌入的信息远超人脑处理能力✿ღ。网络团队说 “某个环节可能有问题✿ღ,但不确定”✿ღ,应用团队称 “昨晚做了版本变更✿ღ,但应该不影响今天故障”✿ღ,另一个团队又说 “容器运行正常”…… 信息里既有异常✿ღ、也有正常✿ღ,掺杂大量干扰信号✿ღ。靠人工定位✿ღ,必然陷入信息过载的困境✿ღ。那该如何解决?

  前面提过✿ღ,底层数据的规范性对效果影响极大✿ღ,而没有企业能下定决心✿ღ、耗时耗力完成全量数据治理✿ღ,过程中必然存在数据局部规范wepoker客服✿ღ、局部仍在整改的情况wepoker客服✿ღ,这就让第三阶段的实现充满挑战✿ღ。

  第一阶段相对容易看到效果✿ღ,博睿数据打造了基于 IT 的智能问答智能体✿ღ。只需向它输入大量知识库内容✿ღ,它就能结合上下文✿ღ,精准给出答案✿ღ。比如询问 “最近某服务的某指标异常✿ღ,原因是什么?” 它可实时排查✿ღ;再追问 “数据库执行计划是什么样的?” 也能展开系列分析 —— 这是典型的 点对点✿ღ、一对一的明确问答模式✿ღ。

  首先是快而准的机制✿ღ。大家对 “流程” 并不陌生✿ღ,它类似决策树✿ღ,但又不完全是 —— 因为流程中嵌入了 大模型推理节点✿ღ,能自主判断下一步动作✿ღ。若把所有动作(比如 API 调用✿ღ、命令执行)预先编排进流程✿ღ,触发根因分析后✿ღ,3~5 秒就能快速执行排查逻辑(比如点击 “触发根因分析” 按钮✿ღ,流程瞬间启动)✿ღ。这种方式沿着固定专家经验推进✿ღ,执行明确✿ღ、速度快✿ღ,落地效果不错✿ღ。

  其次是自主决策型✿ღ,灵活性更强✿ღ,稍慢但更智能✿ღ,这类模式无需预先编排节点✿ღ,只需输入简单指令✿ღ,比如 刚出现错误异常✿ღ,该查什么?智能体就能自主决策✿ღ,大量调用 MCP 能力✿ღ,规划 第一轮查什么✿ღ、第二轮查什么✿ღ,全程自主推进✿ღ。

  我们在内部做过验证✿ღ:用混沌工程注入接口性能异常(通过类似 K6的工具模拟)✿ღ,仅给智能体简单输入✿ღ,如“服务响应缓慢✿ღ,属错误类异常”✿ღ,第一轮排查后✿ღ,发现交易链中 “PS 类指标有三层异常”✿ღ,怀疑是测试环境故障注入✿ღ,但为了严谨✿ღ,又自我校验✿ღ:查上下游日志(均正常)✿ღ、查数据库执行耗时(稳定在 50 毫秒左右)✿ღ,最终判定 “混沌工程注入的可能性最大”✿ღ。

  整个过程✿ღ,智能体像人一样 反复自我校验(比如换角度提问✿ღ、交叉验证)结夜✿ღ,虽然耗时较长✿ღ,但无需人工编排流程✿ღ。这种模式 利弊分明✿ღ:慢✿ღ,但灵活✿ღ;快而准的模式则相反 —— 执行快但依赖预设经验✿ღ。

  目前博睿数据整在对比两种模式的优劣wepoker客服✿ღ,而智能体排查结束后✿ღ,还会输出趋势图✿ღ、分布图等解释性图表✿ღ,辅助我们校验结果是否准确✿ღ。

  传统运维工具需要大量手工配置——配告警规则✿ღ、搭仪表盘✿ღ、处理日常重复工作✿ღ。以前或许能用脚本解决✿ღ,但写脚本本身就有调试成本✿ღ。现在通过大模型能加速这个过程✿ღ:我们把可观测的语法体系(如BQL/PromQL)预训练给模型后✿ღ,直接用自然语言指挥它✿ღ:比如 “帮我配一个仪表盘”“配个告警规则”“生成一份运维报告”✿ღ,它就会自动调用API或执行BQL查询完成任务✿ღ。

  这种模式下✿ღ,为每一步实践都带来可见的提效✿ღ,模型生成的配置规则完全无需人工干预✿ღ,真正为运维人员减负✿ღ。

  还有一个重点是解决被动运维的缺失✿ღ。传统运维中✿ღ,往往在故障产生显著影响后才察觉 —— 例如上周进行的变更✿ღ,因选择在业务低峰期(如周末夜间)实施✿ღ,当时流量未达峰值而未暴露问题✿ღ,但一旦进入业务高峰期✿ღ,故障便会引发较大影响✿ღ,形成被动应对的局面✿ღ。

  因此✿ღ,我们尝试借助大模型构建主动防御体系✿ღ,通过联动机制提前识别风险✿ღ,让运维人员能预先采取规避措施✿ღ。具体而言✿ღ,可生成异常风险报告✿ღ,通过趋势分析定位潜在问题并推导初步成因✿ღ;同时自动生成报告✿ღ,为风险研判与响应提供数据支撑✿ღ,助力运维从 “事后处置” 转向 “事前防控”✿ღ。

  最后一个重点是私有大模型服务的短板✿ღ。正如前面提到的✿ღ,企业拥抱大模型时✿ღ,第一步往往是自建大模型服务✿ღ,但过程中常遇棘手问题✿ღ:比如用户提问后✿ღ,模型响应延时极高✿ღ,输出时 “一个字一个字卡顿✿ღ,动了一半就停”✿ღ,甚至问题直接被截断 ✿ღ,这种体验非常糟糕✿ღ。

  如何定位背后原因?我们希望通过大模型可观测性体系✿ღ,为私有大模型服务建立更深入的洞察✿ღ。具体从两个维度切入✿ღ:

  宏观观测✿ღ:关注服务整体运行状态✿ღ,例如吞吐量✿ღ、响应时间✿ღ、输出结果数量✿ღ、耗时异常情况及趋势变化等✿ღ,通过大屏可视化形成全局认知✿ღ。若宏观指标无异常✿ღ,说明服务整体运行稳定✿ღ。

  微观追踪✿ღ:针对具体用户投诉wepoker客服✿ღ,如 “领导早上提问未响应” 这类个体使用问题✿ღ,通过 端到端调用链监控✿ღ,还原每一次交互的全流程细节 —— 包括大模型内部各环节的执行耗时✿ღ、报错位置等✿ღ。即便无法定位到具体代码异常✿ღ,也能通过调用链详情✿ღ,直观掌握交互过程中的卡点✿ღ,快速启动应急处理结夜✿ღ。

  通过宏观与微观结合的观测体系✿ღ,我们既能把控大模型服务的整体健康度✿ღ,也能精准响应个体使用中的异常✿ღ,为私有大模型的稳定运行提供支撑✿ღ。

  以上是我从四个方面介绍了博睿数据在AI+可观测加速智能运维升级转型的近期探索✿ღ,总结来看✿ღ,通过Bonree ONE✿ღ,我们利用自动化配置仪表盘与告警提升运维效率✿ღ;借助工作流编排与自主决策分析 缩短故障定位时间✿ღ;通过主动风险预判机制 提前识别潜在隐患✿ღ。这些实践证明✿ღ,AI 在可观测与智能运维领域的应用虽处于起步阶段✿ღ,但已展现出显著成效✿ღ。

  简而言之✿ღ,Bonree ONE 正让大模型深度融入运维场景✿ღ,传统的运维工作模式结夜✿ღ,能在新的工作模式下通过智能体高效运转✿ღ,真正实现 “大模型更懂运维” 的价值闭环✿ღ。微扑克官方网站✿ღ!wepoker官网登录✿ღ,微扑克WePoker官方✿ღ。