服务器 频道
  • PUE已成过去式,CUE才是未来标杆?

    当整个行业还在为PUE值降到1.2而沾沾自喜时,一个更加严苛的评估体系正在悄然兴起——CUE。这让我想起前不久参加的一个行业研讨会,几位来自头部云服务商的架构师都不约而同地提到了同一个观点:单纯追求PUE优化已经进入瓶颈期,真正的绿色数据中心必须从碳排放的全生命周期角度来重新审视。

    陶然 · 2026-03-09 14:55
  • 基于Spark的配置化离线反作弊系统

    本文介绍了基于spark 的离线反作弊挖掘框架,围绕解决的基本问题、工程设计亮点等展开。通过特征计算和配置化管理,提升了反作弊系统的检测效率和稳定性。展望未来,离线反作弊挖掘框架将持续演进,与更多智能算法、大模型和业务系统深度融合,不断完善检测能力和可用性。

    陶然 · 2026-03-09 10:46
  • 快手广告商品智能理解系统详解

    为什么有些短视频广告总能“刚好”出现?你刚搜完露营装备,立刻刷到户外电源广告——这并非巧合,也不只是简单的关键词匹配。在你看到广告之前,一套高度复杂的AI系统早已在幕后运转。它不再盲目推送素材,而是深入理解商品本身。今天,我们就拆解快手广告商品智能理解系统,看看那些“懂你”的广告,是如何炼成的。

    陶然 · 2026-03-05 13:41
  • 得物社区搜推公式融合调参框架实战

    近年来,搜索/推荐/广告系统在粗排与精排阶段的模型训练中,呈现出一个明确的趋势:从单目标优化转向多目标建模 + 多目标融合。模型目标多、融合公式复杂,给工程维护、算法迭代效率都带来了挑战。为了明文化直白展示公式全景、方便决策调参方向,直接配公式、线上自动算(既支持精排预估目标融合、也支持业务条件boost)。

    陶然 · 2026-03-05 10:00
  • 日均千亿PV日志系统架构升级之路

    面对百度APP日均数千亿PV、超百PB数据规模带来的巨大挑战,我们完成了数据仓库的系统性升级。本文详细阐述了通过"两步走"策略解决资源压力、处理延迟和架构瓶颈的全过程:第一阶段聚焦日志清洗环节的稳定性与成本优化,第二阶段实现实时离线链路解耦、核心数据隔离及计算框架容错能力提升。

    陶然 · 2026-03-04 09:47
  • 浸没式液冷模块化设计:让部署不再是"噩梦"

    技术的发展总是螺旋式上升的,当我们以为风冷已经足够应对数据中心散热需求时,AI浪潮的汹涌澎湃彻底打破了这个平衡。据IDC最新报告显示,到2025年,单机柜功率密度将普遍超过30kW,部分AI训练集群甚至达到100kW以上。传统风冷系统在这种功率密度下,不仅能耗惊人,更面临着物理极限的挑战。

    陶然 · 2026-03-03 09:17
  • 全球化数据中心网络设计:三层架构破解跨洲延迟难题

    全球化数据中心网络设计是个复杂的系统工程,需要综合考虑技术、成本、合规等多个因素。随着5G、边缘计算等新技术的发展,网络架构还会持续演进。关键是要建立灵活可扩展的架构基础,为未来的业务发展留出足够的空间。

    陶然 · 2026-03-03 08:55
  • 第四届北京人工智能产业创新发展大会成功举办

    以“融合 效能 安全——让AI‘+’出新活力”为主题的第四届北京人工智能产业创新发展大会在国家会议中心二期举办。本届大会由北京市科学技术委员会、中关村科技园区管理委员会,北京市经济和信息化局,北京市广播电视局,北京市政务服务和数据管理局,北京市门头沟区人民政府,华为技术有限公司联合主办。

    陶然 · 2026-03-01 19:40
  • ABACI内核缺陷智能体:让模糊测试真正“自动化”

    传统的测试手段,如单元测试、静态分析和人工代码审查,面对Linux内核这样千万行级别的庞大代码库时显得力不从心。尤其是在新内核版本频繁迭代的背景下,它们要么覆盖率不足,难以触及深层路径;要么误报率高,消耗大量人力进行验证。如何在短时间内高效、系统地发现和处理缺陷,成为内核研发团队面临的核心挑战。

    陶然 · 2026-02-27 13:53
  • Agent vs 传统编程 vs Workflow 的本质区别

    本系列文章基于 Lynxe 作者沈询的实战经验,深入浅出解析 ReAct Agent 的核心原理与工程价值,帮助开发者快速掌握从“写流程”到“造智能体”的关键跃迁。

    陶然 · 2026-02-25 10:15
  • Netflix的CPU架构瓶颈排查与修复实践

    想象一下——周五晚上,你点击 Netflix 的播放按钮,后台数百个容器在几秒钟内迅速响应你的请求。对 Netflix 而言,高效扩展容器对于为全球数百万会员提供流畅的流媒体体验至关重要。为了应对如此庞大的规模,我们对容器运行时进行了现代化改造,却意外地遇到了一个瓶颈:CPU架构。

    陶然 · 2026-02-25 09:41
  • AI推理:如何实现吞吐翻倍、时延降90%%与GPU资源节省26%%?

    当前随着大模型技术快速演进与业务场景的深度融合,AI业务对推理基础设施的需求呈现爆发式增长。在早期小流量场景下,手动部署与定制化方案尚可应对;然而当模型规模、并发请求与业务复杂度攀升至新高度时,传统推理系统在以下四个主要方面逐渐暴露出瓶颈。

    陶然 · 2026-02-24 10:06
  • 顺丰基于自研的算力资源管理与调度实践

    使用原生GPU时,第一步需要在节点上安装GPU驱动。第二步安装nvidia-docker2,设置docker default runtime为nvidia。如此一来,docker后续可以将GPU挂载到容器环境中。第三步安装nvidia-device-plugin,它的作用是将设备上报给K8s集群,后续K8s则可以调度该节点的GPU。

    陶然 · 2026-02-11 13:51
  • 大算力+大模型,光合组织启动联合攻关

    今天,“国产万卡算力赋能大模型发展研讨会暨联合攻关启动仪式”在郑州举行。光合组织集结国内头部大模型厂商与算力基础设施提供商等百家核心生态伙伴及顶尖专家学者,深入洞读国产“万卡大算力”与“万亿大模型”协同发展路径,并正式启动联合攻关行动。

    陶然 · 2026-02-10 20:46
  • 服务拆分之旅:测试过程全揭秘|得物技术

    随着出价业务最近几年来的快速发展,出价服务承接的流量虽然都是围绕卖家出价,但是已远远超过卖家出价功能范围。业务的快速迭代而频繁变更给出价核心链路高可用、高性能都带来了巨大的风险。

    陶然 · 2026-02-05 09:54
  • 大模型网关:大模型时代的智能交通枢纽

    在人工智能技术快速演进的时代,大型语言模型和AI智能体已成为各类应用的核心组件,引发AI相关API流量的指数级增长。而大模型网关,正是这场变革中应运而生的智能交通枢纽。随着DeepSeek、Qwen等开源模型及各类商用大模型的普及,企业AI应用场景日益丰富,从智能客服自动化到代码生成与软件开发。

    陶然 · 2026-02-03 09:35
  • 得物离线数仓发布流水线质量门禁实践

    随着企业数字化转型加速推进,大数据业务规模呈现指数级增长,迭代变更越发频繁。此背景下,呈现"高频变更"与"超大规模"并存的特征,这种双重特性给大数据任务的发布变更带来了严峻挑战。

    陶然 · 2026-02-02 10:16
  • 提效200%%!星巴克日志平台的架构升级之路

    2024年9月开始计划,在不改变用户查询和提升用户体验的前提下,到2025年6月完成所有日志平台组件架构升级和版本迁移。在这中间的过程中,经历了mapping不兼容、字段类型冲突、查询上下文失效、重复消费误告警等诸多业内普遍存在的难题,最终实现了单机查询性能提升80%%,整体cpu下降30%%,写入tps提升 200%%。

    陶然 · 2026-01-27 09:25
  • RTP-LLM在相关性大模型中的推理优化实践

    在淘宝搜索场景下,用户Query与候选商品(Item)之间的相关性判别是非常重要的一环,它筛选出该Query下最相关的商品, 是用户体验的基石。过去几年主搜在相关性场景上已经做了不少工作,并且取得了显著的正向收益,今年,为了进一步解决部分口语化Query承接效果较差的问题,这给我们的系统性能提出了巨大挑战。

    陶然 · 2026-01-26 10:02
  • APMPlus 尾采样技术的降本增效实践

    在现代软件工程架构实践中,工程师普遍面临一个挑战:如何在海量的请求中精确捕捉异常链路,同时避免数据成本的快速增长。本文将探讨分布式链路追踪(Distributed Tracing)中的采样(Sampling)技术,并介绍火山引擎 APMPlus 团队在尾采样(Tail-based Sampling)方面的技术实践,以期为解决上述挑战提供一种思路。

    陶然 · 2026-01-22 16:40