服务器 频道
  • 麦当劳中国指标中台实践:百万级日调用量的全场景统一指标服务

    各位老师好,今天很高兴能与大家分享麦当劳中国在指标中台建设方面的经验。过去一年,我们与 Aloudata 合作,成功在餐饮行业落地了指标中台,并将其应用于多个实际业务场景。希望通过今天的交流,能为大家带来一些启发。

    陶然 · 2025-04-01 13:58
  • 凌晨突发的数据库重大故障,我排查了一整天

    春节期间过得太热闹了,上班确实没啥状态,这不刚发生的一个重大性能故障,排查了整整一天,后面的领导都站成了一排,本次把故障发生的详细分析过程分享给大家!本次故障发生在凌晨,核心应用卡顿非常严重,Oracle数据库直接夯住了,出现异常等待事件gc buffer busy acquire,以及部分索引和行锁争用。

    陶然 · 2025-03-31 17:15
  • 前端怎么做好稳定性保障体系建设?

    业务间的监控策略层次不齐:前后端针对监控专项的标准规范缺失,导致有的业务监控完善,其他业务缺复用不了。集团前端监控平台能力不完善,导致告警噪音大,一线研发无法通过自行思考抽丝剥茧,做有效合理监控,久而久之,监控告警熟视无睹

    陶然 · 2025-03-31 10:31
  • 再不左移转型,运维就真的要被淘汰了

    为应对证券行业数字化转型、重要系统架构升级、云原生技术发展、信息技术创新,以及行业重大故障频发等多重复杂因素的影响,广发证券愈发重视系统稳定性和可靠性建设。接下来我们将围绕系统稳定性保障工作,针对软件生命周期在上线前的运维左移工作,总结工作思路与实施策略。

    陶然 · 2025-03-31 09:37
  • DeepSeek落地运维领域,说几个实际工作中的应用场景

    DeepSeek在运维领域的落地,不是搞一堆“高大上”的AI概念,而是直接解决工程师每天骂娘的痛点。 说几个实际到肉的应用场景:

    陶然 · 2025-03-28 15:16
  • 架构性能跃迁,iLogTail超大规模日志采集实践

    过去滴滴内部基于自研的日志采集 Agent,构建了覆盖全链路的实时日志采集体系。依托分布式架构设计,每日稳定处理数 PB 级超大规模日志数据,实现对集团内部业务应用的高并发、低延迟日志采集支持,为全公司业务监控、故障诊断、数据分析等场景提供了可靠的底层数据基础设施。

    陶然 · 2025-03-28 09:58
  • 实时数仓2.0:更低的成本获取更及时的数据

    在爱奇艺的泛娱乐生态矩阵中,数据是驱动业务增长的核心引擎。从视频播放、会员运营到广告推荐,实时数据需求已渗透至业务全链路。例如,用户点击行为需在1分钟内反馈至推荐模型,广告投放需结合实时流量动态调整竞价逻辑。然而,随着业务规模扩大,基于Kafka构建的秒级实时数仓面临显著挑战:高昂的存储与计算成本。

    陶然 · 2025-03-28 09:41
  • 大模型赋能货拉拉客服:开启智能服务新篇章

    在物流行业竞争日益激烈的今天,货拉拉作为一家专注于物流和货运的科技企业,始终致力于通过科技手段提升物流效率和服务质量。随着人工智能技术的飞速发展,货拉拉引入大模型技术,为客服领域带来了实际的提升。本文会带你了解大模型在货拉拉客服领域的应用,看看它如何助力客服提升效率和服务质量。

    陶然 · 2025-03-27 16:05
  • 亿级高性能通知系统构建,小白也能拿来即用

    基于这样的背景,我们就迫切需要开发一套通用的消息通知系统。那么如何高效地处理大量的消息请求以及服务稳定性的保障,成为了开发者需要面对的重要挑战。本文将探讨如何构建高性能的消息通知系统。

    陶然 · 2025-03-27 09:57
  • 分布式数据一致性场景与方案处理分析|得物技术

    在经典的CAP理论中一致性是指分布式或多副本系统中数据在任一时刻均保持逻辑与物理状态的统一,这是确保业务逻辑正确性和系统可靠性的核心要素。在单体应用单一数据库中可以直接通过本地事务(ACID)保证数据的强一致性。

    陶然 · 2025-03-27 09:27
  • 百度百舸万卡集群的训练稳定性系统设计和实践

    2012 年 ImageNet 竞赛中 AlexNet 的横空出世,开启了现代 AI 发展的新纪元。彼时我们不会想到,十年后支撑 AI 训练的 GPU 集群会从研究室里的几台服务器,发展成需要专门供电系统的万卡级计算矩阵。在这个算力爆发式增长的过程中,训练系统的稳定性管理正经历着从「简单运维」到「精密工程」的深刻变革。

    陶然 · 2025-03-25 09:35
  • 火山引擎多模态数据湖的设计与实践

    随着大模型的发展和应用,文本的边界被拓宽,图像、视频、语音各种模态涌现,并给数据管理、检索、计算带来巨大挑战。火山引擎多模态数据湖解决方案则可实现海量结构化、半结构化及非结构化数据的统一精细化管理,全方位兼容各类数据格式,为LLM预训练、持续训练和微调全程各个环节提供更好的数据支持。

    陶然 · 2025-03-24 11:01
  • 得物技术部算法项目管理实践分享

    在得物技术生态的核心地带,算法作为核心技术力量的中流砥柱,承担着推荐系统、搜索算法、AI 查验鉴别和图像识别等多个前沿且关键领域的研发重任。随着业务的快速扩展和技术的不断迭代,项目管理的重要性日益凸显。本文将分享得物技术部算法团队在项目管理进阶过程中的经验与思考。

    陶然 · 2025-03-24 10:33
  • 数据人的进阶之路:四年数仓实践与成长思考

    在数据仓库开发的过程中,常常会遇到很多值得思考的问题,它们不仅关乎技术的深度,也涉及业务理解、个人的成长,甚至是数据行业未来的价值。回顾过去的经历,有很多问题反复出现,甚至成为绕不开的课题,我自己挑选了9个问题,将其分成了四类,重新进行回答。

    陶然 · 2025-03-20 20:49
  • 2025 B站春晚直播——技术保障复盘

    2025年1月9日,哔哩哔哩正式宣布与中央广播电视总台达成合作,成为《2025年春节联欢晚会》的独家弹幕互动直播平台,然而,一个细微的代码错误或第三方服务的意外中断,都可能导致整个直播系统出现故障。针对这些潜在风险,我们将详细介绍相关应对措施与解决方案。

    陶然 · 2025-03-20 20:43
  • 京东广告创意:高质量创意生成和千人千面的创意推荐

    吸引人的广告图片对于电子商务的成功至关重要。由于手动设计图片需要大量的人工成本,因此对自动广告图像生成的需求正在上升。尽管生成模型有潜力创造出吸引人的背景,但我们观察到其经常会生成质量欠佳的广告图片,因此需要大量人工来检查生成的图像。

    陶然 · 2025-03-19 17:20
  • 异地多活架构进阶:如何解决写后立即读场景问题?

    本文不展开讨论各种一致性模型,只关注“写后立即读”的要求是数据写入后短时间内到来的读请求能够读取到最新写入的值这一具体问题,这是互联网应用中数据读取中比较独特和典型的场景,值得深入探讨,本文尝试分析一下这个问题的细节并探讨相应的解决思路。

    陶然 · 2025-03-19 16:53
  • 商家域稳定性建设之原理探索|得物技术

    稳定性建设在当今技术驱动的时代至关重要,但它常常被视为“重要但不紧急”的任务,导致在排期过程中得不到必要的优先级支持。许多时候,团队甚至不得不依赖于故障的驱动才能艰难推进稳定性建设。这一现象的根源,可以归结为以下几个方面。

    陶然 · 2025-03-18 09:50
  • 阿里云资深架构师经验分享:DevSecOps优秀实践

    本文将分享阿里云在DevSecOps中设计环节的实践经验,希望能够让大家理解阿里云是如何保障产品安全水位,并希望这些经验能够帮助到正在尝试落地DevSecOps解决方案的企业。

    陶然 · 2025-03-18 08:51
  • 23招教你掌握大模型提示词技巧

    当模型越来越懂人话,我们还需要学习提示语(Prompt)吗?本文总结了23招向AI提问的好方式。过去一个月,全球AI领域接连引爆"深水炸弹":推理成本直降80%%的Deepseek-R1横空出世,OpenAI对GPT-4o进行了迭代更新,马斯克的xAI推出Grok 3模型并声称性能超越ChatGPT ......在这场技术地震中,最引人注目的当属完全开源的DeepSeek。

    陶然 · 2025-03-17 09:42