文章列表

IT运维服务器管理的20个高危操作禁区
本文基于500+企业服务器故障案例分析，提炼出20个绝对禁止的服务器操作行为，涵盖安全配置、系统操作、数据管理等六大维度。每个禁忌均附带真实事故案例与可落地的技术措施。
陶然 · 2025-04-15 21:30
从算力设施到软件工具，华为云超节点引领全栈AI产品智能升级
华为云生态大会2025在安徽芜湖成功举行。在第二天的华为云产品技术发布会上，华为云面向伙伴和客户发布了全新升级的昇腾AI云服务、软件开发生产线CodeArts、数字内容生产线MetaStudio、云原生安全体系、数据治理生产线DataArts、GaussDB数据库等产品及解决方案。
陶然 · 2025-04-11 15:55
华为云发布CloudMatrix 384超节点已通过昇腾云正式商用
日前，以“聚力共创，加速行业智能跃迁”为主题的华为云生态大会2025在安徽芜湖召开。会上，华为公司常务董事、华为云计算CEO张平安公布了AI基础设施架构突破性进展，推出CloudMatrix 384超节点，并宣布已在芜湖数据中心规模上线。
陶然 · 2025-04-11 08:53
突破存储瓶颈，亿级数据存储系统优化实践
目前转转业财系统接收了上游各个业务系统（例如：订单、oms、支付、售后等系统）的数据，并将其转换为财务数据，最终输出财务相关报表和指标数据，帮助公司有效地进行财务管理和决策。转转业财系统于2021年开始构建，前期为了满足需求短时间内上线，选择了主动接收上游业务系统的数据。然而随着时间的推移，数据量在不断增长，系统已经达到无法承载的边缘，引发了许多问题。因此，我们需要对数据存储进行优化。
陶然 · 2025-04-10 15:10
算启当下即见未来 HPE ProLiant Gen12正式发布
日前，HPE计算新品发布会在北京成功举办。来自业界权威机构、重点行业媒体、产业链上下游合作伙伴等相关领域专家出席本次会议，共同见证了全新HPEProLiantComputeGen12服务器的正式发布，新品在性能、能效及可靠性等方面实现了全面突破，借助智能化管理及可持续发展设计，为企业在AI、边缘计算以及混合云等应用场景中释放更大价值。
陶然 · 2025-04-10 13:50
Hologres实时数仓在B站游戏的建设与实践
实时数据仓库是近年来数据技术领域内的一大发展潮流。构建一个能够实现高吞吐量写入与更新、端到端全链路实时处理以及低延迟、高并发的实时数据仓库，一直是众多企业面临的重大挑战。随着B站游戏业务的快速发展，对数据的实时应用需求也日益增加。
陶然 · 2025-04-08 15:16
数智赋能天津因地制宜发展新质生产力
在国家发展新质生产力的战略引领下，天津市加速推进数字技术与实体经济深度融合。5G-A、云计算、人工智能等技术正成为新质生产力的重要支撑，推动千行万业数字化、智能化、低碳化转型，构建天津现代化产业体系核心引擎。
陶然 · 2025-04-08 13:42
普惠算力驱动天津市人工智能计算中心赋能千行百业
“昇腾新动力 DeepSeek新纪元”主题沙龙在天津举行。活动汇聚了天津市政产学研用等领域代表，共同探讨智能化时代如何通过普惠算力推动千行百业数智化转型升级，以及以天津市人工智能计算中心为代表的数智基础设施，如何结合昇腾技术生态推动天津市高质量发展。
陶然 · 2025-04-08 13:37
DPP推荐引擎架构升级演进之路｜得物技术
DPP依赖于算法平台的引擎服务（FeatureServer，召回引擎, 精排打分），提供“开箱即用”的召回，粗排，精排服务。采用“热加载技术”解决算法平台的工程和算法同学策略迭代效率问题，支持策略随时发布，让他们可以专注于业务逻辑，即可拥有稳定的推荐在线服务。
陶然 · 2025-04-08 09:24
LLM驱动前端创新：AI赋能营销合规实践
笔者认为，咱们前端开发作为用户直接交互的关键环节，是比较容易发现业务痛点的，这正是我们运用LLM技术解决问题的优势所在。下面是从实际业务场景出发，探讨 LLM 在前端开发中的实践应用。
陶然 · 2025-04-02 21:10
麦当劳中国指标中台实践：百万级日调用量的全场景统一指标服务
各位老师好，今天很高兴能与大家分享麦当劳中国在指标中台建设方面的经验。过去一年，我们与 Aloudata 合作，成功在餐饮行业落地了指标中台，并将其应用于多个实际业务场景。希望通过今天的交流，能为大家带来一些启发。
陶然 · 2025-04-01 13:58
凌晨突发的数据库重大故障，我排查了一整天
春节期间过得太热闹了，上班确实没啥状态，这不刚发生的一个重大性能故障，排查了整整一天，后面的领导都站成了一排，本次把故障发生的详细分析过程分享给大家！本次故障发生在凌晨，核心应用卡顿非常严重，Oracle数据库直接夯住了，出现异常等待事件gc buffer busy acquire，以及部分索引和行锁争用。
陶然 · 2025-03-31 17:15
前端怎么做好稳定性保障体系建设？
业务间的监控策略层次不齐：前后端针对监控专项的标准规范缺失，导致有的业务监控完善，其他业务缺复用不了。集团前端监控平台能力不完善，导致告警噪音大，一线研发无法通过自行思考抽丝剥茧，做有效合理监控，久而久之，监控告警熟视无睹
陶然 · 2025-03-31 10:31
再不左移转型，运维就真的要被淘汰了
为应对证券行业数字化转型、重要系统架构升级、云原生技术发展、信息技术创新，以及行业重大故障频发等多重复杂因素的影响，广发证券愈发重视系统稳定性和可靠性建设。接下来我们将围绕系统稳定性保障工作，针对软件生命周期在上线前的运维左移工作，总结工作思路与实施策略。
陶然 · 2025-03-31 09:37
DeepSeek落地运维领域，说几个实际工作中的应用场景
DeepSeek在运维领域的落地，不是搞一堆“高大上”的AI概念，而是直接解决工程师每天骂娘的痛点。说几个实际到肉的应用场景：
陶然 · 2025-03-28 15:16
架构性能跃迁，iLogTail超大规模日志采集实践
过去滴滴内部基于自研的日志采集 Agent，构建了覆盖全链路的实时日志采集体系。依托分布式架构设计，每日稳定处理数 PB 级超大规模日志数据，实现对集团内部业务应用的高并发、低延迟日志采集支持，为全公司业务监控、故障诊断、数据分析等场景提供了可靠的底层数据基础设施。
陶然 · 2025-03-28 09:58
实时数仓2.0：更低的成本获取更及时的数据
在爱奇艺的泛娱乐生态矩阵中，数据是驱动业务增长的核心引擎。从视频播放、会员运营到广告推荐，实时数据需求已渗透至业务全链路。例如，用户点击行为需在1分钟内反馈至推荐模型，广告投放需结合实时流量动态调整竞价逻辑。然而，随着业务规模扩大，基于Kafka构建的秒级实时数仓面临显著挑战：高昂的存储与计算成本。
陶然 · 2025-03-28 09:41
大模型赋能货拉拉客服：开启智能服务新篇章
在物流行业竞争日益激烈的今天，货拉拉作为一家专注于物流和货运的科技企业，始终致力于通过科技手段提升物流效率和服务质量。随着人工智能技术的飞速发展，货拉拉引入大模型技术，为客服领域带来了实际的提升。本文会带你了解大模型在货拉拉客服领域的应用，看看它如何助力客服提升效率和服务质量。
陶然 · 2025-03-27 16:05
亿级高性能通知系统构建，小白也能拿来即用
基于这样的背景，我们就迫切需要开发一套通用的消息通知系统。那么如何高效地处理大量的消息请求以及服务稳定性的保障，成为了开发者需要面对的重要挑战。本文将探讨如何构建高性能的消息通知系统。
陶然 · 2025-03-27 09:57
分布式数据一致性场景与方案处理分析｜得物技术
在经典的CAP理论中一致性是指分布式或多副本系统中数据在任一时刻均保持逻辑与物理状态的统一，这是确保业务逻辑正确性和系统可靠性的核心要素。在单体应用单一数据库中可以直接通过本地事务(ACID)保证数据的强一致性。
陶然 · 2025-03-27 09:27