- 不战而溃的系统稳定性建设长什么样?
为了做好系统稳定性建设,首先需要明确什么是系统稳定性。通俗来说,系统稳定性指的是在经历外部干扰导致偏离原有平衡状态后,系统仍能在干扰消失后具备自主恢复到原来平衡状态的能力。这种能力体现了系统的韧性和恢复力。明确了稳定性的定义,下面将详细说明建设之初我所遇到的问题及挑战。
陶然 · 2025-03-06 10:15 - Redis为什么使用哈希槽而不用一致性哈希?
今天我们聊个知识点为什么Redis使用哈希槽而不是一致性哈希。之前小许用图文并茂的方式用一期内容让大家快速了解了一致性哈希算法,看过的朋友应该还有印象,没看过的朋友可以点击这里看一遍《五分钟了解一致性哈希算法》。 看明白这篇一致性哈希算法基础,会对本期内容有更好的认识和对比性。
陶然 · 2025-03-05 11:13 - 基于Flink的配置化实时反作弊系统
本文介绍了基于 Flink 的实时反作弊流式过滤系统,围绕架构设计、挑战应对及优化方案展开。通过特征计算和配置化管理,提升了系统的检测效率和稳定性。实践表明,该方案在提升数据处理时效性与反作弊效果方面均取得显著成效。未来,将进一步优化策略检测机制,提升检测精准度,并探索更智能的风险识别手段。
陶然 · 2025-03-04 17:16 - 别让老板知道!DeepSeek还能这样用在运维场景
DeepSeek作为一个现象级的技术热点在持续发酵,相关的资料很多,有介绍DeepSeek使用入门到精通、DeepSeek如何部署、DeepSeek的技术原理和实现是如何做到性价比最优等等。各行各业也争先恐后的宣布接入DeepSeek大模型,本文结合实际的运维工作中,如何借助DeepSeek来赋能实际的运维工作,有哪些运维场景进行了探讨。
陶然 · 2025-03-04 09:26 - 货拉拉大模型应用开发体系演进与实践
以 ChatGPT 为代表的生成式 AI 浪潮席卷全球,但企业落地过程中普遍面临“技术热、落地难”的困境。货拉拉基于自身在物流领域 AI 落地的深厚积累,打造了货拉拉的大模型应用一站式开发平台 -- 悟空平台。依托于悟空平台,货拉拉已在 14+ 个业务或部门,50+ 个真实业务场景,探索和落地大模型应用。
陶然 · 2025-02-28 13:44 - 一篇关于DeepSeek模型先进性的阅读理解
本文以DeepSeek模型为核心,探讨了其技术先进性、训练过程及行业影响。首先介绍DeepSeek的快速崛起及其对AI行业的颠覆作用。DeepSeek通过强化学习(RL)实现Time Scaling Law的新范式,突破了传统大模型依赖算力和数据的限制,展现了集成式创新的优势。
陶然 · 2025-02-28 13:26 - 百万级群聊的设计实践
本文介绍了服务端在搭建 Web 版的百万人级别的群聊系统时,遇到的技术挑战和解决思路,内容包括:通信方案选型、消息存储、消息有序性、消息可靠性、未读数统计。
陶然 · 2025-02-27 10:17 - 业务监控-京东物流Promise实践与探索
技术指标定义了服务可用率、性能TP99、调用量等技术指标。这些指标能够帮助开发人员深入了解系统的运行状态,及时发现并解决潜在问题。虽然技术指标正常是系统稳定性的一个重要参考,但并不能完全保证业务无异常。
陶然 · 2025-02-26 15:20 - 得物小程序平台设计与实践
得物小程序平台致力于整合并管理微信、支付宝等渠道的得物数字资产,实现数字化管理。通过该平台,小程序和公众号等功能纳入公司工作流,以提升用户体验和管理效率。
陶然 · 2025-02-25 13:45 - 滴滴国际化落地实践经验分享
作为“技术债务治理”专题的收官之作,本文将深入剖析国际化外卖骑手侧H5项目(以下简称DH5)的治理实践。从技术债务的产生根源,到问题的拆解与分析,再到具体的解决方案及最终成果,我们将全方位总结DH5项目的治理经验,为类似场景下的项目治理提供参考与借鉴。
陶然 · 2025-02-24 09:37 - 百度网盘防雪崩架构实践
大模型在研发效能领域代码生成方面发挥了越来越大的作用,而大模型的预训练依赖大量的精标代码,这些精标数据必须是比较好的工程实践代码,这些比较好的工程实践代码,需要大量的技术沉淀,包括工程架构,代码架构等多纬度,涉及性能、可用性、扩展性、安全等方向,百度网盘有不少比较好的工程实践,本文主要是介绍百度网盘工程架构中的防雪崩架构。
陶然 · 2025-02-20 13:59 - 货拉拉 API 异常流量检测实践
API(应用程序编程接口)在企业信息流通以及应用程序和系统之间的连接中扮演着重要的角色,随着企业业务的不断拓展,越来越多的攻击者通过攻击 API 来达到破坏信息系统和窃取数据的目的,API 逐渐成为一个巨大的风险敞口来源之一。本文将从流量分析角度切入,简要阐述 API 异常流量检测的实践过程。
陶然 · 2025-02-18 17:30 - 数据中心空气冷却系统的能效指标ECR
数据中心空气冷却系统能效指标ECR的提出,该指标完善了机房环境-制冷系统-数据中心的能效评价体系,对数据中心的可持续发展具有重要的指导意义,具备广泛的推广和应用潜力。
陶然 · 2025-02-17 16:19 - 货拉拉资损防控智能化平台建设实践
资损防控是业务稳定性保障的重要一环,资损防控治理主要分为增量场景和存量场景。在存量场景中,业务研发从现有业务场景入手,进行各业务模块的资损场景的梳理,将可能出现资损的场景梳理出来。
陶然 · 2025-02-14 15:45 - 爱奇艺的接口治理与自动化测试一体化解决方案实践
随着云原生和微服务架构的普及,公司许多服务也转向了微服务模式,以满足业务的高速发展和高流量调用需求。然而,微服务的拆分导致API数量的爆发式增长,使得接口管理和接口质量保障的问题更加凸显,具体体现在以下几个方面:
陶然 · 2025-02-14 09:57 - 快手Java透明协程:实现零代码修改提升30%%QPS
对于开发者而言,传统线程模型逻辑直观但性能受限,而异步模型虽性能高却复杂性大。协程以“同步编程,异步执行”平衡两者,成为现代语言标配。结合自身业务需求,快手基于社区开源版本自研了Java17透明协程技术,实现对业务无侵入的同时,吞吐能力提升30%%以上。本文将深入剖析快手协程技术的背后原理与架构演进。
陶然 · 2025-02-13 10:09 - 以抖音集团信息流推荐场景为例|如何做复杂的AB实验设计?
本文将以短视频平台的信息流推荐场景为例,结合相关团队在推荐场景开展A/B测试的实践经验,详解其复杂原理,并重点聚焦双边效应、网络效应问题,分享其对应的双边实验、社区分流实验设计思路。
陶然 · 2025-02-13 09:34 - DeepSeek-V3 高效训练关键技术分析
本文从模型架构、并行策略、通信优化和显存优化四个方面展开,深入分析了DeepSeek-V3高效训练的关键技术,探讨其如何以仅5%%的算力实现对标GPT-4o的性能。
陶然 · 2025-02-11 14:05 - S型智能增长曲线:从Deepseek R1看Scaling Law的未来
本文后面打算用S型智能增长曲线来解释我们目前看到的Scaling Law的一些现象。其实智能发展应该遵循S型曲线,这不是新观点,LLM最大的反对派Lecun和第二大反对派马库斯,去年在Twitter上就反复提过这个观点,以此作为否定LLM未来发展的重要依据。
陶然 · 2025-02-11 09:57