- 爱奇艺基于多模态的台词说话人识别技术
影视剧剧本涵盖了整部剧的文本描述,包括台词及其说话人信息,对了解剧情有关键作用。然而,长视频平台上线的视频历经各种改版和剪辑处理,相应的剧本信息已缺失,台词说话人识别技术由此产生。
陶然 · 2024-11-07 14:54 - 百度沧海·存储统一技术底座架构演进
随着 AI 时代的快速发展,对存储技术提出了更高的要求,尤其是在大规模、高性能和低成本方面。为了应对这些挑战,百度沧海·存储打造了一个高度可复用的统一技术底座。我们在这个统一的技术底座中解决了云存储的共性问题,让上层存储系统的迭代更高效。
陶然 · 2024-11-07 09:12 - 这样设计二级缓存架构,看谁还说K8s不好用
本文详细阐述了如何通过二级缓存架构设计提升高并发下的系统性能。随着k8s成为用云新界面,容器成为众多用户“弹性”的利器,因此容器的创建天生具备高并发特性。
陶然 · 2024-11-06 15:12 - 数据科学在京东物流关键角色的应用探索
在数据驱动的时代,数据科学成为了各行业创新和增长的关键。数据科学的核心在于从数据中提取知识,不单单是一种科学方法,更是一种赋能企业的工作模式。它通过分析各种数据类型,借助机器学习和大模型等算法,构建可以模拟人类智能的人工智能系统。
陶然 · 2024-11-06 09:51 - B站自研角色扮演模型背后的技术
角色扮演作为热门领域,这一场景中的技术发展和创新备受关注。各大企业纷纷上线了角色对话的相关产品,可以说这个领域正在成为各企业AIGC综合能力的竞技场。对于B站来说,角色扮演模型在娱乐、教育、视频创作等方面都拥有着丰富的应用场景。
陶然 · 2024-11-05 14:48 - 百度沧海数据湖存储加速方案2.0设计实践
数据湖这个概念,从 2012 年产生到现在已经有十余年的时间,每家公司对它内涵的解读都不太一样。但是数据湖的主要存储底座有从传统的 HDFS 向对象存储演进的趋势。
陶然 · 2024-11-05 10:53 - 对象存储的多中心多活架构设计
本文探讨了对象存储的多中心多活架构设计,旨在确保数据安全性和业务连续性。首先介绍了增量异步复制和同步复制两种数据同步方式,并分析了同城多活和异地多活两种容灾模式。其中,同城多活是基于同步复制,对网络质量和运维能力都有较高的要求。
陶然 · 2024-11-04 17:15 - 抖音集团如何巧用“数仓”降本
随着数据量的爆炸性增长,现代企业在数据存储、处理与分析上面临巨大挑战。在 IT 架构中,数据仓库承担着企业中关键的数据存储和分析任务,如果不能高效运作,必将导致成本飙升和决策效率低下。因此数据仓库的降本增效是企业IT部门持续的命题。
陶然 · 2024-11-04 14:47 - 第八届永洪科技用户大会:荣耀与创新引领数据分析新征程
2024年11月1日,第八届永洪科技全国用户大会(以下简称“用户大会”)在北京圆满召开。来自金融、制造、零售、能源、政府、医疗等众多行业的精英领袖、技术专家以及媒体朋友齐聚一堂,共襄盛会。
陶然 · 2024-11-01 15:56 - 是否应在Kubernetes上运行Redis?快手这样做
针对无状态服务,业界已拥有成熟解决方案,但对于有状态服务(如数据库、Redis)是否适合容器化与K8s托管,仍存在争议。本文将基于快手在 Redis 云原生化实践中的经验,探讨有关有状态服务的云原生化思考及应对方案。
陶然 · 2024-11-01 09:59 - 架构设计原则:选择 SPI 还是 API ?
第一次听说 SPI 是阅读《软件框架设计的艺术》,以后陆续在 JDBC 和 SpringBoot 中发现了以这种形式组织代码的方式,本位给出为什么要区分 SPI 和 API 的一个思考过程。
陶然 · 2024-11-01 09:30 - 浅谈TiKV集群运维问题排查与修复
在业务快速扩张的年代,vivo内部的很多业务为了可以快速上线,给现网功能提供支撑,在KV类型的选型下许多场景都选用了轻量快速的Redis集群。但是随着业务的不断发展与稳定,当数据量级达到一定程度的时候,数据性质开始发生变化:
陶然 · 2024-10-31 09:40 - B站大数据集群管理平台BMR的实践与创新
随着B站业务的快速发展,大数据的规模和复杂度也突飞猛进。为应对这一挑战,B站一站式大数据集群管理平台,在千呼万唤中孕育而生。BMR平台包含集群管理、元仓建设、智能运维等核心模块,这些功能很好的承接了业务场景的需求,显著提升了变更效率,保障了系统安全变更,优化了运维流程。
陶然 · 2024-10-30 09:04 - 转转首页推荐粗排优化实践
主流的推荐系统采用多阶段级联结构,主要分为召回、粗排、精排、重排几部分,每阶段可以视为一个漏斗,候选物品数量逐渐减小。召回作为第一级漏斗,从海量物品池中尽可能召回所有用户可能感兴趣的物品
陶然 · 2024-10-29 14:48 - B站大规模数据中心搬迁的挑战与实践
历时18个月,跨越长三角多个地区,搬迁数万台服务器和交换机设备……B站数据中心圆满完成搬迁项目,新机房拥有更先进的基础设施和更全面的技术支持,将进一步优化上层业务布局,支撑业务整体的异地多活,有效提升资源利用率和运营稳定性,为广大B站用户带来更好的访问服务体验。
陶然 · 2024-10-28 08:58 - 基于数据湖构建近实时数据链路
大数据处理技术,经历了基于Hadop+Hive的离线数据仓库,可以满足大部分场景的需求,数据准确性可以得到保证;但是对于秒级实时需求无法满足,基于此产生了实时处理数仓+离线数仓结合的Lambda架构,实时性和准确性得到了保证,但需要维护两套代码;利用kafka数据重放offset功能产生了Kappa架构
陶然 · 2024-10-25 15:31 - 应对AI挑战,货拉拉机器学习平台海豚出战
随着AI技术的不断成熟和广泛应用,已经逐渐成为各行各业用来提升生产力的重要工具。货拉拉作为互联网物流科技企业,过去几年不断深耕AI技术,推动物流行业的智能化发展,并在AI定价、AI营销、AI客服、AI安防等多个领域取得显著成就。
陶然 · 2024-10-25 09:11 - 爱奇艺大数据多 AZ 统一调度架构
爱奇艺大数据团队构建了多 AZ 统一调度架构,支持不同 AZ、不同集群间数据读写路由、计算调度路由,使得业务可以无感访问不同集群上的数据,在不同集群间无感迁移数据、按需调度计算,大幅降低存储计算成本,提升数据开发与分析效率。
陶然 · 2024-10-24 21:23