奇异果体育中国官方网站新闻中心

云原奇异果体育网址生大数据这么多年有什么新的进展?

2024-04-26
浏览次数:
返回列表

  。本次峰会由2位主席、3位专家团成员与8位论坛出品人精心策划而成,共包含:云原生大数据架构、云原生大数据存储引擎实践、云原生大数据计算引擎实践、云原生大数据可观测性、云原生DataOps实践、云原生大数据AI一体化、云原生大数据最佳实践、云原生湖仓等8个论坛。本次峰会将全程直播,欢迎大家识别下面任意二维名收看。

  个人介绍:腾讯云大数据产品中心副总经理,有超过10年的大数据架构和应用相关的经验,搭建过QQ的第一个hadoop集群,也负责过QQ数据平台的构建,以及公司级别的推荐系统-神盾平台,目前负责腾讯云大数据产品中心技术研发相关工作。

  张治国 阿里云智能集团技术研究员、阿里云智能计算平台事业部自研大数据平台MaxCompute负责人

  个人介绍:在大规模分布式搜索推荐系统、大数据分布式系统等方向拥有超过15年的经验,现任阿里云自研大数据平台 MaxCompute 的负责人。曾担任微软搜索与人工智能事业部 Partner Group Engineer Manager,带领团队研发网页检索更新系统以及个人数据搜索系统,创建并领导推荐平台,大数据计算和深度学习平台,支撑微软 Bing,Ads,MSN news, Office OneDrive 等在线服务,大数据处理以及模型训练业务。

  个人介绍:网易数据库内核和数据基础设施负责人,全面负责数据库内核技术和大数据平台底层技术开发工作,先后主导了内部MySQL分支InnoSQL、HBase、自研时序数据库、实时数据仓库、离线计算等各种不同的平台,具有丰富的数据库内核和大数据平台相关经验;擅长数据库内核技术诊断、复杂环境数据恢复,大数据平台各种性能优化技术等等。

  个人介绍:硕士毕业于哈工大计算机专业,9 年大数据和云原生领域从业经验。2017 年加入字节跳动,构建了字节跳动千万级核心的集群资源管理和调度系统,支撑了全公司的数据平台、搜索、广告、推荐算法等中台,以及抖音、今日头条、西瓜视频、懂车帝、飞书等众多业务的大数据分析需求,带领团队完成了在离线资源混部、Hadoop 上云等众多项目。目前整体负责火山引擎云原生计算的技术团队。

  个人介绍:苏锐,Juicedata 合伙人,17年开始作为创始成员参与 JuiceFS 产品、市场、开源社区构建的全过程。16 年行业经验,在软件、互联网、NGO 等机构中担任过研发、产品管理、创始人等角色。

  个人介绍:刘一鸣,花名合一,阿里云高级产品专家,主要负责阿里云 MaxCompute 与实时数仓 Hologres 产品。在大数据、数据仓库、开源软件行业有10年以上工作经验,是开源大数据 OLAP 引擎 Apache Kylin 的 PMC & Committer。

  个人介绍:汤祯捷,阿里云计算平台-产品解决方案负责人。阿里云计算平台负责政企/金融/汽车/零售等泛行业大数据&AI产品解决方案商业化落地。曾从0到1完整搭建大数据产品商业化团队。拥有十多年大数据相关研发产品相关解决方案经验,曾在EMC研发中心,联想研究院等企业参与与主导数据产品研发与企业级数据应用商业化落地。

  个人介绍:硕士毕业于同济大学,先后就职于 Cisco 与 eBay。目前在 eBay 负责流数据平台的开发与维护工作。

  个人介绍:周宇睿,阿里云高级技术专家,花名闻拙,阿里云MaxCompute存储团队负责人,专注离线存储引擎领域,深耕数据文件格式与编码算法,推动AliORC数据文件格式连续多年业界领先。在持续巩固MC高性能低成本优势的基础上,探索半结构化数据,Transactional table,离线实时一体化等更多样的数仓应用场景,打造以MC为核心的数据生态。

  个人介绍:苏锐,Juicedata 合伙人,17年开始作为创始成员参与 JuiceFS 产品、市场、开源社区构建的全过程。16 年行业经验,在软件、互联网、NGO 等机构中担任过研发、产品管理、创始人等角色。

  个人介绍:李铭,多点DMALL数据平台团队高级研发工程师,目前负责公司大数据云原生架构设计与数据基座新特性研究;研究领域为大数据统一SQL网关、分布式文件存储、高性能计算、数据安全等。DataFun技术社区年度星级志愿者,大数据开源社区爱好者,重点关注多个开源项目Apache Kyuubi、JuiceFS、Apache Celeborn、Trino等在司内的适配和应用。

  演讲题目:多点DMALL × JuiceFS:大数据存算分离下的存储架构探索

  演讲提纲:作为一站式全渠道数字零售解决方案服务商,多点DMALL通过数字化解构重构零售产业,提供端到端的商业SaaS。作为DMALL OS数字化能力的技术底座,大数据平台历经多次迭代平稳支撑了DMALL零售云 To B业务的开展,而多点DMALL大数据技术也经历了从存算一体到存算分离的架构调整变迁。本次演讲将从底层分布式存储架构的角度讲述这一探索实践的历程。主要内容包括:

  个人介绍:多年存储和大数据研发经验,先后就职于微软 Azure Stack、华为存储和阿里云计算平台,2020年6月加入字节跳动大数据存储团队,目前负责火山引擎大数据文件存储(CloudFS)的技术研发,致力于提供简单易用、稳定高效和多场景兼容的存储加速服务。

  演讲提纲:在火山引擎,绝大部分的机器学习和数据湖的算力都是运行在云原生 K8S 平台上。云原生架构下存算分离和弹性伸缩的计算场景,极大的推动了存储加速这个领域的发展,目前市业界也衍生出了多种存储加速服务。但是面对计算和客户场景的多样性,目前还没有一个业界标准的存储加速实践,很多客户在做选型的时候也面临着诸多的困惑。我们在火山引擎上构建了云原生的存储加速服务,适配机器学习和数据湖的多种计算场景,致力于给业务提供简单易用的透明加速服务。本次分享将结合我们在火山引擎上的业务实践,分享我们对于存储加速的经验总结和思考。

  个人介绍:18年加入汽车之家,重新设计并开发了日志采集平台;19-20年设计开发了基于Apache Flink的实时计算平台、实时接入平台。21年开始探索并落地湖仓一体架构,主导Apache Iceberg的集成和优化工作;22年利用实时离线混部,Flink自动缩容等方案,实时离线任务错峰节运行省了大量服务器资源;并参与落地基于Milvus的向量检索平台,解决搜索,推荐召回业务在向量检索方面的性能,维护问题;23年开始探索Apache Paimon在实时数仓、推荐上的使用场景。喜欢技术探索,擅长定位及解决工奇异果体育足球app作中遇到的各种疑难杂症。

  听众收益:初步掌握 Paimon 技术架构,了解 Paimon 在之家的生产实践。

  个人介绍:Databend Labs 联合创始人 & 架构师 , 腾讯 TVP 成员,鲲鹏会 TGO 成员。专注云原生大数据分析及应用, 熟悉 MySQL 生态应用。

  个人介绍:字节跳动批式计算负责人,支撑公司内大规模的离线数据处理&机器学习等业务场景,在 Spark/Ray/Primus/Iceberg 等方面做了大量的功能拓展&性能优化。

  个人介绍:专注于超大规模分布式系统的研发与应用实践, 之前阿里云数据库OLAP团队参与ADB产品的研发, 现在在哔哩哔哩从事交互式分析产品的研发。

  演讲提纲:探讨 Trino 和 Iceberg 的结合,以及如何通过它们来优化湖仓一体中的大数据查询。其次,会侧重介绍 Trino 的稳定性保障,Trino 如何在保证高速查询的同时,也确保了系统的稳定运行。最后,我们将探索 Trino 的容器化及其计划。

  个人介绍:毕业于北航,先后任职于搜狗、百度,于2018年加入快手并推动Flink在快手的深度改造和生产可用。

  个人介绍:现任字节跳动基础架构工程师,主要负责 Spark 内核开发及字节自研 Cloud Shuffle Service 开发。

  演讲提纲:在字节跳动内部,Spark 是应用最广泛的计算引擎,每天任务数超过 150W,被广泛应用于大规模数据处理,机器学习等场景。线上集群磁盘类型多样,包括 SSD、HDD 以及混合等。每天会产生超过 100PB 以上的 Shuffle 数据,同时单个任务的 Shuffle 数据量可能达到数百 TB。巨量的 Shuffle 数据和复杂的计算资源环境给 Spark 运行过程中的 Shuffle 性能带来了很多挑战。本文会分享字节跳动在 Spark Shuffle 云原生化方面的大规模演进实践。

  - 增加 Shuffle 限流功能,按任务等级给作业分配不同 Shuffle QPS,增强 ESS 的服务分级隔离能力。当 ESS 节点压力过大时,会自动限流低优任务来保证高优任务的正常运行;

  - 增加 Shuffle 溢写分裂功能,当单个 Executor 产生的 Shuffle 数据达到阈值时,主动释放该 Executor 并通知调度器在其他节点重新调度,防止打满磁盘,同时避免对 ESS 产生压力;

  - 增强 ESS 的监控能力,并且优化 Spark UI,快速定位给 ESS fetch 压力最大的作业并进行及时的报警。同时通过自研的智能调优系统给作业推荐最佳的参数来优化作业 Shuffle 性能;

  混部场景比较多样,包括在离线混部、与 HDFS 混部等,该场景下以部署 HDD 磁盘为主,磁盘性能差且容量不足,对 Shuffle 稳定性影响大。这种场景我们自研 Cloud Shuffle Service (CSS) 来解决上述问题:

  个人介绍:王万兴,曾就职于阿里巴巴、蚂蚁集团,有多年分布式计算、流计算、Ray内核等相关研发经验,目前在字节跳动负责Ray引擎的研发和业务落地工作。

  演讲提纲:Ray 是近年来兴起的新一代计算引擎,相较于传统计算引擎具有更好的可编程性、异构资源调度支持等能力,在分布式计算尤其是机器学习领域的应用越来越广泛。Ray 在字节跳动有比较广泛的应用,比如图计算、机器学习、数据处理等。本议题主要介绍Ray在字节跳动的实践,包括应用场景、云原生部署方案、遇到的问题和解决方案等。具体包括:

  个人介绍:网易数据库内核和数据基础设施负责人,全面负责数据库内核技术和大数据平台底层技术开发工作,先后主导了内部MySQL分支InnoSQL、HBase、自研时序数据库、实时数据仓库、离线计算等各种不同的平台,具有丰富的数据库内核和大数据平台相关经验;擅长数据库内核技术诊断、复杂环境数据恢复,大数据平台各种性能优化技术等等。

  个人介绍:范欣欣,网易数帆技术专家。负责网易内部Hadoop生态组件以及智能运维平台等系统的开发运维工作以及网易大数据基础平台NDH产品化工作,擅长大数据领域架构设计、性能优化以及问题诊断。著有《HBase原理与实践》一书。

  2. 了解 EasyEagle 在服务健康诊断、计算资源治理、存储资源治理以及任务智能优化等方面的设计理念和实践

  个人介绍:网易数帆大数据研发,负责网易内部大数据平台底层组件和任务的优化工作,以及稳定性保障奇异果体育网址。长期从事分布式时序数据库以及大数据平台底层组件和任务的监控、风险异常定位、诊断优化等相关工作。目前负责智能运维平台的架构设计、需求规划、产品形态设计、产品开发以及产品实施推进等工作。

  演讲提纲:本次演讲主要介绍网易离线计算资源治理实践思路以及相关效果。从宏观到微观层面,帮助听众树立整体优化治理脉络,理清各个可优化治理环节,可为受众在实际操作时,提供一整套完整的方法论,做到治理有依据、权责有归属、效果可展示等。

  1. 整体治理思路介绍。含括各个阶段的相关介绍以及部分技术架构和实现思路

  3. 产品化的设计和实践:如何使各个维度用户,一键式的获取目前集群计算资源存在的问题以及处理方式,降低用户大数据服务的使用、优化、治理门槛

  个人介绍:数据资产管理研究员,中国信息通信研究院云计算与大数据研究所工程师,目前主要从事DataOps,数据治理,数据资产管理的理论研究与布道工作。曾牵头多项相关领域的国际、行业、团体标准、白皮书、研究报告编制,负责多家行业头部企业的相关领域评估咨询工作。

  个人介绍:毕业于北京航空航天大学,2003年入职中国农业银行研发中心,先后从事核心银行、大数据领域的系统建设,多次获得人民银行金融科技发展奖项,现就职于架构管理办公室,从事数据标准、数据架构等相关管理工作。

  1. 释义:解释 Data Fabric 的背景、价值、发展历程及概念本质的理解。

  个人介绍:资深车企数字化专家,现任某知名高端电动汽车大数据产品负责人,曾在阿里影业、中国移动苏州研发中心、数梦工场汽车事业部等公司担任大数据产品负责人;主导实施上汽大众营销数据中台、奇瑞营销数字化平台和PSA集团CDP等项目,在车企数据中台、全域BI和CDP平台建设方面有丰富的实践经验。

  演讲提纲:数字经济时代,构建一套让业务“看见”数据价值的数字化运营体系,是企业数字化转型的必修课。DataOps之于数据,就像眼睛之于光线,DataOps能让业务“看”得更广、更远、更深、更准。

  听众收益:通过对于DataOps的实践,了解在推进数字化转型过程中怎么避开数据的坑,怎么让数据的价值被“看见”。

  个人介绍:Apache 基金会成员, Apache 孵化器导师 ClickHouse 华人社区创始人, Apache Dolphin Scheduler PMC, Apache SeaTunnel 导师。郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国计算协会开源发展委员会委员,TGO鲲鹏会北京分会会长。郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase等,是国内开源社区领军人物。

  演讲提纲:DataOps在全球范围内如火如荼的兴起,如何利用开源打造公司自己的DataOps平台,又如何与开源大模型结合形成企业自己的大模型?而作为全球开源大数据领域重磅的Apache基金会在DataOps领域又支持的如何?这是本次分享的主要议题。本次分享,分享会从企业大数据架构为基础梳理各个的Apache基金会 DataOps开源项目,结合最新的开源大模型分享最新的DataOps技术进展。

  1. 了解最新企业大数据架构,并打造Apache生态的DataOps平台

  3. 了解开源大模型人工智能与DataOps结合把握最新大数据领域科技趋势

  个人介绍:中国电信天翼电子商务有限公司高级总监,毕业于上海交通大学高级金融学院,10+年研发从业经验,负责和推动大数据人工智能和云原生相关领域建设,参与组织多个0-1大数据/云原生/AI相关产品/平台规划和落地。曾任IBM大数据架构师,万达网络资深经理/研究员。

  个人介绍:腾讯音乐T10大数据/AI平台架构高级工程师,电子科技大学本科/国防科技大学硕士

  腾讯github开源项目cube-studio负责人,现为国内开源一站式机器学习平台第一名,公司部署一百多家。Apache/DataFun 等社区讲师,CSDN博客专家,700万+阅读,发表原创文章677。主要涉及领域:云原生,大数据,AI一站式平台MLOPS。

  演讲提纲:Cube Studio开源云原生一站式机器学习平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,多集群调度,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型实时训练,llmops,私有知识库,AI应用商店,支持模型一键开发/推理/微调,私有化部署,支持国产麒麟架构。

  个人介绍:翼支付资深大数据/AI研发工程师,上海交通大学硕士,7年大数据、AI相关工作经验,负责翼支付 AI PaaS 平台研发工作。

  演讲提纲:翼支付云原生AI PaaS平台,智能标注、托拉拽建模、Notebook 自助建模、多机多卡分布式训练、自动机器学习、在线推理服务、批量推理服务、基于 Service Mesh 的模型服务治理、大模型应用引擎。

  个人介绍:杨鹏程,毕业于武汉理工大学计算机系毕业。校招加入腾讯,曾是腾讯云流计算Oceanus、大数据套件TBDS等产品的研发负责人,现负责TBDS在云原生大数据、湖仓一体、Hadoop引擎等的模块的架构规划和研发工作。多次在InfoQ等全球峰会上作为嘉宾做过大数据主题相关的分享。

  个人介绍:从中科大硕士毕业后进入兴业银行总行信息科技部,一直负责大数据技术研究及系统开发工作,现任兴业数金大数据平台研发团队技术负责人,负责兴业大数据基础平台的研发管理工作。

  个人介绍:陶征霖,偶数科技数据库首席架构师,负责数据库架构、优化器、执行器等核心模块研发,带领团队研发新一代执行器内核,达到量级性能提升。Apache Committer,项目管理委员会PMC成员。曾服务于Oracle和EMC数据库组奇异果体育网址,毕业于浙江大学。

  演讲提纲:OushuDB 是一款由国人自主研发,符合国家信创标准的分布式云原生数据库,通过计算存储分离架构解决了传统数据库高成本、高门槛、难维护、难扩展的问题,目前已经在金融、运营商等行业广泛使用,累积了丰富的面向行业痛点场景的最佳实践。本次演讲将涵盖 OushuDB 如何在高性能,高并发,实时湖仓,支撑大规模计算集群,支撑大规模存储集群,解决数据孤岛,打破大数据生态壁垒等刚需痛点问题上的原生解决方案。具体包括:

  个人介绍:本硕先后毕业于电子科技大学与香港大学,2018 年起在腾讯持续从事 Flink 引擎优化和生态构建,主导了腾讯 Flink 云原生从 0 到 1 的适配和迁移的全流程。目前主要负责流计算 Oceanus 平台的内核性能优化工作。

  演讲提纲:本次演讲从 Oceanus 产品平台化过程中曾遇到的各类问题入手,讲解为什么选择拥抱云原生,以及如何推动 Flink 乃至整个产品架构的云原生化,包括在性能加速、安全保障、运维增强等方面阐述我们的成果,并辅以云原生平台下的数据湖等各类产品联动的行业实践经验,帮助听众更好了解云原生环境下流计算平台的定位和价值。

  个人介绍:张永翔,网易数帆资深平台开发工程师,Amoro Committer,7 年从业经验,先后从事网易 RDS、数据中台、实时计算平台等开发,目前主要负责 Amoro 湖原生数仓项目。

  个人介绍:2021年加入B站工作至今,专注于开源大数据技术,参与过Alluxio、Presto、Ranger、Hudi等组件改造及优化,目前主要从事StarRocks落地元仓场景的工作。

  DataFun 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过500场线上线下沙龙、论坛及峰会,已邀请近3000位专家和学者参与分享。旗下公众号 DataFunTalk 累计生产原创文章1000+,百万+阅读,19万+精准粉丝。返回搜狐,查看更多

搜索