Skip to content

汤林鹏

Data-Centric AI / AI Infra / Agentic RL
  • 💡 Data&AI Systems Expert: 数十亿规模的生物识别、工业 AI 与 AI4S 系统研发落地
  • 🎓 Princeton CS PhD | Meta (Facebook) Systems |
    墨奇科技联合创始人 & CTO
汤林鹏

你好,我是一名人工智能领域的研究员与工程师。目前任职于上海算法创新研究院,专注于大模型与数据系统的交叉领域 (Data-Centric AI)。

我长期致力于 AI 与底层系统的深度交叉:从 Meta (Facebook) 的大规模多媒体分发系统,到数十亿级别的生物图像识别系统,再到 MyScaleDB AI 数据库,以及面向大模型与 AI4S 的数据基础设施。当前的核心关注点在于:如何利用 AI&Data Infra、Agentic RL 等前沿技术打造 AI 数据飞轮,构建能够在高价值深水区真正落地的前沿智能系统。

我在普林斯顿大学获得了计算机科学博士学位,师从李凯教授。我的工作曾获得 WAIC 世界人工智能大会 SAIL 奖及 KDDCup 数据挖掘比赛第一名等荣誉。

技术思考

物理世界的数据飞轮:分层视觉 AI 系统设计与优化物理 AI 的建模:从 VLA 到 World ModelAgentic RL (Part III):Verl、SkyRL 架构分析到 Retool-RL 案例实践从语料加工到经验飞轮:大模型数据工程的下一站Agentic RL (Part II):面向真实世界任务的 RL 系统Agentic RL (Part I): 自我进化的大模型新范式

荣誉与认可

  • 🏆 WAIC (世界人工智能大会) SAIL 奖, 2024
  • 🥇 HICOOL 全球创业者峰会 一等奖, 2022
  • ⚙️ 标杆系统: Data-Centric AI 平台,MyScale AI 数据库,数十亿规模国家指纹系统
  • 📚 顶会论文: NSDI, KDD, FAST, CIKM 最佳学生论文,KDDCup 数据挖掘比赛第一名

工作经历

上海算法创新研究院
数智中心 | 2024 - 至今

墨奇科技
联合创始人 & CTO | 2016 – 2024

Meta
研究顾问 | 2013 – 2016

北京惠普实验室
研究实习生 | 2011 - 2012

教育背景

普林斯顿大学 (Princeton University), 美国
博士,计算机系 | 2012 – 2018
导师:李凯教授,美国工程院院士 & 中国工程院外籍院士

上海交通大学 (Shanghai Jiao Tong University), 上海
学士,计算机系,ACM 班 | 2008 – 2012

产品和项目经历

Data-Centric AI 平台

2024 年 – 至今

  • 主导整体产品架构设计与重点项目交付,带领团队以 Agentic 理念构建面向大模型(LLM)的新一代 AI 数据基础设施
  • 首创性研发并落地基于智能体和 DataFlow 数据准备框架的多模态数据智能管线系统。系统内置 150+ 智能化算子,支持自然语言对话式的自动化管线编排,实现对海量异构数据的高效灵活处理。
  • 针对大模型在科学与工业场景中的高风险幻觉难题,构建基于多层次环境(涵盖规则过滤、知识图谱、模拟仿真和外部系统验证等)的高保真数据合成与反馈体系
  • 革新耗费人力巨大的传统数据工程范式,将 AI-Ready 数据集的人工介入率降低 80% 以上;成功赋能工业企业知识库、车联网数据、海量多模态语料运营及科学语料库等落地项目,大幅降低企业构建专属 Agent 及专业大模型的成本。

MyScaleDB AI 数据库

2020 年 – 至今

  • 负责产品技术架构定义,主导内核向量搜索算法设计与核心引擎研发,打造全球领先的开源 AI 数据库系统
  • 在业内率先提出 AI 数据库概念,基于列式数据引擎,创新性地在一个 SQL 内核中实现 海量结构化和非结构化数据(向量、图数据、文本、时空等)的融合管理与联合检索。
  • 自研 MSTG 向量引擎并深度结合高性能 NVMe SSD 内存缓存机制进行软硬件协同优化,在保障毫秒级复杂联合查询的前提下,实现向量数据存储密度 10 倍提升,单节点硬件成本降低 70% 以上。
  • 成功落地于工业制造、科学智能及金融辅助决策等大规模知识库系统场景,给海量语料库提供了卓越的性价比,并通过 SaaS 广泛支撑全球开发者生态。

非接触指掌纹采集设备

2018 年 – 2022 年

  • 主导全球首款大面积、高质量非接触指掌纹采集终端的产品定义,带领团队攻克 3D 重建与复杂光学图像增强等核心技术难题。
  • 结合双目视觉与自研结构光系统,实现亚毫米级别的手指高精度三维重建;引入多源多波段光学设计与深度学习图像增强算法,大幅突破环境光源干扰。
  • 突破传统接触式采集的行业痛点与技术瓶颈,推动安防领域生物特征采集硬件装备从接触式走向非接触的跨代际技术升级。

海量指掌纹检索系统

2015 年 – 2022 年

  • 负责海量指掌纹比对核心系统架构设计及核心深度学习模型研发。
  • 首创多尺度向量表征方案,创新性引入主动式深度学习(Active Deep Learning)机制驱动模型自我优化迭代,底层通过 CPU 和 GPU 联合加速,突破千亿级多尺度特征索引和高性能搜索技术瓶颈。
  • 将海量复杂生物特征检索的速度、精度与自动化程度提升 100 倍以上;成功部署于全国指纹中心,产生巨大社会影响。

视频流行度预测系统

2015 年 – 2017 年

  • 负责针对 Facebook 海量规模视频流量趋势预测的高性能算法设计与落地实现。
  • 自研高性能时序概率预测模型,并与底层视频压缩策略流、实时缓存调度链路进行深度耦合对接与优化。
  • 实现大规模视频流行度的实时精准预测,预测准确度提升 10% 以上;支撑 Facebook 采用更智能的视频压缩转化方案和高效缓存调度,降低系统消耗同时提升平台用户观看体验。

RIPQ 缓存系统

2013 年 – 2015 年

  • 负责基于 SSD 固态存储的大规模缓存调度系统的核心算法设计及系统实现。
  • 首创 Restricted Insertion Priority Queue (RIPQ) 缓存算法,从底层解决传统缓存 eviction 算法在固态存储(SSD)中固有的非顺序写放大及性能降低难题。
  • 构建出极低写放大、高吞吐特性的下一代智能缓存系统;于 Facebook 全网 CDN 边缘节点及缓存核心系统中成功部署,大规模并发环境下缓存命中率提升 20% 以上,优化网络请求延迟并节省大量带宽成本。