
汤林鹏
你好,我是一名人工智能领域的研究员与工程师。目前任职于上海算法创新研究院,专注于大模型与数据系统的交叉领域 (Data-Centric AI)。
此前,我作为联合创办了墨奇科技并担任 CTO,主导研发了 SQL 向量融合的高性能 AI 数据库 MyScaleDB,基于深度学习和多尺度表征的大规模无标注指纹比对系统等。在此之前,我曾担任 Meta (Facebook) 系统团队的顾问,研发了支撑全球海量多媒体分发的高性能系统。
我长期致力于人工智能与底层系统的深度融合。我在普林斯顿大学获得了计算机科学博士学位,师从李凯教授。我的工作曾获得 WAIC 世界人工智能大会 SAIL 奖及 KDDCup 数据挖掘比赛第一名等荣誉。
博客随笔

2026-04-26Agentic RL: 自我进化的大模型新范式 (Part I)
探讨智能体模型(Agentic Models),剖析强化学习的必要性、奖励工程的演进,以及强化学习算法的发展历程。
→ 阅读更多博客工作经历
上海算法创新研究院
数智中心 | 2024 - 至今
墨奇科技
联合创始人 & CTO | 2016 – 2024
Meta
研究顾问 | 2013 – 2016
北京惠普实验室
研究实习生 | 2011 - 2012
教育背景
普林斯顿大学 (Princeton University), 美国
博士,计算机系 | 2012 – 2018
导师:李凯教授,美国工程院院士 & 中国工程院外籍院士
上海交通大学 (Shanghai Jiao Tong University), 上海
学士,计算机系,ACM 班 | 2008 – 2012
产品和项目经历
Data-Centric AI 平台
2024 年 – 至今
- 主导整体产品架构设计与重点项目交付,带领团队以 Agentic 理念构建面向大模型(LLM)的新一代 AI 数据基础设施。
- 首创性研发并落地基于智能体和 DataFlow 数据准备框架的多模态数据智能管线系统。系统内置 150+ 智能化算子,支持自然语言对话式的自动化管线编排,实现对海量异构数据的高效灵活处理。
- 针对大模型在科学与工业场景中的高风险幻觉难题,构建基于多层次环境(涵盖规则过滤、知识图谱、模拟仿真和外部系统验证等)的高保真数据合成与反馈体系。
- 颠覆传统耗费 90% 人力的数据工程范式,将 AI-Ready 数据集生产门槛大幅降低,成功在工业制造、多模态语料运营和科学语料库等多个标杆场景落地,大幅降低企业构建专属 Agent 及专业大模型的成本。
MyScaleDB AI 数据库
2020 年 – 至今
- 负责产品技术架构定义,主导内核向量搜索算法设计与核心引擎研发,打造全球领先的开源 AI 数据库系统。
- 在业内率先提出 AI 数据库概念,基于列式数据引擎,创新性地在一个 SQL 内核中实现 PB 级结构化和非结构化数据(向量、图数据、文本、时空等)的融合管理与联合检索。
- 自研 MSTG 向量引擎并深度结合高性能 NVMe SSD 内存缓存机制进行软硬件协同优化,在保障毫秒级复杂联合查询的前提下,实现向量数据存储密度 10 倍提升。
- 成功落地于工业制造、科学智能及金融辅助决策等大规模知识库系统建设,给海量语料库提供了卓越的性价比,并通过 SaaS 广泛支撑全球开发者生态。
非接触指掌纹采集设备
2018 年 – 2022 年
- 主导全球首款大面积、高质量非接触指掌纹采集终端的产品定义,带领团队攻克 3D 重建与复杂光学图像增强等核心技术难题。
- 结合双目视觉与自研结构光系统,实现亚毫米级别的手指高精度三维重建;引入多源多波段光学设计与深度学习图像增强算法,大幅突破环境光源干扰。
- 成功颠覆传统接触式采集的行业痛点与技术瓶颈,推出革命性的非接触采集终端设备,推动安防领域生物特征采集硬件装备的跨代际技术升级。
海量指掌纹检索系统
2015 年 – 2022 年
- 负责海量指掌纹比对核心系统架构设计及核心深度学习模型研发。
- 首创多尺度向量表征方案,创新性引入主动式深度学习(Active Deep Learning)机制驱动模型自我优化迭代,底层通过 CPU 和 GPU 联合加速,突破千亿级多尺度特征索引技术瓶颈。
- 将海量复杂生物特征检索的速度、精度与自动化程度提升 100 倍以上;成功部署于全国指纹中心,产生巨大社会影响。
视频流行度预测系统
2015 年 – 2017 年
- 负责针对 Facebook 海量规模视频流量趋势预测的高性能算法设计与落地实现。
- 自研高性能时序概率预测模型,并与底层视频压缩策略流、实时缓存调度链路进行深度耦合对接与优化。
- 实现大规模视频流行度的实时精准预测,预测准确度提升 10% 以上;支撑 Facebook 采用更智能的视频压缩转化方案和高效缓存调度,降低系统消耗同时提升平台用户观看体验。
RIPQ 缓存系统
2013 年 – 2015 年
- 负责基于 SSD 固态存储的大规模缓存调度系统的核心算法设计及系统实现。
- 首创 Restricted Insertion Priority Queue (RIPQ) 缓存算法,从底层巧妙化解传统缓存淘汰机制在固态存储(SSD)中固有的非顺序写放大及性能骤降难题。
- 构建出极低写放大、高吞吐特性的下一代智能缓存系统;于 Facebook 全网 CDN 边缘节点及缓存核心系统中成功部署,大规模并发环境下缓存命中率提升 20% 以上,优化网络请求延迟并节省大量带宽成本。
获奖和荣誉
- WAIC 世界人工智能大赛一等奖 (2024)
- HICOOL 创业大赛一等奖 (2022)
- 最佳学生论文, CIKM (2012)
- 第一名, KDDCup 数据挖掘比赛 (2012)
- Fu Di 奖学金 (2011)
- 国家奖学金 (2010)
- 施耐德奖学金 (2009)