清华大学 · 2026年春季学期

数据库技术与应用
—— AI 时代的数据基础能力

清华大学校徽
教师: 计算机系 王健楠 地点: 自强科技楼 5310 时间: 周四 09:50 - 12:15
AI Era Data Foundation
赋能 AI 时代的底层数据思维与系统能力

课程简介

在人工智能迅速发展的今天,数据已成为驱动 AI 突破的核心要素。无论是大模型训练、数据驱动决策还是 AI4Science,如何高效管理复杂多源数据,都是 AI 时代学生不可或缺的底层能力。

本课程以数据库技术的发展为主线,系统介绍其在数据科学、数据工程与 Data+AI 中的核心作用与演进:

  • 数据科学:通过数据处理、可视化与统计建模,学习如何从数据中发现规律、形成可信结论
  • 数据工程:通过 SQL、查询优化与数据建模,学习如何将数据处理流程从实验环境推进到生产级系统
  • Data+AI:通过 AI4Data 和 Data4AI,学习 AI 如何赋能数据库以及数据库如何反向支撑 AI 应用。

课程配有基于真实问题的实验与大作业,引导学生将课堂知识应用于实际场景,为后续科研与工程实践奠定基础。

教学内容

  • · 数据库发展历史
  • · 表格数据分析(Pandas)
  • · 数据准备
  • · 数据可视化
  • · 数据统计
  • · 数据驱动的机器学习
  • · SQL 查询
  • · 查询性能优化
  • · 数据建模
  • · 半结构化数据
  • · LLM4Data
  • · Data4LLM

评分标准

·

平时实验 (32%):共计 8 次实验,每次占比 4%。

·

课程项目 (68%): 选题汇报 (18%) + 项目汇报 (25%) + 项目成果 (25%,含报告、代码与视频)。

教学日历

周次 日期 教学主题 发布 截止
第 1 周02-26课程介绍与数据库历史A1
第 2 周03-05Pandas I:基础数据操作A2
第 3 周03-12Pandas II:高级数据操作A1
第 4 周03-19数据准备 I:结构化数据A3A2
第 5 周03-26数据准备 II:非结构化数据
第 6 周04-02数据可视化A4A3
第 7 周04-09数据统计
第 8 周04-16数据驱动的机器学习A5A4
第 9 周04-23SQL I:基础查询选题汇报
第 10 周04-30五一假期(不上课)A6A5
第 11 周05-07SQL II:高级查询
第 12 周05-14查询性能优化A7A6
第 13 周05-21数据建模
第 14 周05-28半结构化数据
第 15 周06-04LLM4DataA8A7
第 16 周06-11Data4LLM
第 17 周 课程总结与项目展示
A8 项目终审

注:表格支持左右滑动查看全部内容