数据科学导论

中国传媒大学 2026 春季课程

课程定位

《数据科学导论》课程定位培养学生学习数据科学分析的基本原理，掌握数据分析的基本思路、常见的分析方法以及应用场景，学会数据分析及可视化的方法，相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计，培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。

课程目标

理解数据科学的基本概念和方法论
掌握数据收集、清洗、分析和可视化的基本技能
了解机器学习和统计学习的核心算法
培养利用数据科学方法解决实际问题的能力
建立数据驱动的思维方式

课程大纲

第一部分：数据科学基础

数据科学概述
数据收集与预处理
数据可视化基础
描述性统计分析

第二部分：统计学习方法

线性回归与分类
重抽样方法
模型选择和正则化
决策树与组合学习

第三部分：高级主题

支持向量机
神经网络基础
无监督学习
推荐算法
文本挖掘
社交网络分析
并行与分布式计算

数据科学的发展历史

统计学阶段：数据科学的起点
- 古典统计学时期：主要服务于国家治理和社会管理
- 近代统计学时期：概率论逐渐进入统计学
- 现代统计学时期：Fisher 等学者推动实验设计、方差分析、推断统计的发展
高维数据阶段：方法创新的推动期
- 随着生物医学和计算机技术发展，出现了"变量多、样本少"的高维数据问题
- 传统统计方法面临挑战，催生了变量选择与正则化等新方法
数据挖掘阶段：从分析走向知识发现
- 20 世纪 90 年代后，互联网和数据库快速发展，海量数据不断积累
- 数据挖掘兴起，强调从大量复杂数据中发现潜在模式和有价值知识
机器学习与大数据阶段
- 机器学习关注让计算机从数据中自动学习规律并进行预测
- 2011 年后，"大数据时代"概念流行
数据科学阶段：综合性交叉学科形成
- 数据科学比"大数据"更广，是一个综合性概念
- 融合了统计学、机器学习、数据挖掘、数据可视化、高性能计算、业务理解

数据科学研究的主要问题

关系发现与预测问题
- 例子：家庭收入与消费支出之间是否存在数量关系？已知收入，能否预测消费？
- 对应方法：回归分析、预测建模
分类与风险识别问题
- 例子：消费贷客户是否会违约？员工是否会离职？
- 对应方法：分类模型、风险评分、预警模型
影响因素识别问题
- 例子：哪些临床指标会影响某项健康指标？
- 对应方法：变量筛选、解释性建模、因果分析初步探索
关联规则与推荐问题
- 例子：买了面包的人是否更容易买牛奶？如何根据用户历史行为推荐商品？
- 对应方法：关联规则分析、推荐系统
降维与综合评价问题
- 例子：多个犯罪率指标能否压缩成少数几个综合变量？如何构建综合指数对地区进行评价？
- 对应方法：主成分分析、因子分析等
聚类与细分问题
- 例子：如何根据多个特征把样本自动分成几类？例如客户分群、用户画像、市场细分
- 对应方法：聚类分析、无监督学习
文本挖掘与情感分析问题
- 例子：海量新闻主要讨论哪些主题？能否识别文本情感倾向？
- 对应方法：文本挖掘、主题模型、情感分析

数据科学的基本方法

监督学习：从已知样本中学习规律

回归问题：当输出变量是连续数值时，例如根据房屋面积、地段、楼层等变量预测房价
分类问题：当输出变量是离散类别时，例如判断一个客户是否违约，判断一封邮件是否为垃圾邮件
标注问题：输入往往是一个序列，输出也是一个序列，例如在自然语言处理中，对一句话中的每个词进行词性标注、命名实体识别等

无监督学习：在没有标签的情况下发现结构

聚类分析：把相似对象自动分成若干组
降维分析：把高维变量压缩为较少的综合变量
关联规则分析：发现变量之间的共现关系
主题发现：从文本中自动提取主题结构

半监督学习：利用少量标注数据和大量未标注数据

使用少量标注数据提供学习方向
使用大量未标注数据补充数据分布信息
在较低标注成本下提升模型性能

强化学习：在动态环境中学习最优决策

特别适用于动态决策、序列控制与长期收益优化问题

学习资料

课程讲稿
- 第1讲：数据科学的发展历史与研究问题
- 第2讲：数据科学的基本方法

智能助教

为提升学习体验，本课程配备 Scholar Hero 智能助教，支持课堂演示、代码示例和问答反馈。

联系我们

如果您对课程有任何问题或建议，欢迎联系课程负责人：

王小宁副教授
邮箱：sdwangxiaoning@cuc.edu.cn
办公地点：中国传媒大学 46-303

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
CUCbeamer2025		CUCbeamer2025
.DS_Store		.DS_Store
LICENSE		LICENSE
README.md		README.md
ch10-无监督学习20250605.pdf		ch10-无监督学习20250605.pdf
ch11-推荐算法---20250612.pdf		ch11-推荐算法---20250612.pdf
ch12-文本挖掘-20250612.pdf		ch12-文本挖掘-20250612.pdf
ch13-社交网络分析-20250619.pdf		ch13-社交网络分析-20250619.pdf
ch14-重抽样方法-250619.pdf		ch14-重抽样方法-250619.pdf
ch5-20250407-数据可视化.pdf		ch5-20250407-数据可视化.pdf
ch6-回归分析-0414.pdf		ch6-回归分析-0414.pdf
ch7-普通分类Logistic-0509.pdf		ch7-普通分类Logistic-0509.pdf
ch8-20250523-决策树和集成学习.pdf		ch8-20250523-决策树和集成学习.pdf
ch9-支持向量机---20250525.pdf		ch9-支持向量机---20250525.pdf
chap1-introduction.md		chap1-introduction.md
chap1-数据科学导论导读.pdf		chap1-数据科学导论导读.pdf
chap2-datascience.md		chap2-datascience.md
chap2-数据科学的主要方法.pdf		chap2-数据科学的主要方法.pdf
chap3-统计学习三要素-250324.pdf		chap3-统计学习三要素-250324.pdf
chap4-数据分析基础清洗转化250331.pdf		chap4-数据分析基础清洗转化250331.pdf
数据科学导论课前导读24-25春季.pdf		数据科学导论课前导读24-25春季.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

数据科学导论

中国传媒大学 2026 春季课程

课程定位

课程目标

课程大纲

第一部分：数据科学基础

第二部分：统计学习方法

第三部分：高级主题

数据科学的发展历史

数据科学研究的主要问题

数据科学的基本方法

监督学习：从已知样本中学习规律

无监督学习：在没有标签的情况下发现结构

半监督学习：利用少量标注数据和大量未标注数据

强化学习：在动态环境中学习最优决策

学习资料

智能助教

联系我们

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

数据科学导论

中国传媒大学 2026 春季课程

课程定位

课程目标

课程大纲

第一部分：数据科学基础

第二部分：统计学习方法

第三部分：高级主题

数据科学的发展历史

数据科学研究的主要问题

数据科学的基本方法

监督学习：从已知样本中学习规律

无监督学习：在没有标签的情况下发现结构

半监督学习：利用少量标注数据和大量未标注数据

强化学习：在动态环境中学习最优决策

学习资料

智能助教

联系我们

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages