《数据科学导论》课程定位培养学生学习数据科学分析的基本原理,掌握数据分析的基本思路、常见的分析方法以及应用场景,学会数据分析及可视化的方法,相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计,培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。
- 理解数据科学的基本概念和方法论
- 掌握数据收集、清洗、分析和可视化的基本技能
- 了解机器学习和统计学习的核心算法
- 培养利用数据科学方法解决实际问题的能力
- 建立数据驱动的思维方式
- 数据科学概述
- 数据收集与预处理
- 数据可视化基础
- 描述性统计分析
- 线性回归与分类
- 重抽样方法
- 模型选择和正则化
- 决策树与组合学习
- 支持向量机
- 神经网络基础
- 无监督学习
- 推荐算法
- 文本挖掘
- 社交网络分析
- 并行与分布式计算
-
统计学阶段:数据科学的起点
- 古典统计学时期:主要服务于国家治理和社会管理
- 近代统计学时期:概率论逐渐进入统计学
- 现代统计学时期:Fisher 等学者推动实验设计、方差分析、推断统计的发展
-
高维数据阶段:方法创新的推动期
- 随着生物医学和计算机技术发展,出现了"变量多、样本少"的高维数据问题
- 传统统计方法面临挑战,催生了变量选择与正则化等新方法
-
数据挖掘阶段:从分析走向知识发现
- 20 世纪 90 年代后,互联网和数据库快速发展,海量数据不断积累
- 数据挖掘兴起,强调从大量复杂数据中发现潜在模式和有价值知识
-
机器学习与大数据阶段
- 机器学习关注让计算机从数据中自动学习规律并进行预测
- 2011 年后,"大数据时代"概念流行
-
数据科学阶段:综合性交叉学科形成
- 数据科学比"大数据"更广,是一个综合性概念
- 融合了统计学、机器学习、数据挖掘、数据可视化、高性能计算、业务理解
-
关系发现与预测问题
- 例子:家庭收入与消费支出之间是否存在数量关系?已知收入,能否预测消费?
- 对应方法:回归分析、预测建模
-
分类与风险识别问题
- 例子:消费贷客户是否会违约?员工是否会离职?
- 对应方法:分类模型、风险评分、预警模型
-
影响因素识别问题
- 例子:哪些临床指标会影响某项健康指标?
- 对应方法:变量筛选、解释性建模、因果分析初步探索
-
关联规则与推荐问题
- 例子:买了面包的人是否更容易买牛奶?如何根据用户历史行为推荐商品?
- 对应方法:关联规则分析、推荐系统
-
降维与综合评价问题
- 例子:多个犯罪率指标能否压缩成少数几个综合变量?如何构建综合指数对地区进行评价?
- 对应方法:主成分分析、因子分析等
-
聚类与细分问题
- 例子:如何根据多个特征把样本自动分成几类?例如客户分群、用户画像、市场细分
- 对应方法:聚类分析、无监督学习
-
文本挖掘与情感分析问题
- 例子:海量新闻主要讨论哪些主题?能否识别文本情感倾向?
- 对应方法:文本挖掘、主题模型、情感分析
- 回归问题:当输出变量是连续数值时,例如根据房屋面积、地段、楼层等变量预测房价
- 分类问题:当输出变量是离散类别时,例如判断一个客户是否违约,判断一封邮件是否为垃圾邮件
- 标注问题:输入往往是一个序列,输出也是一个序列,例如在自然语言处理中,对一句话中的每个词进行词性标注、命名实体识别等
- 聚类分析:把相似对象自动分成若干组
- 降维分析:把高维变量压缩为较少的综合变量
- 关联规则分析:发现变量之间的共现关系
- 主题发现:从文本中自动提取主题结构
- 使用少量标注数据提供学习方向
- 使用大量未标注数据补充数据分布信息
- 在较低标注成本下提升模型性能
- 特别适用于动态决策、序列控制与长期收益优化问题
为提升学习体验,本课程配备 Scholar Hero 智能助教,支持课堂演示、代码示例和问答反馈。
如果您对课程有任何问题或建议,欢迎联系课程负责人:
- 王小宁 副教授
- 邮箱:sdwangxiaoning@cuc.edu.cn
- 办公地点:中国传媒大学 46-303