Skip to content

xiaoningwang/IntroductionofDataScience

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

数据科学导论

中国传媒大学 2026 春季课程

课程定位

《数据科学导论》课程定位培养学生学习数据科学分析的基本原理,掌握数据分析的基本思路、常见的分析方法以及应用场景,学会数据分析及可视化的方法,相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计,培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。

课程目标

  • 理解数据科学的基本概念和方法论
  • 掌握数据收集、清洗、分析和可视化的基本技能
  • 了解机器学习和统计学习的核心算法
  • 培养利用数据科学方法解决实际问题的能力
  • 建立数据驱动的思维方式

课程大纲

第一部分:数据科学基础

  • 数据科学概述
  • 数据收集与预处理
  • 数据可视化基础
  • 描述性统计分析

第二部分:统计学习方法

  • 线性回归与分类
  • 重抽样方法
  • 模型选择和正则化
  • 决策树与组合学习

第三部分:高级主题

  • 支持向量机
  • 神经网络基础
  • 无监督学习
  • 推荐算法
  • 文本挖掘
  • 社交网络分析
  • 并行与分布式计算

数据科学的发展历史

  1. 统计学阶段:数据科学的起点

    • 古典统计学时期:主要服务于国家治理和社会管理
    • 近代统计学时期:概率论逐渐进入统计学
    • 现代统计学时期:Fisher 等学者推动实验设计、方差分析、推断统计的发展
  2. 高维数据阶段:方法创新的推动期

    • 随着生物医学和计算机技术发展,出现了"变量多、样本少"的高维数据问题
    • 传统统计方法面临挑战,催生了变量选择与正则化等新方法
  3. 数据挖掘阶段:从分析走向知识发现

    • 20 世纪 90 年代后,互联网和数据库快速发展,海量数据不断积累
    • 数据挖掘兴起,强调从大量复杂数据中发现潜在模式和有价值知识
  4. 机器学习与大数据阶段

    • 机器学习关注让计算机从数据中自动学习规律并进行预测
    • 2011 年后,"大数据时代"概念流行
  5. 数据科学阶段:综合性交叉学科形成

    • 数据科学比"大数据"更广,是一个综合性概念
    • 融合了统计学、机器学习、数据挖掘、数据可视化、高性能计算、业务理解

数据科学研究的主要问题

  1. 关系发现与预测问题

    • 例子:家庭收入与消费支出之间是否存在数量关系?已知收入,能否预测消费?
    • 对应方法:回归分析、预测建模
  2. 分类与风险识别问题

    • 例子:消费贷客户是否会违约?员工是否会离职?
    • 对应方法:分类模型、风险评分、预警模型
  3. 影响因素识别问题

    • 例子:哪些临床指标会影响某项健康指标?
    • 对应方法:变量筛选、解释性建模、因果分析初步探索
  4. 关联规则与推荐问题

    • 例子:买了面包的人是否更容易买牛奶?如何根据用户历史行为推荐商品?
    • 对应方法:关联规则分析、推荐系统
  5. 降维与综合评价问题

    • 例子:多个犯罪率指标能否压缩成少数几个综合变量?如何构建综合指数对地区进行评价?
    • 对应方法:主成分分析、因子分析等
  6. 聚类与细分问题

    • 例子:如何根据多个特征把样本自动分成几类?例如客户分群、用户画像、市场细分
    • 对应方法:聚类分析、无监督学习
  7. 文本挖掘与情感分析问题

    • 例子:海量新闻主要讨论哪些主题?能否识别文本情感倾向?
    • 对应方法:文本挖掘、主题模型、情感分析

数据科学的基本方法

监督学习:从已知样本中学习规律

  • 回归问题:当输出变量是连续数值时,例如根据房屋面积、地段、楼层等变量预测房价
  • 分类问题:当输出变量是离散类别时,例如判断一个客户是否违约,判断一封邮件是否为垃圾邮件
  • 标注问题:输入往往是一个序列,输出也是一个序列,例如在自然语言处理中,对一句话中的每个词进行词性标注、命名实体识别等

无监督学习:在没有标签的情况下发现结构

  • 聚类分析:把相似对象自动分成若干组
  • 降维分析:把高维变量压缩为较少的综合变量
  • 关联规则分析:发现变量之间的共现关系
  • 主题发现:从文本中自动提取主题结构

半监督学习:利用少量标注数据和大量未标注数据

  • 使用少量标注数据提供学习方向
  • 使用大量未标注数据补充数据分布信息
  • 在较低标注成本下提升模型性能

强化学习:在动态环境中学习最优决策

  • 特别适用于动态决策、序列控制与长期收益优化问题

学习资料

智能助教

为提升学习体验,本课程配备 Scholar Hero 智能助教,支持课堂演示、代码示例和问答反馈。

联系我们

如果您对课程有任何问题或建议,欢迎联系课程负责人:

About

The Course of Data Science at CUC

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages