1 概览

  • 数据分析定义:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

  • 思维导图

  • 数据分析完整流程:

    start=>start: 明确分析目的
    fetch=>operation: 数据获取
    pre_oper=>operation: 数据预处理(清洗/转换)
    analyze=>operation: 数据分析
    show=>operation: 数据展现(报表、图表)
    report=>end: 决策
    start(right)->fetch(right)->pre_oper->analyze->show(right)->report
    

    image-20210507160443358

  • 主流数据分析语言:python以及相关的数据分析库[numpy]、pandas等。

  • 相关领域:数据挖掘、深度学习(机器学习)、人工智能等

  • 职业发展:算法工程师、数据分析员(师)、数据产品经理、ETL工程师、数据挖掘工程师;数据科学家等

准备工作

​ 课程使用anaconda作为实验环境。Anaconda是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。先下载Anaconda安装包。推荐跟随Anaconda下载页面的Windows安装指导,;确认设置是否正确方法:打开命令行窗口(cmd.exe),输入python以打开Python解释器。可以看到类似下面的Anaconda版本的输出:

C:\Users\wesm>python
Python 3.5.2 |Anaconda 4.1.1 (64-bit)| (default, Jul  5 2016, 11:41:13)
[MSC v.1900 64 bit (AMD64)] on win32
>>>

要退出shell,按Ctrl-D(Linux或macOS上),Ctrl-Z(Windows上),或输入命令exit(),再按Enter。

​ 我们主要使用jupyter-notebook编写代码。

jupyter notebook起始目录修改方法

  1. 打开anaconda SHELL,输入命令jupyter notebook --generate-config,将生成 jupyter_notebook_config.py文件
  2. 打开上一步生成的文件:C:\Users\liudx\.jupyter\jupyter_notebook_config.py,找到c.NotebookApp.notebook_dir 前面的“#”符号(#表示注释的意思),修改为起始目录
  3. **重启jupyter notebook **

3 resources

1. 公开数据源#参考#

UCI:加州大学欧文分校开放的经典数据集,被很多机器学习实验室采用。经典且古老的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。 国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。 CEIC:超过128个国家的经济数据,能够精确查找GDP、CPI、进出口以及国际利率等深度数据。 中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息。 政务数据网站:现在各个省都在很大程度上地开放政务数据,比如北京、上海、广东、贵州等等,都有专门的数据开放网站,搜索比如“北京政务数据开放”。

2.学习资源