- Data Engineering
Database Concept
DBMS - ER Model & DBMS - Relational Model
SQL
Unix/Linux Shell
AWS part
Data engineering pipeline
- Data engineering pipeline 1
学生通过on-line research找到可能存在于company, department, employee以及其他entities之间的联系 ,基于research结果,亲自设计和实现ER图 , 基于ER图设计数据库以及各个表的详细内容 。提高学生自学能力,深入了解ER图,完成ER图到数据库的实现。
- Data engineering pipeline 2
学生亲自搭建Snowflake数据库环境,根据源数据设计数据库以及各个表的详细内容,载入数据,并且根据需求完成相应的查询 ,让学生更加深入了解数据库,并且熟练掌握SQL。
- Data engineering pipeline 3
按照商业要求构建数据仓库,建立dimension和fact表 ,根据所学ETL知识,设计实现数据处理流程,目的是让学生深入了解data pipeline的相关知识。
- Data engineering pipeline 4
根据所提供数据集,构建表结构,并且完成简单的数据可视化任务,目的是让学习回顾数据仓库的知识,并且学习使用数据可视化工具,实现简单的数据分析。
- Data Analysis
Evolving production data
Methodology
Data preparation, exploration
Deliver Value to Business - communication
Data modeling and manipulation
- Data Analysis pipeline 5
通过旅游航空业数据,分析和预测,航班晚点可能性,各大城市旅客趋势 ,本练习侧重于在数据集中信息predicitive power有限的情况下,如何扩展数据,推导数据,获得相关第三方数据,这是在生产环境中经常遇到的情况 。学员将能获取实战经验同时,获得transferrable skills以及对应复杂项目和不清晰需求的信息,用于工作实践中。
- Data Science
Data wrangling with Python
Statistical modelling for data analysis
Exploratory data analysis (EDA)
Machine Learning
- Data Science pipeline 6
此项目的目标是通过分析和处理零售行业客户的订单和销售数据,来预测客户下次最可能买入的商品。这个项目非常全面的涵盖了一个数据科学项目最实用的内容 。从需求分析做起,一直到数据处理,数据建模,机器建模和可视化,通过这个项目学生基本上可以学习到如何去构建,分析并且处理一个商业中常见到的问题:预测 。此项目包含了不止一个数据文件,建模的过程中也涉及到了很多的数据分析和处理,这样也考验了学生如何更好的处理在真实的商业环境中所遇到的问题。 学生们在项目中所汲取的经验可以直接被应用到工作中。
- Support vector machine
Unsupervised learning
Gradient boosting model deep dive (XGBoost)
Project case study