DataGraphs

Includes code I wrote for specific assignments

General Assignments; larger projects will be in another repo. These are from courses:
- Coursera Python Data Analysis
- Coursera Data Science Maths
- Coursera Python Data Representations
- Udacity's Data Analyst Nanodegree
- DataCamp 'Intro to SQL' course

Set Up

Local is set up as standard
Cloud9 set up

## to start up notebook
ipython notebook --ip=0.0.0.0 --port=8080 --no-browser
## use token to validate
## this is in the cloud publicly, so be careful what is in here
## to see notebook->https://instancename(topfolder)-username.c9users.io

Types of Data

XML
JSON
CSVs
WebScraped data

Regularly Used Functions

import libraries

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

read in data

df = pd.read_csv('data.csv')

rename unnamed column

df = df.loc[:, ~df.columns.str.contains('^Unnamed')]

Notes

Binomial Distribution

n!
-----
k!(n-k)!

Normalization

Normal distribution with mean and variance

Area under curve

  1
----
(2 * pi * (sigma^2))^(1/2)

SQL stuff

unique values

SELECT DISTINCT x
FROM y;

count distinct

SELECT COUNT(DISTINCT x)
FROM y;

CAUSE (IF THEN)
COALESCE
EXPLAIN (helps with showing order of operation for data processing)

Jupyter stuff

draw a random number (n) of samples from data

randomnum = np.random.choice(data, n)

calculate the mean of that sample

randomnum.mean()

calculate the variance

np.var(randomnum)

calculate standard deviation

np.std(randomnum)

for looping through and appending sample data in array

arr = []
# get a sample of 20 random draw from data
for i in range(100000): 
    # 10000 generated values, append
    sample = np.random.choice(data, 20)
    #  append the mean for each sample mean
    arr.append(sample.mean())

Visualization using Matplotlib

import matplotlib.pyplot as plt
%matplotlib inline

# plot histogram of arr
plt.hist(arr);

Concepts

Bootsrapping

Bootstrapping is sampling with replacement

Hypothesis Testing

Confidence Intervals

Bonferroni Correction

P-values

Libraries

import xml.etree.ElementTree
prettyprint
xlrd
pandas
numpy
Beautiful Soup

DataGraphs

data and graphs

Statistics
Python
Graphs, etc

Skills

SQL
R (ggplot, etc)
Python (pandas, numpy, scipy, etc)
Mongo DB

Concepts

Simpson's Paradox

Notes from

Data Science Maths
Bayesian Statistics

Name		Name	Last commit message	Last commit date
Latest commit History 47 Commits
Python_Analysis_wk1		Python_Analysis_wk1
data_science_maths_week1		data_science_maths_week1
Beatles.ipynb		Beatles.ipynb
Cancer_Data_Jupyter1.ipynb		Cancer_Data_Jupyter1.ipynb
CaseStudy1_red_and_white_wine.ipynb		CaseStudy1_red_and_white_wine.ipynb
CaseStudy1a.ipynb		CaseStudy1a.ipynb
ERCOT.ipynb		ERCOT.ipynb
Jupyter_001.ipynb		Jupyter_001.ipynb
MLR_my_solutions.ipynb		MLR_my_solutions.ipynb
MatPlotting some stuff.ipynb		MatPlotting some stuff.ipynb
Multiple Linear regression.ipynb		Multiple Linear regression.ipynb
Pandas_Plot.ipynb		Pandas_Plot.ipynb
ParsingXMLdata.ipynb		ParsingXMLdata.ipynb
README.md		README.md
Wine_CaseStudy1.ipynb		Wine_CaseStudy1.ipynb
Wine_CaseStudy1a.ipynb		Wine_CaseStudy1a.ipynb
Wine_Quality_edited_1.ipynb		Wine_Quality_edited_1.ipynb
answers.SQL		answers.SQL
answers1.sql		answers1.sql
data_science2.md		data_science2.md
notes.md		notes.md
sql_notes.md		sql_notes.md
sql_notes1.md		sql_notes1.md
sqldc.sql		sqldc.sql
sqljoins.sql		sqljoins.sql
stddev.py		stddev.py

kammitama5/DataGraphsAndDataScience

Folders and files

Latest commit

History

Repository files navigation

Includes code I wrote for specific assignments

Set Up

Types of Data

Regularly Used Functions

Notes

Normalization

SQL stuff

Jupyter stuff

Visualization using Matplotlib

Concepts

Bootsrapping

Hypothesis Testing

Confidence Intervals

Bonferroni Correction

P-values

Libraries

DataGraphs

Skills

Concepts

Notes from

About

Resources

Stars

Watchers

Forks

Languages