slides/2013-02-08-Preprocessing.html

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
               "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">
<head>
<title>2013-02-08-Preprocessing</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<meta name="title" content="2013-02-08-Preprocessing"/>
<meta name="generator" content="Org-mode"/>
<meta name="generated" content="2013-02-08 13:49:51 PST"/>
<meta name="author" content="Jim Blomo"/>
<meta name="description" content=""/>
<meta name="keywords" content=""/>

<link rel="stylesheet" type="text/css" href="production/common.css" />
<link rel="stylesheet" type="text/css" href="production/screen.css" media="screen" />
<link rel="stylesheet" type="text/css" href="production/projection.css" media="projection" />
<link rel="stylesheet" type="text/css" href="production/color-blue.css" media="projection" />
<link rel="stylesheet" type="text/css" href="production/presenter.css" media="presenter" />
<link href='http://fonts.googleapis.com/css?family=Lobster+Two:700|Yanone+Kaffeesatz:700|Open+Sans' rel='stylesheet' type='text/css'>


</head>
<body>

<div id="preamble">

</div>

<div id="content">
<h1 class="title">2013-02-08-Preprocessing</h1>


<div id="table-of-contents">
<h2>Table of Contents</h2>
<div id="text-table-of-contents">
<ul>
<li><a href="#sec-1">1 Preprocessing</a></li>
<li><a href="#sec-2">2 Real World is Dirty</a>
<ul>
<li><a href="#sec-2-1">2.1 Types of dirty</a></li>
</ul>
</li>
<li><a href="#sec-3">3 Causes of Problems</a>
<ul>
<li><a href="#sec-3-1">3.1 Problems</a></li>
<li><a href="#sec-3-2">3.2 Inconsistent Different Sources</a></li>
<li><a href="#sec-3-3">3.3 Business names</a></li>
</ul>
</li>
<li><a href="#sec-4">4 Preprocessing</a>
<ul>
<li><a href="#sec-4-1">4.1 Flu Trend Problems (Questions)</a></li>
</ul>
</li>
<li><a href="#sec-5">5 Missing Values</a>
<ul>
<li><a href="#sec-5-1">5.1 What to do?</a></li>
</ul>
</li>
<li><a href="#sec-6">6 Fill Missing Values</a>
<ul>
<li><a href="#sec-6-1">6.1 Details</a></li>
</ul>
</li>
<li><a href="#sec-7">7 Normalization</a>
<ul>
<li><a href="#sec-7-1">7.1 Context, Comparison</a></li>
</ul>
</li>
<li><a href="#sec-8">8 Min-max</a>
<ul>
<li><a href="#sec-8-1">8.1 New Range</a></li>
</ul>
</li>
<li><a href="#sec-9">9 Z-score</a>
<ul>
<li><a href="#sec-9-1">9.1 Uses</a></li>
</ul>
</li>
<li><a href="#sec-10">10 Comparison</a>
<ul>
<li><a href="#sec-10-1">10.1 Min-max vs Z-score</a></li>
</ul>
</li>
<li><a href="#sec-11">11 Removing Noise</a>
<ul>
<li><a href="#sec-11-1">11.1 Monitoring Problem</a></li>
<li><a href="#sec-11-2">11.2 Trade-offs</a>
<ul>
<li><a href="#sec-11-2-1">11.2.1 Trade-offs again</a></li>
</ul></li>
</ul>
</li>
<li><a href="#sec-12">12 Data integration</a>
<ul>
<li><a href="#sec-12-1">12.1 Yelp Menu Data</a></li>
</ul>
</li>
<li><a href="#sec-13">13 Other measures of "close"</a>
<ul>
<li><a href="#sec-13-1">13.1 Correlation</a></li>
</ul>
</li>
<li><a href="#sec-14">14 Χ<sup>2</sup> Correlation Test</a>
<ul>
<li><a href="#sec-14-1">14.1 Motivation</a></li>
</ul>
</li>
<li><a href="#sec-15">15 Covariance &amp; Correlation</a>
<ul>
<li><a href="#sec-15-1">15.1 Use in industry</a></li>
</ul>
</li>
<li><a href="#sec-16">16 Data Reduction</a>
<ul>
<li><a href="#sec-16-1">16.1 Deep Dive</a></li>
</ul>
</li>
<li><a href="#sec-17">17 Subset Selection</a>
<ul>
<li><a href="#sec-17-1">17.1 Simple to Sophisticated</a></li>
</ul>
</li>
<li><a href="#sec-18">18 Principal Component Analysis</a>
<ul>
<li><a href="#sec-18-1">18.1 Higher dimensions</a></li>
</ul>
</li>
<li><a href="#sec-19">19 Netflix and PCA</a>
<ul>
<li><a href="#sec-19-1">19.1 Summarize in discovered dimensions</a></li>
</ul>
</li>
</ul>
</div>
</div>

<div id="outline-container-1" class="outline-2">
<h2 id="sec-1"><span class="section-number-2">1</span> Preprocessing &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-1">


</div>

</div>

<div id="outline-container-2" class="outline-2">
<h2 id="sec-2"><span class="section-number-2">2</span> Real World is Dirty &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-2">

<dl>
<dt>Incomplete</dt><dd>missing timestamps for actions
</dd>
<dt>Noisy</dt><dd>salary = -10
</dd>
<dt>Inconsistent</dt><dd>age: 42, birthday: 1997-03-07
</dd>
</dl>


</div>

<div id="outline-container-2-1" class="outline-3">
<h3 id="sec-2-1"><span class="section-number-3">2.1</span> Types of dirty &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-2-1">

<dl>
<dt>Incomplete</dt><dd>lacking some attribute values, containing only aggregate
     data. Eg. We often regret not including timestamps on different actions
     like UFCing, instead of tracking total votes (aggregation)
</dd>
<dt>Noisy</dt><dd>Containing errors, like impossible salary data, or decimals in the
     wrong place
</dd>
<dt>Inconsistent</dt><dd>If there's every two fields that depend on each other, in a
     large dataset you'll find them disagreeing. Errors ofen come from failures:
     processes failing halfway into updating
</dd>
</dl>


</div>
</div>

</div>

<div id="outline-container-3" class="outline-2">
<h2 id="sec-3"><span class="section-number-2">3</span> Causes of Problems &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-3">

<ul>
<li>Humans
</li>
<li>Software
</li>
<li>Hardware
</li>
</ul>


</div>

<div id="outline-container-3-1" class="outline-3">
<h3 id="sec-3-1"><span class="section-number-3">3.1</span> Problems &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-3-1">

<ul>
<li>Berkeley experiment to measure temperature across campus
</li>
<li>Turned out average on campus much warmer than external weather services
     predicted
</li>
<li>But sample data looked in line with predictions
</li>
<li>Problem: one monitoring station right next to air conditioning unit!
</li>
<li>Hardware failure rare, but with large numbers of machines, probable.  Eg.
     RAM can suffer ~1 bit/hour/gigabyte (ECC can help)
</li>
</ul>


</div>

</div>

<div id="outline-container-3-2" class="outline-3">
<h3 id="sec-3-2"><span class="section-number-3">3.2</span> Inconsistent Different Sources &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h3>
<div class="outline-text-3" id="text-3-2">

<ul>
<li>Great value in combining data sources
</li>
<li>Challenge is merging them together, removing duplicates
</li>
<li>Example: Business names
</li>
</ul>

</div>

</div>

<div id="outline-container-3-3" class="outline-3">
<h3 id="sec-3-3"><span class="section-number-3">3.3</span> Business names &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-3-3">

<ul>
<li>Starbucks vs. Starbucks Coffee Shop
</li>
<li>Buck's vs Bucks
</li>
<li>Trying to use address? Stackbucks vs. Starbucks across the street
</li>
<li>Best strategy here is to use DM/ML techniques on the <b>combination</b> of
     features to determine likelihood of match. We'll discuss specific
     algorithms later in the course
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-4" class="outline-2">
<h2 id="sec-4"><span class="section-number-2">4</span> Preprocessing &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-4">

<dl>
<dt>Cleaning</dt><dd>fill missing values, smooth noisy data, identify or remove
    outliers, resolve inconsistencies
</dd>
<dt>Integration</dt><dd>merging data from multiple sources
</dd>
<dt>Reduction</dt><dd>obtain a smaller data set that can sufficiently answer
    important questions
</dd>
<dt>Transformation</dt><dd>change data to a form that is easier to mine or analyze
</dd>
</dl>


</div>

<div id="outline-container-4-1" class="outline-3">
<h3 id="sec-4-1"><span class="section-number-3">4.1</span> Flu Trend Problems (Questions) &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-4-1">

<ul>
<li>We have millisecond search resolution, but will only be plotting on a per day basis
</li>
<li>We have the exact text of each query, but just care if it is about the flu or not
</li>
<li>Flu Trends, we sometimes see out of control search bots doing 100,000s of searches per day
</li>
<li>Mobile phone searches and web searches hit different machines, software, logs
</li>
<li>We have IPs in the logs, but will by plotting against geographical areas
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-5" class="outline-2">
<h2 id="sec-5"><span class="section-number-2">5</span> Missing Values &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="two_col">two_col</span></span></h2>
<div class="outline-text-2" id="text-5">

<table border="2" cellspacing="0" cellpadding="6" rules="groups" frame="hsides">
<caption></caption>
<colgroup><col class="left" /><col class="left" />
</colgroup>
<tbody>
<tr><td class="left">Person</td><td class="left">Height</td></tr>
<tr><td class="left">Jim</td><td class="left">6'0</td></tr>
<tr><td class="left">Ashley</td><td class="left">-</td></tr>
<tr><td class="left">Sam</td><td class="left">5'11</td></tr>
<tr><td class="left">Alice</td><td class="left">5'9</td></tr>
<tr><td class="left">Kate</td><td class="left">-</td></tr>
</tbody>
</table>


<p>
<img src="img/tallest-shortest-man.jpg"  alt="img/tallest-shortest-man.jpg" />
</p>
</div>

<div id="outline-container-5-1" class="outline-3">
<h3 id="sec-5-1"><span class="section-number-3">5.1</span> What to do? &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-5-1">

<ul>
<li>(Heights are made up)
</li>
<li>We want to get an average class height
</li>
<li>Q: What to do with missing rows?
</li>
<li>ignore, fill, constant, average, average wrt gender
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-6" class="outline-2">
<h2 id="sec-6"><span class="section-number-2">6</span> Fill Missing Values &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="animate">animate</span></span></h2>
<div class="outline-text-2" id="text-6">

<ul>
<li>Ignore the record
</li>
<li>Find value manually
</li>
<li>Global constant
</li>
<li>Average
</li>
<li>Average with respect to class
</li>
<li>"Most probable"
</li>
</ul>


</div>

<div id="outline-container-6-1" class="outline-3">
<h3 id="sec-6-1"><span class="section-number-3">6.1</span> Details &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-6-1">

<dl>
<dt>Trade-offs</dt><dd>core to engineering
</dd>
<dt>Ignore</dt><dd>simply drop from data set. Hope there are not too many to affect
     answer. Drawbacks? When missing values are all same class (skew data)
</dd>
<dt>Find value manually</dt><dd>Even for a small class, might be difficult. Get
    ruler, measure them. For historical data, impossible.
</dd>
<dt>Global constant</dt><dd>replace with "N/A" or "6 foot". Can skew data, or cause
    data to pop in other analysis (all grouped together)
</dd>
<dt>Average</dt><dd>Mean or median.  Either one has potential problems.
</dd>
<dt>Average with respect to class</dt><dd>gender. Average female/male height to fill
    in values
</dd>
<dt>"Most probable"</dt><dd>Think of as another step from avg -&gt; class avg.  Now
    throw in other details: age, family history, shoe size. Then weight
    depending on how much those factors are correlated.  Pretty soon you have a
    regression or Bayesian model, which will cover later
</dd>
</dl>


</div>
</div>

</div>

<div id="outline-container-7" class="outline-2">
<h2 id="sec-7"><span class="section-number-2">7</span> Normalization &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-7">

<ul>
<li>Type of data transformation to make reasoning and comparison easier
</li>
<li>Is 6' tall?
</li>
<li>Coefficients on attributes in regressions understandable
</li>
</ul>


</div>

<div id="outline-container-7-1" class="outline-3">
<h3 id="sec-7-1"><span class="section-number-3">7.1</span> Context, Comparison &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-7-1">

<ul>
<li>6' Might be tall for this class, but not on a basketball team
</li>
<li>How to know when a data point "average" or towards the top of a range?
</li>
<li>For our housing model, we wanted to use sq. footage and # of bedrooms. But
     the sq. footage number is huge compared to bedrooms.  If we didn't
     normalize, a formula for determine house price might seem to indicate that
     # of bedrooms was way more important
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-8" class="outline-2">
<h2 id="sec-8"><span class="section-number-2">8</span> Min-max &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-8">

<p><img src="img/min-max.gif"  alt="img/min-max.gif" />
</p>
</div>

<div id="outline-container-8-1" class="outline-3">
<h3 id="sec-8-1"><span class="section-number-3">8.1</span> New Range &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-8-1">

<ul>
<li>Typically new range is
<ul>
<li>[0-1] (thought of as %)
</li>
<li>[-1-1] (though of as bad-&gt;good
</li>
</ul>

</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-9" class="outline-2">
<h2 id="sec-9"><span class="section-number-2">9</span> Z-score &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-9">

<p><img src="img/z-score.gif"  alt="img/z-score.gif" />
</p>
</div>

<div id="outline-container-9-1" class="outline-3">
<h3 id="sec-9-1"><span class="section-number-3">9.1</span> Uses &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-9-1">

<ul>
<li>When you want a relative measure of deviation
</li>
<li>When you have a distribution estimate, but are unsure of absolute min-max
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-10" class="outline-2">
<h2 id="sec-10"><span class="section-number-2">10</span> Comparison &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-10">

<p><img src="img/outliers.png"  alt="img/outliers.png" />
<img src="img/outliers-minmax-zscore.png"  alt="img/outliers-minmax-zscore.png" />
</p>
</div>

<div id="outline-container-10-1" class="outline-3">
<h3 id="sec-10-1"><span class="section-number-3">10.1</span> Min-max vs Z-score &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-10-1">

<ul>
<li>Min-max: Known range
</li>
<li>Z-score: more expressive range
</li>
<li>Min-max: requires knowing min-max
</li>
<li>Z-score: can estimate with sampling or informed guess
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-11" class="outline-2">
<h2 id="sec-11"><span class="section-number-2">11</span> Removing Noise &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-11">

<dl>
<dt>Binning</dt><dd>create B bins &lt;&lt; N data samples, use aggregate statistic of bin
    for value
</dd>
<dt>Regression</dt><dd>fit data to a function, use function value
</dd>
<dt>Outlier analysis</dt><dd>find outlying points, understand and/or ignore them
</dd>
</dl>


</div>

<div id="outline-container-11-1" class="outline-3">
<h3 id="sec-11-1"><span class="section-number-3">11.1</span> Monitoring Problem &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-11-1">

<ul>
<li>For the problem encountered in temperature monitoring, which makes the most
     sense?
</li>
</ul>


</div>

</div>

<div id="outline-container-11-2" class="outline-3">
<h3 id="sec-11-2"><span class="section-number-3">11.2</span> Trade-offs &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h3>
<div class="outline-text-3" id="text-11-2">

<dl>
<dt>Binning</dt><dd>Simple way to remove outliers, but difficult to pick buckets
     correctly
</dd>
<dt>Regression</dt><dd>If one metric is a direct function of another, what extra
     information does the value provide?
</dd>
<dt>Outlier analysis</dt><dd>Manual process of understanding outliers, ignoring them
     can obscure some analysis (eg. income disparity)
</dd>
</dl>


</div>

<div id="outline-container-11-2-1" class="outline-4">
<h4 id="sec-11-2-1"><span class="section-number-4">11.2.1</span> Trade-offs again &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h4>
<div class="outline-text-4" id="text-11-2-1">

<ul>
<li>Remember: this class is exposing you to potential tools, up to you to be
      asking the right questions, selecting the appropriate algorithms,
      interpreting results
</li>
</ul>


</div>
</div>
</div>

</div>

<div id="outline-container-12" class="outline-2">
<h2 id="sec-12"><span class="section-number-2">12</span> Data integration &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-12">

<ul>
<li>Merging two data sources
</li>
<li>Problem: uniquely identify a concept in both sources
</li>
<li>Find data points that are very "close" to each other, call them the same
    with some probability
</li>
<li>Example: <a href="http://www.yelp.com/menu/tartine-bakery-san-francisco">Yelp Menu Data</a>
</li>
</ul>


</div>

<div id="outline-container-12-1" class="outline-3">
<h3 id="sec-12-1"><span class="section-number-3">12.1</span> Yelp Menu Data &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-12-1">

<ul>
<li>Recently launched menu data
</li>
<li>Takes data about the restaurant menu, find reviews &amp; pictures referring to
     the menu item
</li>
<li>Joins them together
</li>
<li>Many different metrics for "close": remember them?
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-13" class="outline-2">
<h2 id="sec-13"><span class="section-number-2">13</span> Other measures of "close" &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-13">

<p>Are <code>A</code> and <code>B</code> close?
</p><table border="2" cellspacing="0" cellpadding="6" rules="groups" frame="hsides">
<caption></caption>
<colgroup><col class="right" /><col class="right" />
</colgroup>
<tbody>
<tr><td class="right">A</td><td class="right">B</td></tr>
<tr><td class="right">2</td><td class="right">60</td></tr>
<tr><td class="right">5</td><td class="right">150</td></tr>
<tr><td class="right">6</td><td class="right">180</td></tr>
<tr><td class="right">10</td><td class="right">300</td></tr>
<tr><td class="right">13</td><td class="right">390</td></tr>
</tbody>
</table>


</div>

<div id="outline-container-13-1" class="outline-3">
<h3 id="sec-13-1"><span class="section-number-3">13.1</span> Correlation &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-13-1">

<ul>
<li>Imagine <code>A</code> and <code>B</code> have several different dimensions, maybe things like
    length, height, width, radius
</li>
<li>Are they similar?
</li>
<li>On one hand no: clearly different order of magnitude
</li>
<li>Another way to think about similarity is correlation
</li>
<li>All of <code>B</code> dimensions are 30x of <code>A</code>
</li>
<li>Maybe just using different units!
</li>
<li>If I plotted <code>A</code> and <code>B</code> and x,y, what would the result look like?
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-14" class="outline-2">
<h2 id="sec-14"><span class="section-number-2">14</span> Χ<sup>2</sup> Correlation Test &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-14">

<p>  <img src="img/correlation.png"  alt="img/correlation.png" />
  <img src="img/chiequation.jpg"  alt="img/chiequation.jpg" />
</p>
</div>

<div id="outline-container-14-1" class="outline-3">
<h3 id="sec-14-1"><span class="section-number-3">14.1</span> Motivation &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-14-1">

<ul>
<li>Answer: a straight line
</li>
<li>So a correlation coefficient gives a sense of how closely <b>linearly</b>
     related two data sets are
</li>
<li>Note, besides positive &amp; negative, the slop does not affect the correlation
     score, just how well fit the data is
</li>
<li>Also note I said linear: patterns may still be exhibited, but they are not
     linearly related, eg 30x
</li>
<li>Details of test are in book, you are expected to understand it
</li>
<li>Motivation: how different are the observed values from the expected?
</li>
<li>Expected is calculated using probability with the assumptions that the sets
     are <b>independent</b>
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-15" class="outline-2">
<h2 id="sec-15"><span class="section-number-2">15</span> Covariance &amp; Correlation &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-15">

<ul>
<li>Correlation is "normalized" covariance
</li>
<li>Covariance describes the degree to which two data sets track each other in
    units of of the two data sets
</li>
<li>Correlations describes the degree of similarity without units
</li>
</ul>


</div>

<div id="outline-container-15-1" class="outline-3">
<h3 id="sec-15-1"><span class="section-number-3">15.1</span> Use in industry &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-15-1">

<ul>
<li>Χ<sup>2</sup> used most commonly, handy to have an expected [0-1] range
</li>
<li>"Correlation does not imply causation"
</li>
<li>A-&gt;B, B-&gt;A, C-&gt;A,B, A-&gt;B-&gt;A&hellip;, coincidence
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-16" class="outline-2">
<h2 id="sec-16"><span class="section-number-2">16</span> Data Reduction &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span>&nbsp;<span class="two_col">two_col</span></span></h2>
<div class="outline-text-2" id="text-16">

<dl>
<dt>Dimensionality</dt><dd>remove attributes that are the same or similar to other
    attributes
</dd>
<dt>Numerosity</dt><dd>represent or aggregate the data, sometimes with precision loss
</dd>
<dt>Compression</dt><dd>generalized techniques to decrease the number of bytes needed
    to store data
</dd>
</dl>

<p><img src="img/compress-car.jpg"  alt="img/compress-car.jpg" />
</p>
</div>

<div id="outline-container-16-1" class="outline-3">
<h3 id="sec-16-1"><span class="section-number-3">16.1</span> Deep Dive &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-16-1">

<ul>
<li>We're only going to cover selected topics in these areas.
</li>
<li>When reading, make sure to understand the intuition behind the other
     techniques, but if we don't cover it in lecture, you won't need to
     calculate it in midterm
</li>
<li>Ask questions about the concepts you don't understand! That's what
     separates this class from a book :)
</li>
<li>But still potentially useful for your projects!
</li>
<li>img: <a href="http://www.flickr.com/photos/marcovdz/4520986339/sizes/o/in/photostream/">http://www.flickr.com/photos/marcovdz/4520986339/sizes/o/in/photostream/</a>
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-17" class="outline-2">
<h2 id="sec-17"><span class="section-number-2">17</span> Subset Selection &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-17">

<ul>
<li>Two many attributes?
</li>
<li><b>Ignore some</b>
</li>
<li>Tricky part: which to ignore?
</li>
<li>height x width = area
</li>
</ul>


</div>

<div id="outline-container-17-1" class="outline-3">
<h3 id="sec-17-1"><span class="section-number-3">17.1</span> Simple to Sophisticated &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-17-1">

<ul>
<li>Ignore the ones that are not helpful
</li>
<li>Ignore an attribute highly correlated with another (cm, in)
</li>
<li>Ignore an attribute that can be built from others
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-18" class="outline-2">
<h2 id="sec-18"><span class="section-number-2">18</span> Principal Component Analysis &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-18">

<p><img src="img/GaussianScatterPCA.png"  alt="img/GaussianScatterPCA.png" />
</p><ul>
<li>Map data to a locatoin along a few vectors
</li>
</ul>


</div>

<div id="outline-container-18-1" class="outline-3">
<h3 id="sec-18-1"><span class="section-number-3">18.1</span> Higher dimensions &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-18-1">

<ul>
<li>Remember, 2 dimensions might not make much sense, but becomes useful in
     higher number of dimensions
</li>
<li>These points described by two attributes, &lt;x,y&gt;
</li>
<li>What if we wanted to describe them in just 1 dimension?
</li>
<li>Pick some good vectors (in our case 1)
</li>
<li>Describe where a point is located using only those vectors
</li>
</ul>


</div>
</div>

</div>

<div id="outline-container-19" class="outline-2">
<h2 id="sec-19"><span class="section-number-2">19</span> Netflix and PCA &nbsp;&nbsp;&nbsp;<span class="tag"><span class="slide">slide</span></span></h2>
<div class="outline-text-2" id="text-19">

<ul>
<li>A user may have many preferences: Mission Impossible, Love Actually, Man
    from Nowhere, &hellip;
</li>
<li>Instead of keeping track of every preference, we can summarize
</li>
<li>Action, RomCom, Foreign
</li>
</ul>


</div>

<div id="outline-container-19-1" class="outline-3">
<h3 id="sec-19-1"><span class="section-number-3">19.1</span> Summarize in discovered dimensions &nbsp;&nbsp;&nbsp;<span class="tag"><span class="notes">notes</span></span></h3>
<div class="outline-text-3" id="text-19-1">

<ul>
<li>With 3 or more "categories", we can reconstruct the user's likely
     preferences
</li>
<li>Dimensions don't necessarily fit into human notions: probably is not an
     "foreign" dimension, but a subtle combination of other aspects
</li>
</ul>


<script type="text/javascript" src="production/org-html-slideshow.js"></script>

</div>
</div>
</div>
</div>

<div id="postamble">
<p class="date">Date: 2013-02-08 13:49:51 PST</p>
<p class="author">Author: Jim Blomo</p>
<p class="creator">Org version 7.8.02 with Emacs version 23</p>
<a href="http://validator.w3.org/check?uri=referer">Validate XHTML 1.0</a>

</div>
</body>
</html>