记录机器学习的学习历程
以电影类型分类为例,我们可以明确每部电影在风格上会同相同题材的电影相近。例如动作片之间有什么共同的特征,这个特征又和爱情片之间存在明显的差异呢?
我们可以使用电影中打斗次数和接吻次数,使用KNN算法自动划分电影题材。
KNN算法优缺点:
- 优点:精度高、对异常值不敏感、无输入数据假定。
- 缺点:计算复杂度高、空间复杂度高。
- 适用数据范围:数值型和标称型。
使用距离来表示数据之间的近邻程度,上面电影分类的例子就是使用接吻次数、打斗次数(数值)之间的距离来判断待分类电影的类型,最近
电影的分类标签(频数最高的)则判定为未知电影的分类。
介绍几种距离算法:
-
欧式距离
两个向量点xA和xB之间的距离