稀疏表示与字典学习

稀疏表示

文档分类时,每个文档当作一个样本,文档中的每个词作为一个特征,这往往会得到很高维的矩阵,而且矩阵中每一行都有大量的零元素,且每行零元素出现的列分布不同,具有这样的稀疏表达形式的矩阵,对学习任务来说是有好处的(可以当做线性可分问题处理)。

字典学习

如果将稠密的数据集转化成稀疏表示形式,使得数据集“恰当稀疏”,从而享受稀疏性的好处。那么问题来了,如何实现这种转化呢?
在上面的文本分类中提到的矩阵,常常是高维的,过度稀疏的,如果我们借鉴下“字典”的结构,将字的特征维度根据字典转化成合适的稀疏特征表示形式,就可以简化学习任务,模型复杂度大大降低,这样的过程称为“字典学习”。字典学习形式如下,spase
,样本xi通过字典矩阵B得到的稀疏表示$ \alpha $i。我们可以通过设置字典的维度,从而控制稀疏程度。
求解过程有很多,常用的有KSVD等

压缩感知

我们常常希望根据部分信息来恢复全部信息,如,数据通信中要将数字信号还原成模拟信号,部分用户对电影的评价数据等,如何精确的重构出这样的信息呢?
针对这类问题,压缩感知提供了新的思路。
压缩感知关注的是如何利用数据本身的所具有的稀疏性,从部分观测样本中恢复原来缺失的信息。主要涉及两个过程,稀疏表示矩阵补全。能够通过压缩感知技术恢复补全信息的前提条件之一是原始数据(部分信息)有稀疏表示。

应用

人脸识别的鲁棒主成分分析、基于矩阵补全的协同过滤……

[1]. 周志华.《机器学习》

分享