参数的稀疏性在machine learning,尤其是deep learning中是一个很重要的话题。故名思意,稀疏表示就是指训练出的参数是稀疏的,即包含很多的0
稀疏表示的方法
目前接触到可以进行稀疏表示的方法比较少,大部分都是从deep learning中发现的。
ReLU
神经网络的一种激活函数,可以做到稀疏表示。并不清楚原理。ReLU形式如下:
$$
f(x) = max(0,x+N(0,1))\
f(x) = log(1+e^x)
$$
ReLU的详细描述可以去看我的另一片文章。
L1
即为损失函数添加L1惩罚系数,古已有之。对于L1为什么会造成稀疏表示,有一副广为人知的图片:
简单的描述了L1为什么会导致稀疏表示。当然对于L1导致稀疏表示的数学证明,也可以去看我的文章
稀疏表示的优点
根据Bengio的Deep Sparse Rectifier Neural Networks,稀疏表示有如下优点
Information disentangling
对于density representation,input中任何一个值的改变都可能导致整个representation vector的巨大改变,而稀疏表示对于input的微小改变表现出较高的鲁棒性(个人感觉这个L2也可以做到)
Efficient variable-size representation
不同的数据所含有的信息量会有一定差异,而稀疏表示可以较大的改变激活神经元的数量。稀疏表示使得模型可以针对不同的输入较好地控制维度数量。
Linear separability
稀疏表示更可能线性可分,或者更容易被一些非线性方法分类。(我觉得这里的意思应该是稀疏表示的神经网络提取的feature更容易被分类)
Distributed but sparse
首先需要理解Distributed representation
Distributed and local representation
对于distributed representation,英文的解释如下:
Distributed representations are compact, dense and low dimensional representation, with each factor in the representation representing some distinct informative property.
我个人的理解是distributed representation中每一维的数据都表示了一定的区域信息。举个例子吧,我们有8个点,分别为[1,2,3…8],如果我们采用二进制,只需要3个feature就可以划分8个点,如果我们采用十进制,需要8个feature。二进制的表示就是一种Distributed representation
而dense distributed representation是最冗余(richest)的表示,而稀疏表示自然能大大提高效率。