Good Friday

今天是Good Friday，是一个宗教节日。从维基上抄一段过来: “耶穌受難節，是基督教信徒纪念耶稣基督被钉在十字架上受难的日子，是復活節前一个星期五。据圣经记载，耶稣于公元33年猶太曆尼散月十四日上午九时左右被钉在十字架上，于下午三时左右死去。耶穌唯獨吩咐門徒要紀念他的死亡。（路加福音22：19，20）” 从实验室出来的时候正好看到一队人走过，感觉挺有意思的。头前是一辆警车，后面是一辆面包，上面应该是放着音箱功放之类的，开得很慢，有一个女士拿着话筒跟在后面唱着，曲调很有宗教味道，但是歌词完全不懂，不知道是什么语言。后面有穿着各色袍子的男男女女，大概有５０人的样子，有的手里拿着书，有的手里捧着的像是歌本，跟着唱着。中间有一个举着一个大木牌上面画着像是耶稣，还有一个肩扛着十字架走在中间。当时看着怯了，也没拍照。在网上找了找类似的照片，貌似我看到的是很小规模的游行了。网上的一张照片: 照片来源想想自己没有宗教信仰，少了很多体会啊。

PCA的实现

PCA，全称是Principal component analysis，中文叫做主成分分析，是一种常用的数据处理手段。直观的说，PCA是一种降维的手法。比如现在我们有1000个数据点，每个数据点是一个128维的向量，存储上可以是一个1000×128维的数组。经过PCA处理，我们仍然得到1000个数据点，但是每个数据点是一个小于128维的向量，比如我们用PCA将128维的数据降到64维。 PCA可以保证，在降维之后，数据表示的信息损失最小。 “损失最小”具体怎么定义？还是以1000个128维的点为例，这1000个点，也就是1000个向量在一个128维的空间中。从在任何一维，也就是一个方向上来看，如果在这个方向上，各个向量大小差异很大，那么这个方向是很重要的。也就是，反过来看，如果在某个方向上，每一个向量大小都很接近，那么如果不考虑这个方向，也就是去掉这一维的数据，对我们分析这1000个点并没有多大的影响。所以，“损失最小”对应着“差异最小”。那么具体怎么做呢？这里是两种常用的方法: SVD分解和EIG分解（特征值分解）。共同点在于先从数据得到一个矩阵M，M的特征值个数对应着数据的维度，特征值越大那么对应的这一维越重要，也就是“差异越大”。 SVD分解, matlab sub_input_data = (input_data – repmat(mean(input_data),count,1))/sqrt(count-1); [U,S,V] = svd(sub_input_data); % First out_dim columns as PCA bases pcaV = V(:,1:out_dim); output_data = input_data * pcaV; EIG分解, matlab mean_input_data = mean(input_data); sub_input_data = input_data – repmat(mean_input_data, count,1); mean_mat = sub_input_data’ * sub_input_data ./ (count […]