Month: April 2012

TEDxUW Why you will fail to have a great career

还是应该时不时地看看TED的演讲,总能接触到一些有意思的想法和观点。
TEDxUW是本地的TED类似的组织,Larry Smith是UW的老师。
虽然不认同他所有的观点,但还是有些感触,就是这个: 热情(Passion)和兴趣(Interest)是不同的。

Why you will fail to have a great career

I asked, do you have passion? You say, I have interest. … Passion, Interest is not the same thing, are you really gonna go to your sweetie to say, Marry me! You are interesting 囧…

Good Friday

今天是Good Friday,是一个宗教节日。
维基上抄一段过来:
“耶穌受難節,是基督教信徒纪念耶稣基督被钉在十字架上受难的日子,是復活節前一个星期五。据圣经记载,耶稣于公元33年猶太曆尼散月十四日上午九时左右被钉在十字架上,于下午三时左右死去。耶穌唯獨吩咐門徒要紀念他的死亡。(路加福音22:19,20)”

从实验室出来的时候正好看到一队人走过,感觉挺有意思的。
头前是一辆警车,后面是一辆面包,上面应该是放着音箱功放之类的,开得很慢,有一个女士拿着话筒跟在后面唱着,曲调很有宗教味道,但是歌词完全不懂,不知道是什么语言。后面有穿着各色袍子的男男女女,大概有50人的样子,有的手里拿着书,有的手里捧着的像是歌本,跟着唱着。中间有一个举着一个大木牌上面画着像是耶稣,还有一个肩扛着十字架走在中间。

当时看着怯了,也没拍照。
在网上找了找类似的照片,貌似我看到的是很小规模的游行了。
网上的一张照片:

照片来源

想想自己没有宗教信仰,少了很多体会啊。

PCA的实现

PCA,全称是Principal component analysis,中文叫做主成分分析,是一种常用的数据处理手段。

直观的说,PCA是一种降维的手法。比如现在我们有1000个数据点,每个数据点是一个128维的向量,存储上可以是一个1000×128维的数组。经过PCA处理,我们仍然得到1000个数据点,但是每个数据点是一个小于128维的向量,比如我们用PCA将128维的数据降到64维。
PCA可以保证,在降维之后,数据表示的信息损失最小。

“损失最小”具体怎么定义?
还是以1000个128维的点为例,这1000个点,也就是1000个向量在一个128维的空间中。从在任何一维,也就是一个方向上来看,如果在这个方向上,各个向量大小差异很大,那么这个方向是很重要的。
也就是,反过来看,如果在某个方向上,每一个向量大小都很接近,那么如果不考虑这个方向,也就是去掉这一维的数据,对我们分析这1000个点并没有多大的影响。所以,“损失最小”对应着“差异最小”。

那么具体怎么做呢?

这里是两种常用的方法: SVD分解和EIG分解(特征值分解)。
共同点在于先从数据得到一个矩阵M,M的特征值个数对应着数据的维度,特征值越大那么对应的这一维越重要,也就是“差异越大”。

SVD分解, matlab

    sub_input_data = (input_data - repmat(mean(input_data),count,1))/sqrt(count-1);
    [U,S,V] = svd(sub_input_data);
    % First out_dim columns as PCA bases
    pcaV = V(:,1:out_dim);
    output_data = input_data * pcaV;

EIG分解, matlab

    mean_input_data = mean(input_data);
    sub_input_data = input_data - repmat(mean_input_data, count,1);
    mean_mat = sub_input_data' * sub_input_data ./ (count - 1);
    cov_mat = mean_mat;
    [V D] = eig(cov_mat);
    % Last out_dim columns as PCA bases
    pcaV = V(:,in_dim - out_dim + 1: in_dim);
    output_data = input_data * pcaV;

如果用C++的话,OpenCV本身就提供PCA,当然也可以自己实现。
OpenCV下可以用这个方法做EIG分解。

cv::eigen(covMat, eigenValues, eigenVectors);

具体Matlab代码也比较简单,放在Github上了。
MatlabPCA

原始数据:

PCA之后: