CCM Blog

Python immutables异常行为

from copy import copy >>> a = [1, 2, 3] >>> b = a[:] >>> a is b # 1 >>> copy(a) is a # 2 >>> c = (1, 2, 3) >>> d = c[:] >>> e = (1, ...

贝叶斯规划学习

最新一期的《环球科学》将贝叶斯规划学习(Bayesian program learning,简称BPL)评为2016年十大创新之一。找到其源头Human-level concept learning through probabilistic program induction科普一下。 人类学习的两个特点还没有被现在state-of-art的机器学习获得: 大多数算法还是data-...

逻辑回归

基本模型(二元) 对条件概率建模: y=1的对数几率(log odds/logit)为 $log \frac{p}{1 - p}=w \cdot x$ 参数估计方法 一般fit方式为极大似然法maximum likelihood,对其负对数似然函数(cross-entropy error)求极小值,就能得到参数$w$的估计值。具体求解可用梯度下降法(一阶...

knn

KNN是memory-based learning,或instance-based learning最简单的例子。在K为1时,可以生成Voronoi Diagram。 除了一般的定义方式,即选择离所需预测点最近的k个点的某种描述来预测,还可以从KDE角度来看。 TBC

Python参数传递

Python参数传递方式: call by sharing,means that each formal parameter of the function gets a copy of each reference in the arguments. def f(a, b): a += b return a >> a = (1, 2) >> ...

离散分布

假设投掷一枚硬币n次,正面朝上概率为p: 分布名 含义 Bernoulli n=1时,正面朝上 Binomial n次中有k次正面朝上 Geomery 第一次正面朝上之前,投掷次数 ...

timedelta求和

>>> from datetime import timedelta >>> td1 = timedelta(10) >>> td2 = timedelta(20) >>> td1 + td2 datetime.timedelta(30) >>> sum([td1, td2]) Traceback (m...

拉格朗日乘子法的几何意义

optimize: $f(x)$ s.t.: $g(x)=0$ 两点结论: 1. 将$g(x)=0$看做D-1维surface,那么$\nabla g(x)$垂直于该surface。 2. 在约束surface上寻找最优点$x^*$,那么在该点$\nabla f(x)$也垂直于该surface。 基于以上两点,可知$\nabla g(x)$和$\nabla f(x)$平行...

连续分布

高斯分布 优点: 只有两个参数,描述了分布的最基础性质。 根据中心极限定理,随机向量之和趋向于高斯分布。所以其比较适合作为噪声或者残差的模型。l2正则可以看为先验为高斯的map。 给定均值和方差后,高斯分布有最大熵。是假设最少的分布。 缺点: 对数据集中的异常点比较敏感 ##学生t分布 均值和众数是$\mu$,方差为$\frac{v\sigma^2}{v-2}$ $v...

Adapting Boosting for Information Retrieval Measures

RankMART思路 结合LambdaRank和MART(Multiple Additive Regression Trees)思想: 每次boosting迭代只有一棵树,这棵树用LambdaRank中的gradients来训练。优点:比McRank减少训练时间,可以优化NDCG这样的非光滑指标。需要解决的问题:传统MART的cost function是根据一条观测计算的,...