CCM Blog

离散分布

假设投掷一枚硬币n次,正面朝上概率为p: 分布名 含义 Bernoulli n=1时,正面朝上 Binomial n次中有k次正面朝上 Geomery 第一次正面朝上之前,投掷次数 ...

timedelta求和

>>> from datetime import timedelta >>> td1 = timedelta(10) >>> td2 = timedelta(20) >>> td1 + td2 datetime.timedelta(30) >>> sum([td1, td2]) Traceback (m...

拉格朗日乘子法的几何意义

optimize: $f(x)$ s.t.: $g(x)=0$ 两点结论: 1. 将$g(x)=0$看做D-1维surface,那么$\nabla g(x)$垂直于该surface。 2. 在约束surface上寻找最优点$x^*$,那么在该点$\nabla f(x)$也垂直于该surface。 基于以上两点,可知$\nabla g(x)$和$\nabla f(x)$平行...

连续分布

高斯分布 优点: 只有两个参数,描述了分布的最基础性质。 根据中心极限定理,随机向量之和趋向于高斯分布。所以其比较适合作为噪声或者残差的模型。l2正则可以看为先验为高斯的map。 给定均值和方差后,高斯分布有最大熵。是假设最少的分布。 缺点: 对数据集中的异常点比较敏感 ##学生t分布 均值和众数是$\mu$,方差为$\frac{v\sigma^2}{v-2}$ $v...

Adapting Boosting for Information Retrieval Measures

RankMART思路 结合LambdaRank和MART(Multiple Additive Regression Trees)思想: 每次boosting迭代只有一棵树,这棵树用LambdaRank中的gradients来训练。优点:比McRank减少训练时间,可以优化NDCG这样的非光滑指标。需要解决的问题:传统MART的cost function是根据一条观测计算的,...

Listwise Approach to Learning to Rank - Theory and Algorithm

Listwise定义 In ranking, the input is a set of objects, the output is a permutation of the objects, the model is a ranking function which maps a given input to an output. In lear...

Learning to Rank with Nonsmooth Cost Functions

机器学习任务中的两种cost: 1. target cost 2. optimization cost应该让解决问题变得更简单,并尽量接近于target cost 本文中的optimization cost对每一个item在排序后定义一个虚拟梯度,绕过由排序带来的问题。 – Notation $s_{ij}$ score of ranking function, ...

偏差方差权衡

中文有些奇怪,实际是我们非常熟悉的bias variance tradeoff。是指 其中, noise是即使我们知道“真实”的模型,也由于数据噪音导致的不能减少的误差。 注意不要和统计学中的TSS = ESS + RSS搞混,和上面的对应关系是: TSS = expected loss ESS = bias^2 + variance RSS = noise ...

排序模型L2R

排序模型(learning to rank)在信息检索(information retrieval)、协同过滤(collabrative filtering)中应用广泛。和之前博客中的对参赛选手排名问题不太一样。 一般把这个问题描述为:对查询query q和一组文档documents di,对di对q的相关程度排序。 对bag of words模型,我们可以这样衡量相关程度: 其中,$...

python连接kafka

调研了相关client后,选了git上更新频率和关注人数比较占优势的kafka-python。 >>> pip install kafka-python 基本语法如下,更多见doc >>> from kafka import KafkaConsumer >>> consumer = KafkaConsumer('some_top...