CCM Blog

Listwise Approach to Learning to Rank - Theory and Algorithm

Listwise定义 In ranking, the input is a set of objects, the output is a permutation of the objects, the model is a ranking function which maps a given input to an output. In lear...

Learning to Rank with Nonsmooth Cost Functions

机器学习任务中的两种cost: 1. target cost 2. optimization cost应该让解决问题变得更简单,并尽量接近于target cost 本文中的optimization cost对每一个item在排序后定义一个虚拟梯度,绕过由排序带来的问题。 – Notation $s_{ij}$ score of ranking function, ...

偏差方差权衡

中文有些奇怪,实际是我们非常熟悉的bias variance tradeoff。是指 其中, noise是即使我们知道“真实”的模型,也由于数据噪音导致的不能减少的误差。 注意不要和统计学中的TSS = ESS + RSS搞混,和上面的对应关系是: TSS = expected loss ESS = bias^2 + variance RSS = noise ...

排序模型L2R

排序模型(learning to rank)在信息检索(information retrieval)、协同过滤(collabrative filtering)中应用广泛。和之前博客中的对参赛选手排名问题不太一样。 一般把这个问题描述为:对查询query q和一组文档documents di,对di对q的相关程度排序。 对bag of words模型,我们可以这样衡量相关程度: 其中,$...

python连接kafka

调研了相关client后,选了git上更新频率和关注人数比较占优势的kafka-python。 >>> pip install kafka-python 基本语法如下,更多见doc >>> from kafka import KafkaConsumer >>> consumer = KafkaConsumer('some_top...

Optimizing Search Engines using Clickthrough Data

2002 by Thorsten Joachims 关键词:ranking, CTR, SVM 问题表述为:给定查询q和文档集$D = {d_1, …, d_m }$,找到最优的retrieval system,其应该根据文档和查询的相关性给出最佳排序$r^$。本文提出利用CTR数据和SVM方法,在risk minimization框架下学习retrival functions。具体地,以...

Learning to Rank using Gradient Descent

关键字:Bing,L2R,RankNet,gradient descent Probabilistic Ranking Cost Function 问题表述为: 给定在所有文档集$R^d$一对文档$d_a, d_b$,需要预测$\hat{P}_{ab} $,文档a排序在b之前的概率。 模型$\ f: R^d \to R$,$f(x_1) > f(x_2)$代表前者排序高于后者,即$...

机器学习部署

调研了一下,主要方法有: Brute Force Database Dato TensorFlow Serving Azure Pickle (do not use, vunerable) skitlearn joblib http://scikit-learn.org/stable/modules/model_persistence.h...

Ensemble 101

准备数据 df_train, df_test 在df_train上用cv的方式拆分成k份数据 准备base model,对每个base model: 每次在k-1份数据上训练base model,并将对剩下一份对预测结果记录下来 用上述记录的预测结果和特征训练新模型

xgboost 101

安装 Mac El Captain下安装xgboost: git clone --recursive https://github.com/dmlc/xgboost cd xgboost; cp make/minimum.mk ./config.mk; make -j4 cd python-package/ 注释掉setup.py中的include_package_dat...