CCM Blog

Learning to Rank using Gradient Descent

关键字:Bing,L2R,RankNet,gradient descent Probabilistic Ranking Cost Function 问题表述为: 给定在所有文档集$R^d$一对文档$d_a, d_b$,需要预测$\hat{P}_{ab} $,文档a排序在b之前的概率。 模型$\ f: R^d \to R$,$f(x_1) > f(x_2)$代表前者排序高于后者,即$...

机器学习部署

调研了一下,主要方法有: Brute Force Database Dato TensorFlow Serving Azure Pickle (do not use, vunerable) skitlearn joblib http://scikit-learn.org/stable/modules/model_persistence.h...

Ensemble 101

准备数据 df_train, df_test 在df_train上用cv的方式拆分成k份数据 准备base model,对每个base model: 每次在k-1份数据上训练base model,并将对剩下一份对预测结果记录下来 用上述记录的预测结果和特征训练新模型

xgboost 101

安装 Mac El Captain下安装xgboost: git clone --recursive https://github.com/dmlc/xgboost cd xgboost; cp make/minimum.mk ./config.mk; make -j4 cd python-package/ 注释掉setup.py中的include_package_dat...

Bokeh Server

Bokeh是我第三爱的画图工具,第一是R下的ggplot,第二是plotly。 Bokeh提供了server框架,能很速度地搭起一个基于数据的dashboard。 可以从示例代码开始入手。 启动方式有两种: bokeh serve --show sliders.py bokeh serve --show slider_dir\ 最基本的结构: def get_dataset(...

ElasticSearch 搜索101

ElasticSearch是啥 多年前,一个叫做Shay Banon的刚结婚不久的失业开发者,由于妻子要去伦敦学习厨师,他便跟着也去了。在他找工作的过程中,为了给妻子构建一个食谱的搜索引擎,他开始构建一个早期版本的Lucene。 直接基于Lucene工作会比较困难,所以Shay开始抽象Lucene代码以便Java程序员可以在应用中添加搜索功能。他发布了他的第一个开源项目,叫做“C...

SVM 101

Maximal Margin Classifier hyperplane: maximal margin hyperplane (also known as the optimal separating hyperplane), which is the separating hyperplane that is farthest from the training observation...

Python中的设计模式

0. iterator pattern 1. decorator pattern @wrapper_fun def some_fun(para): pass 2. observer pattern class Core(object): def __init__(self): self.observers = [] self._cnt ...

Jacobian矩阵

Jacobian matrix describing the amount of “stretching”, “rotating” or “transforming” that a transformation imposes locally. Jacobian determinant衡量apply f后,单位x有多少改变 如果f可逆, 示例 polar-Cartesian...

排名算法简介

想要知道一个player的水平如何,最简单的方式就是看他的排名。比如FIFA World Rankings,WTA Rankings等等。这些竞赛排名通常会与胜负率、比赛的重要程度、参与比赛的场数有直接关系,往往不能反应player的“真实”水平。 ELO ELO最初是象棋使用,社交网络中“we are rating girls”后也曾出现过ELO的公式。 何解?假设妹子A和妹子B的...