CCM Blog

python连接kafka

调研了相关client后,选了git上更新频率和关注人数比较占优势的kafka-python。 >>> pip install kafka-python 基本语法如下,更多见doc >>> from kafka import KafkaConsumer >>> consumer = KafkaConsumer('some_top...

Optimizing Search Engines using Clickthrough Data

2002 by Thorsten Joachims 关键词:ranking, CTR, SVM 问题表述为:给定查询q和文档集$D = {d_1, …, d_m }$,找到最优的retrieval system,其应该根据文档和查询的相关性给出最佳排序$r^$。本文提出利用CTR数据和SVM方法,在risk minimization框架下学习retrival functions。具体地,以...

Learning to Rank using Gradient Descent

关键字:Bing,L2R,RankNet,gradient descent Probabilistic Ranking Cost Function 问题表述为: 给定在所有文档集$R^d$一对文档$d_a, d_b$,需要预测$\hat{P}_{ab} $,文档a排序在b之前的概率。 模型$\ f: R^d \to R$,$f(x_1) > f(x_2)$代表前者排序高于后者,即$...

机器学习部署

调研了一下,主要方法有: Brute Force Database Dato TensorFlow Serving Azure Pickle (do not use, vunerable) skitlearn joblib http://scikit-learn.org/stable/modules/model_persistence.h...

Ensemble 101

准备数据 df_train, df_test 在df_train上用cv的方式拆分成k份数据 准备base model,对每个base model: 每次在k-1份数据上训练base model,并将对剩下一份对预测结果记录下来 用上述记录的预测结果和特征训练新模型

xgboost 101

安装 Mac El Captain下安装xgboost: git clone --recursive https://github.com/dmlc/xgboost cd xgboost; cp make/minimum.mk ./config.mk; make -j4 cd python-package/ 注释掉setup.py中的include_package_dat...

Bokeh Server

Bokeh是我第三爱的画图工具,第一是R下的ggplot,第二是plotly。 Bokeh提供了server框架,能很速度地搭起一个基于数据的dashboard。 可以从示例代码开始入手。 启动方式有两种: bokeh serve --show sliders.py bokeh serve --show slider_dir\ 最基本的结构: def get_dataset(...

编辑距离Family

Levenshtein distance 每删/改/插,算一次 Damerau–Levenshtein distance 每删/改/插/相邻两个互换,算一次 LCS(Longest Common Subsequence) Hamming distance 只允许改 Jaro distance 只允许互换

ElasticSearch 搜索101

ElasticSearch是啥 多年前,一个叫做Shay Banon的刚结婚不久的失业开发者,由于妻子要去伦敦学习厨师,他便跟着也去了。在他找工作的过程中,为了给妻子构建一个食谱的搜索引擎,他开始构建一个早期版本的Lucene。 直接基于Lucene工作会比较困难,所以Shay开始抽象Lucene代码以便Java程序员可以在应用中添加搜索功能。他发布了他的第一个开源项目,叫做“C...

SVM 101

Maximal Margin Classifier hyperplane: maximal margin hyperplane (also known as the optimal separating hyperplane), which is the separating hyperplane that is farthest from the training observation...