taoCMS是基于php+sqlite/mysql的国内最小(100Kb左右)的功能完善的CMS管理系统

predict_proba用法

predict_proba返回的是一个n行k列的数组,第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率。所以每一行的和应该等于1.举个例子>>> from sklearn.linear_model import LogisticRegression>>> import numpy as np>>> x_train = np.array([[1,2,3], [1,3,4], [2,1,2], [4,5,6],
发布时间:2017-09-10 | 类别:未分组 | 阅读:39121 | 评论:0 | 标签:

逻辑回归 vs 决策树 vs 支持向量机(II)

本文是该系列的第二篇,第一篇参见: 逻辑回归 Vs 决策树 Vs 支持向量机: Part I.在这篇文章,我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳选择。其实 第一篇文章已经给出了很好的回答,不过在这里再补充一些。下面将继续深入讨论这个主题。事实上,这三个算法在其设计之初就赋予了一定的内部特性,我们将其分析透彻的主要目的在于:当你面临商业问题时,这些算法的特性可以让你在选择这些算法时得到一些灵感。首先,我们来分析下逻辑回归(Logistic Regression),它是解决工业规模问题最流行的算法,尽管与其他技术相比,其在效率和算法实现的易用性方面并不出众。逻辑回归非常便利并且很有用的一点就是,它输出的结果并不是
发布时间:2017-09-10 | 类别:未分组 | 阅读:6905 | 评论:0 | 标签:

决策树模型组合之随机森林与GBDT

前言:    决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。    模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,这些算法最终的结果是生成N(可能会有几百棵以上)棵树,这样可以大大的减少单决策树带来的毛病,有点类似于三个臭皮匠等于一个诸葛亮的做法,虽然这几百棵决策树中的每一棵都很简单(相对于C4.5这种单决策树来说),但是他们组合起来确是很强大。    在最近几年的paper
发布时间:2017-09-07 | 类别:未分组 | 阅读:6662 | 评论:0 | 标签:

GBDT:梯度提升决策树

综述  GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。  GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。  GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界中,Facebook使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高 CTR预估(Click-Through Rate Prediction)的准确性(详见参考文献5、6);GBDT在淘宝的搜索及预测业务上也发挥了重要作用(详见
发布时间:2017-09-07 | 类别:未分组 | 阅读:5564 | 评论:0 | 标签:gbdt

评分卡模型构建介绍

https://zhuanlan.zhihu.com/p/27770760终于要写点什么了,这次讲讲评分卡构建流程。评分卡是银行非常喜欢用的模型,现在很多P2P也用。主要分为申请评分卡,行为评分卡,催收评分卡。下面我就梳理下评分卡的各个环节,文中很多材料知识都非原创,敬请留意。变量选择:选择上基本几个方面,客户物理属性,贷前贷中贷后的表现,这里不多叙述,比如逾期,余额等,此处不多叙述。实际中,在实际应用场景,很多很根据业务背景,构造特征变量(或者称为衍生变量),形如x,y和z都是变量,a和b是系数,当然还有很多形式,这方面我请教过很多人,似乎并没有可以套用的经验模板,只能看各位的脑洞了。而因变量,一般选舆情90天以上的客户标记为0(坏客户),其他为1(好客户)变量筛选这里学校的理论都有一堆。单变量:归一化,离散
发布时间:2017-09-07 | 类别:未分组 | 阅读:4831 | 评论:0 | 标签:

逻辑回归

什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;如果是Poisson分布,就是Poisson回归;如果是负二项分布,就是负二项回归。Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。Logistic回归的主要用途:寻找危险因素:寻找某一疾病的危险因素等;预测:根据模型,预测在不同的自变量情况下,发
发布时间:2017-09-07 | 类别:未分组 | 阅读:4775 | 评论:0 | 标签:

史上最全的机器学习资料(下)

p.p1 {margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px 'Helvetica Neue'; color: #333333; -webkit-text-stroke: #333333; background-color: #f9f9f9} p.p2 {margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px 'Helvetica Neue'; color: #00c1de; -webkit-text-stroke: #00c1de; background-color: #ffffff} p.p3 {margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px 'Helvetica Neue'; co
发布时间:2017-08-26 | 类别:未分组 | 阅读:5740 | 评论:0 | 标签:

史上最全的机器学习资料(上)

p.p1 {margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px 'Helvetica Neue'; color: #333333; -webkit-text-stroke: #333333; background-color: #f9f9f9} p.p2 {margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px 'Helvetica Neue'; color: #333333; -webkit-text-stroke: #333333; background-color: #ffffff} p.p3 {margin: 0.0px 0.0px 0.0px 0.0px; font: 28.0px 'Helvetica Neue'; co
发布时间:2017-08-26 | 类别:未分组 | 阅读:5105 | 评论:0 | 标签:

十分钟搞定pandas

http://www.cnblogs.com/chaosimple/p/4153083.html本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、            创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引:2、通过传递一个numpy a
发布时间:2017-08-22 | 类别:未分组 | 阅读:5411 | 评论:0 | 标签:数据分析

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

0、写在前面的话      我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。      一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决定趁这个机会,写一系列关于算法的文章。这样做,主要是为了加强自己复习的效果,我想,如果能将复习的东西用自己的理解写成文章,势必比单纯的读书做题掌握的更牢固,也更能触发自己的思考。如果能有感兴趣的朋友从中有所收获,那自然更好。&n
发布时间:2017-08-16 | 类别:未分组 | 阅读:6498 | 评论:0 | 标签:算法 贝叶斯

公告

taoCMS发布taoCMS2.5Beta5(最后更新14年05月25日),请大家速速升级,欢迎大家试用和提出您宝贵的意见建议。

捐助与联系

☟请使用新浪微博联系我☟

☟在github上follow我☟

标签云