taoCMS是基于php+sqlite/mysql的国内最小(100Kb左右)的功能完善的CMS管理系统

[置顶]taoCMS2.5Beta5发布,组件升级、安全加固、支持BAE

发布时间:2012-09-23 | 类别:taoCMS发布 | 阅读:454360 | 评论:24283 | 标签:taocms taocms下载

[置顶]taocms的mod版本

发布时间:2013-07-01 | 类别:taoCMS发布 | 阅读:245338 | 评论:9588 | 标签:taocms taocms mod版

[机器学习实战]使用 scikit-learn 预测用户流失

客户流失“流失率”是描述客户离开或停止支付产品或服务费率的业务术语。这在许多企业中是一个关键的数字,因为通常情况下,获取新客户的成本比保留现有成本(在某些情况下,贵5到20倍)。因此,了解保持客户参与度是非常宝贵的,因为它是开发保留策略和推出旨在阻止客户走出门的运营实践的合理基础。因此,公司越来越感兴趣开发更好的流失检测技术,导致许多人寻求数据挖掘和机器学习以获得新的和创造性的方法。这是一篇关于使用Python对客户流失进行建模的文章。 下面开始介绍一下具体的实现步骤:数据集我将使用的数据集是一个长期的电信客户数据集,您可以在这里下载。数据很简单。 每行代表一个预订的电话用户。 每列包含客户属性,例如电话号码,在一天中不同时间使用的通话分钟,服务产生的费用,生命周期帐户持续时间以及客户是否仍然是客户。
发布时间:2017-12-12 | 类别:未分组 | 阅读:451 | 评论:0 | 标签:

Sklearn-RandomForest随机森林

在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。sklearn官网地址(RandomForestClassifier):http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifierclasssklearn.ensemble.RandomForestClassifier(n_estimators=10, c
发布时间:2017-12-12 | 类别:未分组 | 阅读:614 | 评论:0 | 标签:

logistic回归和Python实现

一、Logistic Regression的基本内容通过学习了台湾的林教授和Stanford的课程后发现,他们两个人的基本思路虽然一致,但是具体做法有所差异,下面简单介绍一下两种实现方式。 1、台湾的林教授方法 使用Logistic回归的思路是,我们不希望只给输出一个确定的{-1,+1}的结果,而是想给出一个概率值,这时就可以用到Logistic回归,得到概率的输出值在0~1之间。 但是实际情况是,我们不能知道准确的概率值,只能知道输出的结果。比如以心脏病复发为例。绿色和红色分别表示理想情况下和实际的结果。 可以将实际的情况看成是含有噪声的理想训练数据。和以前一样,同样用输入加权的形式得到一个分数,并将此分数通过称为Logistic function或Sigmoid func
发布时间:2017-12-11 | 类别:未分组 | 阅读:954 | 评论:0 | 标签:

数据挖掘模型中的IV和WOE详解

1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不
发布时间:2017-12-11 | 类别:未分组 | 阅读:923 | 评论:0 | 标签:

Apache Cassandra架构理解

转载自:http://www.360doc.com/content/17/0116/11/39871333_622789686.shtml架构基本流程: 点对点分布式系统,集群中各节点平等,数据分布于集群中各节点,各节点间每秒交换一次信息。每个节点的commit log提交日志捕获写操作来确保数据持久性。数据先被写入MemTable(内存中的数据结构),待MemTable满后数据被写入SSTable(硬盘的数据文件)。所有的写内容被自动在集群中partition分区并replicate复制。库表结构: Cassandra数据库面向行。用户可连接至集群的任意节点,通过类似SQL的CQL查询数据。集群中,一个应用一般包含一个keyspace,一个keyspace中包含多个表。读写请求: 客户端连接到某一节点发起读或
发布时间:2017-12-11 | 类别:未分组 | 阅读:444 | 评论:0 | 标签:

梯度提升树(GBDT)原理小结

    在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其实都是指的同一种算法,本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用,假如要选择3个最重要的机器学习算法的话,个
发布时间:2017-12-09 | 类别:未分组 | 阅读:582 | 评论:0 | 标签:

Gradient Boosted Regression Trees

Gradient Boosted Regression Trees (GBRT) or shorter Gradient Boosting is a flexible non-parametric statistical learning technique for classification and regression.This notebook shows how to use GBRT in scikit-learn, an easy-to-use, general-purpose toolbox for machine learning in Python. We will start by giving a brief introduction to scikit-learn and i
发布时间:2017-12-09 | 类别:未分组 | 阅读:1921 | 评论:0 | 标签:

各个机器学习的优劣比较

作者:魏大峰<img src="https://pic2.zhimg.com/50/3448bd646999bc60c164e25c08d57365_hd.png" data-rawwidth="572" data-rawheight="250" class="origin_image zh-lightbox-thumb" width="572" data-original="https://pic2.zhimg.com/3448bd646999bc60c164e25c08d57365_r.pn
发布时间:2017-12-09 | 类别:未分组 | 阅读:2307 | 评论:0 | 标签:

公告

taoCMS发布taoCMS2.5Beta5(最后更新14年05月25日),请大家速速升级,欢迎大家试用和提出您宝贵的意见建议。

捐助与联系

☟请使用新浪微博联系我☟

☟在github上follow我☟

标签云