taoCMS是基于php+sqlite/mysql的国内最小(100Kb左右)的功能完善的CMS管理系统

使用openface训练人脸识别模型

今天实现了openface训练了自己第一个人脸识别的模型,实现过程中参照了这个博客帮了我大忙  http://www.vccoo.com/v/2ed520实现的过程和结果如下:前提:我的这台机子已经配置过了openface+dlib,所以我不用太为环境而担忧。环境在实现的过程中就出现了一个错 误:/home/zpj/torch/install/bin/luajit: /home/zpj/torch/install/share/lua/5.1/trepl/init.lua:384: module 'csvigo' not found:No LuaRocks module found for csvigo经检查发现少了一个csvigo的模块,既然找到了问题,安装就行了,于是进行如下步骤root@zpj-H
发布时间:2017-12-23 | 类别:未分组 | 阅读:14357 | 评论:0 | 标签:

使用sklearn优雅地进行数据挖掘

1 使用sklearn进行数据挖掘  1.1 数据挖掘的步骤  1.2 数据初貌  1.3 关键技术2 并行处理  2.1 整体并行处理  2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤  数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《使用sklearn做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三个方法fit、transform和fit_transform,fit方法居然和模型训练方法fit同名(不光同名,参数列表都一样),这难道都是巧合?  显然,这不是巧合,这正是sklearn的设计风格。我们能够更加优雅地使
发布时间:2017-12-15 | 类别:未分组 | 阅读:16475 | 评论:0 | 标签:

RSA密钥长度、明文长度和密文长度

本文介绍RSA加解密中必须考虑到的密钥长度、明文长度和密文长度问题,对第一次接触RSA的开发人员来说,RSA算是比较复杂的算法,天缘以后还会补充几篇RSA基础知识专题文章,用最简单最通俗的语言描述RSA,让各位了解RSA算法本身其实也很简单,RSA的复杂度是因为数学家把效率和安全也考虑进去的缘故。本文先只谈密钥长度、明文长度和密文长度的概念知识,RSA的理论及示例等以后再谈。提到密钥,我们不得不提到RSA的三个重要大数:公钥指数e、私钥指数d和模值n。这三个大数是我们使用RSA时需要直接接触的,理解了本文的基础概念,即使未接触过RSA的开发人员也能应对自如的使用RSA相关函数库,无需深入了解e、d、n是如何生成的,只需要知道我该如何用、要注意什么。一、密钥长度1、密钥是指谁?首先我们说的“密钥”是指谁?由于RS
发布时间:2017-12-14 | 类别:未分组 | 阅读:17901 | 评论:0 | 标签:

[机器学习实战]使用 scikit-learn 预测用户流失

客户流失“流失率”是描述客户离开或停止支付产品或服务费率的业务术语。这在许多企业中是一个关键的数字,因为通常情况下,获取新客户的成本比保留现有成本(在某些情况下,贵5到20倍)。因此,了解保持客户参与度是非常宝贵的,因为它是开发保留策略和推出旨在阻止客户走出门的运营实践的合理基础。因此,公司越来越感兴趣开发更好的流失检测技术,导致许多人寻求数据挖掘和机器学习以获得新的和创造性的方法。这是一篇关于使用Python对客户流失进行建模的文章。 下面开始介绍一下具体的实现步骤:数据集我将使用的数据集是一个长期的电信客户数据集,您可以在这里下载。数据很简单。 每行代表一个预订的电话用户。 每列包含客户属性,例如电话号码,在一天中不同时间使用的通话分钟,服务产生的费用,生命周期帐户持续时间以及客户是否仍然是客户。
发布时间:2017-12-12 | 类别:未分组 | 阅读:17478 | 评论:0 | 标签:

Sklearn-RandomForest随机森林

在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。sklearn官网地址(RandomForestClassifier):http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifierclasssklearn.ensemble.RandomForestClassifier(n_estimators=10, c
发布时间:2017-12-12 | 类别:未分组 | 阅读:15282 | 评论:0 | 标签:

logistic回归和Python实现

一、Logistic Regression的基本内容通过学习了台湾的林教授和Stanford的课程后发现,他们两个人的基本思路虽然一致,但是具体做法有所差异,下面简单介绍一下两种实现方式。 1、台湾的林教授方法 使用Logistic回归的思路是,我们不希望只给输出一个确定的{-1,+1}的结果,而是想给出一个概率值,这时就可以用到Logistic回归,得到概率的输出值在0~1之间。 但是实际情况是,我们不能知道准确的概率值,只能知道输出的结果。比如以心脏病复发为例。绿色和红色分别表示理想情况下和实际的结果。 可以将实际的情况看成是含有噪声的理想训练数据。和以前一样,同样用输入加权的形式得到一个分数,并将此分数通过称为Logistic function或Sigmoid func
发布时间:2017-12-11 | 类别:未分组 | 阅读:15375 | 评论:0 | 标签:

数据挖掘模型中的IV和WOE详解

1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不
发布时间:2017-12-11 | 类别:未分组 | 阅读:14399 | 评论:0 | 标签:

Apache Cassandra架构理解

转载自:http://www.360doc.com/content/17/0116/11/39871333_622789686.shtml架构基本流程: 点对点分布式系统,集群中各节点平等,数据分布于集群中各节点,各节点间每秒交换一次信息。每个节点的commit log提交日志捕获写操作来确保数据持久性。数据先被写入MemTable(内存中的数据结构),待MemTable满后数据被写入SSTable(硬盘的数据文件)。所有的写内容被自动在集群中partition分区并replicate复制。库表结构: Cassandra数据库面向行。用户可连接至集群的任意节点,通过类似SQL的CQL查询数据。集群中,一个应用一般包含一个keyspace,一个keyspace中包含多个表。读写请求: 客户端连接到某一节点发起读或
发布时间:2017-12-11 | 类别:未分组 | 阅读:13273 | 评论:0 | 标签:

梯度提升树(GBDT)原理小结

    在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其实都是指的同一种算法,本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用,假如要选择3个最重要的机器学习算法的话,个
发布时间:2017-12-09 | 类别:未分组 | 阅读:9131 | 评论:0 | 标签:

Gradient Boosted Regression Trees

Gradient Boosted Regression Trees (GBRT) or shorter Gradient Boosting is a flexible non-parametric statistical learning technique for classification and regression.This notebook shows how to use GBRT in scikit-learn, an easy-to-use, general-purpose toolbox for machine learning in Python. We will start by giving a brief introduction to scikit-learn and i
发布时间:2017-12-09 | 类别:未分组 | 阅读:7233 | 评论:0 | 标签:

公告

taoCMS发布taoCMS2.5Beta5(最后更新14年05月25日),请大家速速升级,欢迎大家试用和提出您宝贵的意见建议。

捐助与联系

☟请使用新浪微博联系我☟

☟在github上follow我☟

标签云