woeBinning:woe分箱包
本文介绍woe分箱包-woeBinning,利用该包实现自动分箱和计算变量的IV值。 woeBinning包介绍 woeBinning包使数字变量和因子相对于二元目标变量的分箱过程自动化。 此外,它可视化已实现的分箱解决方案,可以表格化和部……
陆勤 2018-06-29
2018年数据科学前20名R包
在我们以前的文章中,我们已经讨论过Python和Scala中数据科学的顶级库。 但是,如果没有R,这篇文章列表将不完整。所有这些编程语言对于不同的数据科学任务和项目都很流行,并且有他们的支持者和反对者。 因此,在我们安排比较这些编程语言如……
陆勤 2018-06-17
如何在R中执行Logistic回归
> 逻辑回归是拟合回归曲线的方法,当y是分类变量时,y = f(x)。这个模型的典型用途是基于一组预测变量x预测y。预测因子可以是连续的,分类的或两者的混合。 通常,分类变量y可以采用不同的值。在最简单的情况下,y是二进制的,意味着它可以假……
陆勤 2018-06-09
R做信用评分Part3
系列之前:[R做信用评分Part2](http://shujuren.org/article/618.html "R做信用评分Part2") 2.3子集数据1-基于单变量和双变量分析 var_list_1 <- IV$Summary[……
陆勤 2018-06-09
R做信用评分Part2
系列之前:[R做信用评分Part1](http://shujuren.org/article/610.html "R做信用评分Part1") 2.2.9 个人身份与性别 A9<-gbpct(cdata$personal_status_……
陆勤 2018-06-09
R做信用评分Part1
1.介绍 这是试图展示一些使用德国信用数据的机器学习(ML)的实例。虽然我们在本文中选择了信用评分问题作为案例研究,但同样的过程将适用于范围广泛的分类或回归问题响应建模,风险管理,流失管理,交叉销售/提升销售,使用模式,净现值,生命时间周期……
陆勤 2018-06-06
使用R进行交互式数据可视化
> 数据可视化与科学一样是一门艺术。 有很多工具可用于在R中生成可视化。一些受欢迎的工具是ggplot和ggvis。 虽然ggplot是创建静态可视化的惊人工具,但当您需要创建交互式数据可视化时,它的性能往往不足。 ggvis也是如此。 这……
陆勤 2018-06-03
Tidyverse:R 语言学习之旅的新起点
学习R语言的传统路径(base R first)多是从变量类型、数据结构、流程控制、循环与自定义函数,也就是以R程式设计作为起点,接着依照数据处理、视觉化、统计与机器学习等应用偏好延续下一个学习的旅程;由tidyverse 作为起点的路径……
陆勤 2018-06-01
用iml和mlr解释机器学习
机器学习模型时常胜过模型的可解释性,参数模型如线性回归模型。模型性能的提高有一定的代价,模型当作一个无法解释的黑盒子在运作。 幸运的是,有很多方法可以使机器学习模型可以解释。 R包iml提供分析任何黑盒机器学习模型的工具: 特征重要性:哪……
陆勤 2018-05-26
数据科学中的故事讲述艺术以及如何创建数据故事?
简介 讲故事的想法很吸引人, 采取一个想法或事件,并把它变成一个故事。 它将这个想法带入生活并使其更有趣。 这发生在我们的日常生活中。 无论我们讲述一个有趣的事件还是我们的研究结果,故事一直是从听众和读者那里引起兴趣的“向导”。 例如; 当……
陆勤 2018-05-20
拥抱 Tidyverse包
Hadley Wickham是[R for Data Science](http://r4ds.had.co.nz/ "R for Data Science")的合着者(与Garrett Grolemund合作)和RStudio首席科学家的……
陆勤 2018-05-13
R做线性回归
>本文解释了如何在R中运行线性回归。本教程将介绍线性回归的假设以及如果假设不满足如何处理。 它还包括拟合模型和计算模型性能指标以检查线性回归模型的性能。 线性回归是最流行的统计技术之一。 它已被使用了三十多年。 它几乎在每个领域都被广泛接受……
陆勤 2018-05-05
R构建数据科学工作环境
R语言构建数据科学工作环境,记录如下,以供后续查阅。 第一步:下载R软件和RStudio软件 R软件下载链接:https://cran.r-project.org/mirrors.html RStudio软件下载链接:https://ww……
陆勤 2018-05-04
使用ggplot2进行数据可视化
为了实现数据可视化,R通过内置图形和强大的软件包(如ggolot2)提供各种方法。 前者帮助创建简单的图形,而后者创建定制的专业图形。 在本文中,我们将尝试学习如何使用ggplot2软件包制作和修改各种图形。 [TOC] 什么是ggplo……
陆勤 2018-04-30
使用dplyr进行数据操作(30个实例)
dplyr软件包是R中功能最强大,最受欢迎的软件包之一。该软件包由最受欢迎的R程序员Hadley Wickham编写,他编写了许多有用的R软件包,如ggplot2,tidyr等。本文包括一些示例和如何使用使用dplyr软件包来清理和转换数据……
陆勤 2018-04-15