R语言之控制流的使用方法
一般在数据处理或建模过程中会使用到R语言中的控制流,控制流主要有以下三类,即 1)if或switch分支语句 2)for循环 3)while循环 下面就说说这几种控制流,并讲解我工作中的用法。 一、if或switch分支语句 首先看一下if……
lsxxx2011 2016-02-26
R做你的第一个机器学习项目教程(一)
你是否想要用R做机器学习,但又苦恼于怎么开始做? 在这篇文章里你将会用R完成你的第一个机器学习项目。 在这个逐步教程里,你需要做: 1 下载和安装R并且获取用做机器学习非常有用的R包。 2 导入一个数据集并且用统计分析和数据可视化来理解它的……
陆勤 2016-02-25
rattle:数据挖掘的界面化操作
R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施。 一些读者觉得R语言零碎的东西太多了,无法记住那么……
lsxxx2011 2016-02-23
R语言与Tableau集成之可视化应用
Tableau是一款非常棒的数据可视化商业软件,通过拖拉拽的方式迅速的实现数据可视化。而且该软件可以连接任何一种数据库,在处理大型数据时一点都不逊色。下面展示几幅Tableau绘制的图形: 面积图、条形图的综合使用。 该图反映的是201……
lsxxx2011 2016-02-21
使用R绘制几种常用的双坐标轴图形
之前公众号推送了一系列关于使用ggplot2包绘制统计图形的文章,有网友询问是否可以绘制双轴的统计图形。很抱歉,Hradly在设计ggplot2包时就没有将双轴图形功能考虑进来。难道R语言就无法绘制双轴图形了吗?非也,R不仅是统计学家的标准……
lsxxx2011 2016-02-19
如何使用R语言解决可恶的脏数据
在数据分析过程中最头疼的应该是如何应付脏数据,脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误,所以必须谨慎的处理那些脏数据。 脏数据的存在形式主要有如下几种情况: 1)缺失值 2)异常值 3)数据的不一致性 下面就跟大家侃侃如何处理……
lsxxx2011 2016-02-17
使用R绘制其他图形之热图及网络图
热力图是一种非常常用的统计图形,该图将两个变量(一般是离散变量)的交叉汇总信息以颜色的形式展现出来,而映射给颜色变量的是连续型数值变量,下面就以例子说明热力图的优势: #模拟数据集 set.seed(123) Year <- re……
lsxxx2011 2016-02-15
如何快速而又简便的进行数据图表操作
我们刚刚学习了利用data.table这个包进行R的数据框转换成运行速度更快,诸如SQL这样的格式。 这里,我们学到了一些非常好而且更能强大的语法结构。接下来,我们据一些时间序列的例子: time
firedata 2016-02-08
总结近半年以来用R感言
随着互联网不断的发展,全球数据总量呈每年爆炸性的增长。所以,我们可以这样认为,当今社会就是一个大数据的社会,这个时代是大数据充当主角的时代,因为随着数据总量的不断增大,大数据已经渗透到每一个行业中,即使是我们的母语亦或是其它外语,也都能看见……
firedata 2016-02-07
用dplyr包进行数据操作
dplyr包是由Hadely Wickham编写的,并用于数据操作的包。这个包给我们用户提供了一个关于探索性数据分析以及操作中,一些功能强大,而且容易操作的函数的一个程序包。这里,我会讲述几个关于dplyr包里最常用的几个函数。 在这篇文章……
firedata 2016-02-02
教你使用tidyr包进行数据预处理
之前介绍了如何使用data.table包、reshape包、plyr包和dplyr包进行数据预处理。 最后再跟大家介绍一下tidyr包。 有关data.table包、reshape2包、plyr包和dplyr包的介绍请参考: 《强大的da……
lsxxx2011 2016-01-28
用reshape2包进行数据操作
在这篇文章中,我会向大家展示如何使用reshape2包把从范围较广的数据转化成长格式,反之亦然。这篇文章由Hardely Wickham编写。 长格式与宽格式 在宽格式数据中,每一列都代表一个变量。例如,在mtcars数据集中,我们可以看到……
firedata 2016-01-26
手把手教你使用ggplot2进行数据分布探索
手把手教你使用ggplot2进行数据分布探索 数据探索过程中往往需要了解数据的分布情况,例如上下四分位数的位置、数据符合哪种分布等,下文将使用R的ggplot2包探索数据分布情况。 数据探索中,使用最为广泛的分布图就是直方图,ggplot2……
lsxxx2011 2016-01-23
R用tidyr包进行数据操作
大家好!在这篇文章中,我会向你们展示如何用tidyr包进行数据操作。Tidyr包是由Hadely Wickham先生创建的,这个包提高了整理原始数据的效率,而且通常在连接词之间使用。我们常说当把每个列都看作是一个变量,而每行都当作是它的函数……
firedata 2016-01-22
手把手教你使用ggplot2绘制折线图
折线图同样是应用非常广泛的统计图之一,通过折线图可以反映某种现象的趋势。通常折线图的横坐标是为时间变量,纵坐标则是一般性的数值型变量,当然,折线图也允许横坐标为离散型数值和数值型数值。下面来解释一下关于折线图的绘制。 一、绘制单条折线图 >……
lsxxx2011 2016-01-17