LMM线性混合模型by nlme
介绍 线性混合模型是数据模型中一种重要的类别,它可以分析存在相关关系的数据,模型里面包含固定效应以及随机效应,随机效应描述的是在不同层次的不同水平中,各变量对总体观察变量的贡献。 数据导入 本文选择的数据来自Andrzej Gałecki……
jamieDee 2019-01-06
使用spotifyr聚类Springsteen专辑
spotifyr包很棒,让我们来探索音乐的各个方面,如节奏、舞蹈性和化合价。在这篇文章中,我们将从相同点和不同点来探讨布鲁斯·斯普林斯汀的专辑。 # devtools::install_github('charlie86/spotifyr'……
陆勤 2019-01-02
银行信贷数据集探索性数据分析
本文为了迭代一个探索性数据分析的通用模式,首先使用银行信贷数据进行探索性数据分析,希望能够得到一个通用的强大探索性解决方案。 数据导入 数据是来自klaR的GermanCredit数据. library(pacman) p_load(tid……
HopeR 2018-12-29
Centos7服务器上安装R和Rstudio
> 为了增加计算力来处理和整合更多和更杂的数据集,运维同事给我们分配了服务器。服务器是用Centos7的Linux系统,为了完成数据科学任务,我们需要在服务器上面搭建R平台。 通过阅读本文,你可以获得: 服务器上面安装R和RStudio ……
陆勤 2018-12-28
关于 Rstudio 1.2 新功能介绍
RStudio公司与2018年10月2号发布了preview release RStudio 1.2版 IDE。 目前官网里还是提供1.1版下载。如果想下载1.2版的请到下载地址: (Rstudio 1.2) 5.更容易生成PPT Rs……
Tony D 2018-12-14
R的整洁交叉验证教程
介绍 这篇文章将使用{tidymodels}软件包集合中的几个软件包,即{recipes},{rsample}和{parsnip}以整洁的方式来训练随机森林。 我还将使用{mlrMBO}来调整随机森林的超参数。 设置 让我们加载所需要的包:……
陆勤 2018-12-13
6个技巧,让你的可视化看起来更专业
当我开始使用R时,像任何初学者一样,我想要一个真正能够工作的代码和一个最低限度可理解的图像,并且很长一段时间这是我的主要目标,但是一旦这一点完成后,我意识到我的可视化看起来很糟糕,特别是在比较和审查其他博客和网站之后,我开始搜索如何改进我的……
陆勤 2018-12-13
使用LIME探索模型
> 编者按:模型的解释性对于模型的应用和可信,有着重要意义。同时,也可以让模型更透明,更公平,也更好地服务大众,以降低模型多带来的风险。如何对黑盒模型的解释性做探索和研究,本文的LIME方法在一定程度上可以发挥作用和达成目的。 最近在工作……
陆勤 2018-11-23
使用RMarkdown沟通结果
在我作为顾问的培训中,我了解到,长时间的分析之后,通常也要花同样长的时间准备报告。我不得不将复杂的分析转化为建议,而我作为顾问的成功取决于我影响决策者的能力。我使用了各种各样的工具来表达我的见解,但随着时间的推移,我越来越依赖[R Mar……
陆勤 2018-11-17
R机器学习介绍
>这是我在德国海德堡大学于2018年6月28日所做的关于R的机器学习介绍的研讨会的幻灯片。整个研讨会的代码可以在视频下面找到。 研讨会介绍了机器学习的基本知识。通过一个示例数据集,我在R中使用caret和h2o包完成了一个标准的机器学习工作……
陆勤 2018-10-31
在Tidyverse用estimatr
> estimatetr以稳健的标准差进行快速的OLS和IV回归。 本文揭示estimatetr如何与RStudio的tidyverse软件包集成。 获得整洁 tidyverse的第一步是将模型输出转换为我们可以操作的数据。 tidy函数将……
陆勤 2018-10-25
R中你应该学习7种可视化
> 数据可视化,让你的数据讲故事。 随着数据量的不断增加,如果没有可视化,就不可能讲故事。数据可视化是一门如何将数字转化为有用知识的艺术。 R编程通过提供一组用来构建可视化和表示数据的内置函数和库,让您学习这种艺术。在可视化技术实现之前,……
陆勤 2018-10-20
Spatial Analysis
今天是Spatial Analysis上机实习课,平时学了很多统计分析的方法,但是没有具体跑过代码,上机就发现好多分析的结果有点看不懂,索性记录下来,供以后复习使用。 arr<-read.table("reg_data.tx……
为什么你应该从学习数据可视化和操作开始
当我与想要开始学习数据科学的人交谈时出现的最大问题之一是: 我不知道从哪里开始! 最近,我认为当你开始使用数据科学时,R是最好的编程语言。 虽然这有助于您选择编程语言,但它仍然没有告诉您要关注哪些技能。 就像选择编程语言一样,选择开始的技能……
陆勤 2018-10-13
R中用线性回归进行预测建模
预测模型对于预测未来结果和估算实际难以量化的指标非常有用。例如,数据科学家可以使用预测模型基于降雨和温度预测作物产量,或确定具有某些特征的患者是否更可能对新药物反应严重。 在我们具体讨论线性回归之前,让我们自己回顾一下典型的数据科学工作流……
陆勤 2018-10-06