data.table包|R包
data.table包|R包 “R包众多,如何选择?如何学习?如何应用?如同三把斧,摆在每位学R和用R的数据人面前,如何轻松自如挥舞,仁者见仁、智者见智!” 从今天开始,陆续推出一系列关于好用的R包的文章,欢迎各位数据人反馈、留言、投稿。……
陆勤 2016-08-18
R and Data Mining Examples and Case Studies|R书籍
R and Data Mining Examples and Case Studies ![R语言与数据挖掘例子](http://img.shujuren.org/pictures/MP/579f62a054533.png "R语言与数据挖……
陆勤 2016-08-01
自助法在分散式投资策略中的应用
可以转载,禁止修改。转载请注明数据人网和作者和原文链接。 先用人话来描述一下这个问题:有两个收益不固定的投资项目,如何将一笔固定的金额分开投资,才能使总投资风险最小? 再用数学语言来描述一下这个问题,对于两个收益分别为X和Y的金融资产,X、……
用mice包处理缺失值
1、数据准备 > Z1=read.table('clipboard',header=T) #读入数据 > head(Z1) #查看前六行 Age Gender Chol……
薛丽丹 2016-07-01
用R语言在地图上进行分析——基于一组美国肥胖数据
在这篇文章中,我将展示一个关于美国地区肥胖事件的地图分析表示: > library(ggplot2 )载入需要的包 > library(rvest) > library(ggplot2) > library(……
薛丽丹 2016-06-29
聚类分析(二)
因为上篇文章的理论铺垫,相信大家对软件实现的理解更快。也就是说,可以把jpg理解成gif的效果。 单个业务场景的数据分析过程,数据分析周期:需求→数据处理→数据分析→数据报告→结论→沟通→数据落地→再优化 。其中,不同颜色代表不同的数据过……
结实 2016-06-27
交叉验证示例
交叉验证思想 交叉验证用于模型选择,可以更好的来估计模型的试验误差。交叉验证的做法就是从训练数据集中是创建一系列分区数量的样本一部分作为验证集,其他部分作为训练集。在用训练集模拟一个适合训练集的模型之后,在验证集中来测试训练集得到的模型,并……
薛丽丹 2016-06-25
KNN算法在保险业精准营销中的应用
版权所有,可以转载,禁止修改。转载请注明作者以及原文链接。 一、KNN算法概述 KNN是Machine Learning领域一个简单又实用的算法,与之前讨论过的算法主要存在两点不同: 它是一种非参方法。即不必像线性回归、逻辑回归等算法一样……
用贝叶斯判别分析再次预测股票涨跌情况
可以转载,禁止修改。转载请务必注明作者以及出自[数据人网](http://shujuren.org "数据人网")和原文链接 注:本文是从贝叶斯分类器的角度来讨论判别分析,有关贝叶斯分类器的概念可参考文末延伸阅读第1-2篇文章。至于Fish……
R语言字符串函数详解
一、以下为stringr包的字符串处理函数: 1. 字符串的大小写转换 str_to_upper(string, locale = "") str_to_lower(string, locale = "") str_to_title(st……
囧囧有神 2016-06-12
基于heatmaply和plotly的交互式热力图
手把手做个新鲜出炉的网页交互热图 Interactive Heatmap 利用R绘制热力图比较简单,而随着可视化工具喷涌,交互式热力图在R中的实现也常见起来。以前有heatmap包,d3heatmap包,今天则出现了干脆利落的heatmap……
Dann 2016-06-10
逻辑回归模型预测股票涨跌
逻辑回归是一个分类器,其基本思想可以概括为:对于一个二分类(0~1)问题,若P(Y=1/X)>0.5则归为1类,若P(Y=1/X) 函数图像如下: 红色的线条,即x=0处将Sigmoid曲线分成了两部分:当 x < 0,y < 0.5 ;……
多元线性回归实战笔记
R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整。这里结合Statistical Learning和杜克大学的Data Analysis and Statistical Inference的章节以及《R语言实战》……
R数据处理——tidyr包
R数据处理——tidyr包 在进行数据处理时,tidyr包这往往与dplyr包一起使用。我们将演示的tidyr包下面四个功能: gather—宽数据转为长数据。类似于reshape2包中的melt函数 spread—长数据转为宽数据。类似……
薛丽丹 2016-06-03
纵向数据分析:多级线性增长模型2
纵向数据分析:多级线性增长模型2 这篇文章已经是纵向数据分析系列的第三篇了。之前,我们介绍了什么是纵向数据,我们如何把长型的数据集转换成纵向的数据集,并通过建立相应的多级模型进行分析。显然,仅仅介绍基本的多级模型并不足以对虚拟随机对照实验数……
firedata 2016-06-01