逻辑回归模型预测股票涨跌
逻辑回归是一个分类器,其基本思想可以概括为:对于一个二分类(0~1)问题,若P(Y=1/X)>0.5则归为1类,若P(Y=1/X) 函数图像如下: 红色的线条,即x=0处将Sigmoid曲线分成了两部分:当 x < 0,y < 0.5 ;……
多元线性回归实战笔记
R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整。这里结合Statistical Learning和杜克大学的Data Analysis and Statistical Inference的章节以及《R语言实战》……
R数据处理——tidyr包
R数据处理——tidyr包 在进行数据处理时,tidyr包这往往与dplyr包一起使用。我们将演示的tidyr包下面四个功能: gather—宽数据转为长数据。类似于reshape2包中的melt函数 spread—长数据转为宽数据。类似……
薛丽丹 2016-06-03
纵向数据分析:多级线性增长模型2
纵向数据分析:多级线性增长模型2 这篇文章已经是纵向数据分析系列的第三篇了。之前,我们介绍了什么是纵向数据,我们如何把长型的数据集转换成纵向的数据集,并通过建立相应的多级模型进行分析。显然,仅仅介绍基本的多级模型并不足以对虚拟随机对照实验数……
firedata 2016-06-01
R可视化3——图形展示参数设置
R可视化3——图形展示参数设置 在R的绘制图形函数中存在大量可被调优的参数,参数的不同都会给我们图形可视化带来不一样的效果。然而,许多标准帮助文件和其他方式对于初学者开始时难以把握。在本文中,我们将看到如何控制轴的每个方面,包括轴标签、标度……
薛丽丹 2016-06-01
R语言读书心得12-图像的组合与可视化入门总结
4.5图像的组合 在R的可视化操作过程中,我们有时需要在一个界面内同时显示几个不同的图像,而在R中,我们可以用par()函数和layout()函数来实现。 在par()函数中,我们可以使用参数mfrow=c(nrows,ncols)来实现几……
firedata 2016-05-31
R语言读书心得11-文本和图例
4.4添加文本、图例以及自定义坐标轴 很多功能强大的R作图函数(如plot()、hist()、boxplot()等)都允许你对坐标轴,像设置R图像参数那样,对坐标轴进行相关的参数设置来达到你所需要的图像的质量。下面,我们先看这样的一个实例:……
firedata 2016-05-31
“高大上”的 Monte Carlo Simulations
“高大上”的 Monte Carlo Simulations Cynthia Li, CFA 2016-05-23 前言 Monte Carlo Simulations 做统计数据分析,少不了要和概率打交道,上千上万次的模拟实验人工做起来……
R语言读书心得10-R语言图像参数设置
4.3图像参数 4.3.1图像参数的设定 就刚刚讲过的一个例子来说,我们之前设置type=”b”能作出一种折线图的格式。我还说了,在R语言当中,我们还可以设定别的值来作不同的参数,而这时,我们需要了解一些R语言可视化里相关的一些图像参数。 ……
firedata 2016-05-30
R语言读书心得9-R语言可视化初步
经过前面的学习,我相信大家对于R语言最基本的理论知识、基本函数的运用乃至数据的管理,都有了一定的认识。而现在,我们正式进入R语言当中一个新的主题,数据可视化。什么是数据可视化呢?简单来说,数据可视化就是把数据转换成一种视觉形式的数据的技术,……
firedata 2016-05-30
纵向数据分析:多级增长模
纵向数据分析:多级增长模 上一次,我们讨论了如何对长型数据转换成长型的数据,同时还是用了一个随机创建的对照实验数据集来对其增长趋势进行可视化。但是,我们是否能够进一步的分析并预测结果的增长趋势与时间之间的关系。 是的,当然可以!我们可以使用……
firedata 2016-05-29
R可视化之二----用gglot2做工资的炫酷展示
R可视化之二----用gglot2做工资的炫酷展示 我们基于美国职业足球大联盟球员的薪水,试用ggplot2做出队员名字对应Club及工资水平的可视化(数据集回复可得)。探索性的展示,我们需要载入plyr和ggplot2包。 1、数据处理 ……
薛丽丹 2016-05-28
时间序列分析:对非平稳时间序列进行建模
时间序列分析:对非平稳时间序列进行建模 在这篇博客中,我将会简单的介绍一下时间序列分析及其应用。这里,我们将使用匹兹堡大学的教授David Stoffer所开发的R包astsa进行时间序列分析。而与之相关的课本,可以在[Time Serie……
firedata 2016-05-28
如何检测异方差性并校正
如何检测异方差性并校正 线性回归里,一个很重要的假设就是,它不应该存在异方差残差。更简单地说,它不应该因为因变量的预测值的增大而增大。在这篇博客当中,我会解释为什么检测异方差性是很重要的,并且怎样在你的模型中检测出来?如果它存在,我们由应该……
firedata 2016-05-27
如何使用线性回归分析来预测发电厂的发电量
如何使用线性回归分析来预测发电厂的发电量 在这篇文章中,我将会教大家如何通过拟合一个线性回归模型来预测联合循环发电厂(CCPP)的发电量。这个数据集则来自于[UCI Machine Learning Repository](http://a……
firedata 2016-05-26