原创 R工作环境搭建
> 要用好R,首先要搭建好R工作环境 本文介绍R工作环境搭建步骤 1 R软件下载和安装 R软件下载链接:https://mirror.lzu.edu.cn/CRAN/ Windows R软件 如下图: 下载成功后,点击安装,逐步顺序执行,……
原创 R简介
>为什么用R?R是什么?用R做什么? 本文结合自身工作体验,回答之。 1 为什么用R? 原因有三,分别是: 能够很好地解决我工作中遇到的数据问题,有效地实现数据到商业价值的转换。 开源工具,分享文化。 活跃社区,丰富资料,可以快速学习和转……
原创 tensorflow高质量资料汇总
>tensorflow高质量资料,让您又快又好地学习和应用tensorflow。 本文汇总tensorflow的高质量资料,包括:文档、论文、书籍、课程和案例。 1 文档 1 [Getting Started With TensorFlow……
原创 tensorflow工作环境搭建
>要掌握tensorflow,首先要搭建好tensorflow工作环境 本文介绍tensorflow工作环境搭建步骤。 1 下载和安装Python3.6 Python3.6下载链接: https://www.python.org/downl……
原创 tensorflow系列文章
tensorflow是谷歌公司设计和开发的深度学习开源框架。 本文总结和记录tensorflow相关的内容。 1 tensorflow工作环境搭建 2 [tensorflow高质量资料汇总](http://shujuren.org/art……
原创 R做决策树模型
决策树是数据建模中的重要模型之一,可以很好地完成预测分析(回归或者分类)的任务。 通过本文,可以了解决策树以下内容: 决策树是什么 决策树的优劣 决策树的应用 如何设计和构建决策树 R语言做决策树案例 让我们开始吧。 决策树是什么 决……
原创 数据质量为什么至关重要
数据质量为什么至关重要? 因为拥有高质量的数据可以让您更好地了解任何情况,从而更精准地执行任何事情。反之亦然。 据SAS报道,伴随着技术的进步,组织或者企业能够收集大量的数据,用好这些数据已成为焦点。然而,由于以下原因,很多组织或者企业并……
翻译 讲好数据科学故事指南
人们喜欢故事,人们可以与故事联系,人们记下好故事。 请让你的数据讲一个美好的故事。如果你能够通过数据来创造故事,人们会注意到的。 数据故事也好,其它故事也罢,一个伟大的故事没有一个魔法公式。 下面是讲好一个伟大数据科学故事的指南(准则)【……
原创 R系列文章
> R是一门语言,一种软件,一个平台,适合从数据中学习到知识。 R系列文章,记录和分享R相关的知识。 一、基础知识 1 [R简介](http://shujuren.org/article/521.html "R简介") 2 R工作环境搭建……
原创 数据质量是什么
数据质量是对数据在特定应用场景下服务商业目的适应性的评估/评价。 数据质量包括这些方面: 准确性 完整性 时效性(更新状态) 关联性 一致性 可靠性 合理表示 可以访问 在一个公司或者组织内,可接受的数据质量对于运营或者事务处理或者商……
原创 数据质量系列文章
> 垃圾输入,垃圾输出。 数据质量系列文章,总结和记录数据质量相关的知识。 1 [数据质量是什么](http://shujuren.org/article/513.html "数据质量是什么") 2 [数据质量为什么至关重要](http:……
原创 代价函数
代价函数,度量【假设集】的准确性。 机器学习中常用的代价函数,总结如下: 1 误差平方和函数 说明:yi 是模型预测值,oi是样本实际值 2 交叉熵函数 说明: n是批量训练的样本大小 W是模型f的参数 f函数表示xi样本预测为标签l……
原创 Python scikit-learn 做线性回归
Python scikit-learn 做线性回归 线性回归是简单易用的机器学习算法,scikit-learn是python强大的机器学习库。 本篇文章利用线性回归算法预测波士顿的房价。波士顿房价数据集包含波士顿郊区住房价值的信息。 第一……
转载 金融行业大数据用户画像实践
>文|鲍忠铁,TalkingData首席金融行业布道师,上海大数据产业联盟金融行业专家,金融行业大数据实践推动者。 进入移动互联网时代之后,金融业务地域限制被打破。金融企业没有固定业务区域,金融服务面对所有用户是平的。 金融消费者逐渐年轻化……
原创 KNN两种分类器的python简单实现及其结果可视化比较
1.KNN算法简介及其两种分类器 KNN,即K近邻法(k-nearst neighbors),所谓的k最近邻,就是指最接近的k个邻居(数据),即每个样本都可以由它的K个邻居来表达。kNN算法的核心思想是,在一个含未知样本的空间,可以根据离这……
原创 有监督学习和无监督学习
一般情况下,机器学习分为有监督学习和无监督学习。 有监督学习 监督学习是指数据集的正确输出(right output)已知的情况下一类学习算法。因为输入和输出已知,意味着输入和输出之间有一个关系,监督学习算法就是要发现和总结这种“关系”。……