中国统计网

登录

首页

分类浏览

专题

专栏作者

问答

线下活动

企业招聘

app下载

投稿

注册




分类模型是数据挖掘中应用非常广泛的算法之一,常用的分类算法有Logistic模型、决策树、随机森林、神经网络、Boosting等。针对同一个数据集,可以有这么多的算法进行分析,那如何评估什么样的模型比较合理呢?本文就讲讲常用的模型验证武器,主要包括混淆矩阵、ROC曲线、提升度、增益法和KS统计量。……

刘顺祥 数据挖掘 2017-01-20 0

文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。首先评论数据如何获取?一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。……

刘顺祥 数据挖掘 2017-01-20 1

在上一期的《浅谈C5.0与CART算法的比较--理论理解》我们详细讲解了有关C5.0决策树和CART决策树的理论知识,接下来我们将从实际的案例中来比较两个算法的实现。……

刘顺祥 数据挖掘 2017-01-19 0

决策树的发展决策树是目前比较流行的一种分类算法,实质上是一种自上而下的归纳学习算法。今天我们就来从理论的角度梳理一下C5.0与CART算法之间的区别。……

刘顺祥 数据挖掘 2017-01-19 0

随着游戏市场竞争的日趋激烈,在如何获得更大收益延长游戏周期的问题上,越来越多的手机游戏开发公司开始选择借助大数据,以便挖掘更多更细的用户群、了解用户习惯来进行精细化、个性化的运营。……

在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对未来/未知进行预测控制。虽然是说从现有的数据当中掌握规律,但是很显然地,我们的重心还是在于预测上。……

这个是中国R语言大会的演讲材料,网上也能找到现场视频……

我干这行有几年了,见了很多人,干了很多公司,爆一爆这个行业的状况吧……让后来人有所了解,也让猎头挖人挖的有点方向,起码和candidates聊天的时候不至于什么也不清楚谈不明白,不清楚价值,等等……

对不存在技术难点的代码坚持不注释,对存在技术难点的代码必须注释。但与注释不同,建议对每一个包、模块、类、函数(方法)写 docstrings,除非代码一目了然,非常简单。……

fullerhua 数据挖掘 2017-01-12 0

1 分别使用岭回归和Lasso解决薛毅书第279页例6.10的回归问题。例6.10的问题如下:……

   
热点资讯
专栏作者
  • 数据海洋
    统计网特邀认证作者
    数据应用的实践者!
  • 傅一平
    统计网特邀认证作者
    浙江移动大数据中心 数据管理部经理 博士 毕业于浙江大学 10多年数据从业经验,专注于大数据采集、处理、建模、管理、变现及产业等研究
  • 张溪梦
    统计网特邀认证作者
    GrowingIO创始人&CEO,前LinkedIn商务分析总监
  • 桑文锋
    统计网特邀认证作者
    神策数据创始人 & CEO,出身于百度大数据部。
版权所有: 统计网. Copyright © 2016 itongji.cn All Rights Reserved. 备案号:ICP备15042641号-3