中国统计网

登录

首页

分类浏览

专题

专栏作者

问答

线下活动

企业招聘

app下载

投稿

注册




今天做了个小玩意,但觉得挺有意思的,分享给大家。主要是这样的,因为帮妹子寻找考试资料,发现同一本书不同的章节分别在不同的链接中,复制起来实在要命,所以就在想能不能用爬虫实现。下图是我们要爬取得页面,注意看下面叫讲义的表格……

最近有一些车辆的gps数据要分析,想着能否先直观地感受下车辆的运行情况,正好有leaflet地图库,做起来很方便。简单实现了基本需求后,想着能不能封装下,弄成个python包的形式,这样可以在其他地方使用pip安装,在程序里import调用,也显得简洁。……

现在我们开始来编写第一只爬虫,首先需要有Python的环境,参考Python环境搭建及IDE选择进行安装。接下来需要导入相关模块,这只用到Python标准库里的三个模块就可以实现简单的爬虫。urllib模块用来下载图片,urllib2模块用来请求目标网站获取响应的内容,而re模块则是用来匹配字符串,提取有用的数据信息。……

简杨 数据挖掘 2017-03-21 0

医院每天都有新生儿呱呱落地。每天会有多少男婴出生,多少女婴出生呢?这个问题不难,我们可以用二项式分布来计算,python建模观察。……

Toby 数据挖掘 2017-03-21 0

随着市场竞争的加剧,中国电信面临的压力越来越大,客户流失也日益增大。从统计数据看,今年固话小灵通的销户数已经超过了开户数。面对如此严峻的市场形式,当务之急就是要尽全力减少客户的流失。因此,利用数据挖掘方法,建立一套可以及时预测客户流失率的模型就相当有必要。……

做过蒙特卡洛试验的朋友会有感悟:决定一个系统走势是多因素构成,而非单一因素决定。例如癌症,医生常说抽烟致癌,不要抽烟,但实际生活中抽烟长寿的人不少,我的姨婆九十多岁了,每日抽烟喝酒,身体也不错。决定癌症的因素很多,例如遗传,饮食,起居时间,居住环境,化工污染等等。下图转自一份医学研究,说明没有任何食物百分之百致癌或抑制癌症。……

Toby 数据挖掘 2017-03-17 0

嗯,这一篇文章更多是想分享一下我的网页分析方法。玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就是分析过程,对性能没有特殊要求的情况下,编程一般是小事。……

朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。接下来我们就详细介绍该算法的知识点及实际应用。……

刘顺祥 数据挖掘 2017-03-14 0

在《Python即时网络爬虫项目: 内容提取器的定义》一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间。本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛,是一个用Drupal做的论坛。……

knn算法也称k最近邻算法,其乃十大最有影响力的数据挖掘算法之一,该算法是一种有监督的挖掘算法,既可以解决离散因变量的分类问题,也可以做连续因变量的预测问题,而且该算法没有复杂的数据推导公式、更易于常人理解。接下来我们就来看看这个流行算法到底是个什么鬼?……

刘顺祥 数据挖掘 2017-03-09 0
   
热点资讯
专栏作者
  • 数据海洋
    统计网特邀认证作者
    数据应用的实践者!
  • 傅一平
    统计网特邀认证作者
    浙江移动大数据中心 数据管理部经理 博士 毕业于浙江大学 10多年数据从业经验,专注于大数据采集、处理、建模、管理、变现及产业等研究
  • tommy
    统计网特邀认证作者
    数据落地应用探索者
  • 张溪梦
    统计网特邀认证作者
    GrowingIO创始人&CEO,前LinkedIn商务分析总监
版权所有: 统计网. Copyright © 2016 itongji.cn All Rights Reserved. 备案号:ICP备15042641号-3