中国统计网

登录

首页

分类浏览

专题

专栏作者

问答

线下活动

企业招聘

app下载

投稿

注册




从本质上来讲,大数据平台的目标都是完成对数据的采集、清洗、加工、加载、建模分析,可视化的过程。……

孔淼 大数据技术 2017-01-19 0

本篇来源于书籍《数据之美—一本书学会可视化设计》的学习后整理所得。全篇主要围绕数据可视化的5个步骤展开,其中重点内容是第三步:“应该使用哪种可视化形式”。本篇旨在带你全面认识了解可视化,所以一些具体的工具的使用并未涉及,只是罗列类一些常用的可视化工具。……

用过Mysql的都知道她有一个很好的实现行转列功能的函数group_concat函数,非常方便……

如何?注意到了吗?python还自动把原来头三行10位数的 前面补零给补成13位了~牛!……

传统的用户研究包括品牌研究、客户满意度研究、商圈研究、市场细分、渠道研究、产品定价研究以及产品测试,这些研究大多数用市场调研的方法来实现。市场调研由于调研方法带来的诸多问题,导致结果的代表性、准确性以及研究的效率都存在不同程度的挑战。……

前两篇文章介绍了如何爬取微博用户个人资料、关注者列表、粉丝列表以及发表的微博。那么,在这篇文章里,将介绍如何把前几篇的内容融合到一起,整合成一个完整的新浪爬虫框架。OK,让我们来见证一个爬虫的诞生吧^_^。……

用PG来做数仓我是极力推崇的,不单单源于PG对OLAP的“绝佳”性能,更是她功能的完备性:比如分析中常用的窗口函数,各种索引GiST索引、GIN索引、部分索引、B树就不用说了,物化视图,最最无敌的FDW(Foreign Database Wrapper),搞数仓必然会有很多数据源,如何方便的打通各个数据源,借助FDW啊!……

近来有很多同学咨询卡方检验理论频数过小的问题,现统一回复:对行乘列卡方检验时,要求不能有五分之一以上的单元格理论频数小于5,或者不能有任意一个格子理论频数小于1,否则容易出现偏差,可以采取以措施……

总之,互联网思维和大数据有着紧密的关系。互联网思维背后代表的是商业模式、产品设计、产品运营,而大数据在不同程度的支撑或者驱动这三方面。如果大数据能够作为商业模式的一部分或者更准确的说是作为企业产品的一个引擎,那么企业的能量和想象空间将会更大。而大数据在产品设计和运营环节都能起到不同程度的左右,作用最为明显的是在驱动产品的精细化运营。……

新浪微博数据的爬取主要有两种方法,第一种方法虽然官方封装甚好,给出的数据也比较丰富,但说到底还是限制太多,很多接口只能获取当前登录用户的信息,无法获取好友的信息(你若不信,可以实践一下),所以在爬取数据的过程中干脆放弃了。本文主要介绍第二种方法,即如何结合正则爬取页面信息。……

   
热点资讯
专栏作者
  • 数据海洋
    统计网特邀认证作者
    数据应用的实践者!
  • 傅一平
    统计网特邀认证作者
    浙江移动大数据中心 数据管理部经理 博士 毕业于浙江大学 10多年数据从业经验,专注于大数据采集、处理、建模、管理、变现及产业等研究
  • 张溪梦
    统计网特邀认证作者
    GrowingIO创始人&CEO,前LinkedIn商务分析总监
  • 桑文锋
    统计网特邀认证作者
    神策数据创始人 & CEO,出身于百度大数据部。
版权所有: 统计网. Copyright © 2016 itongji.cn All Rights Reserved. 备案号:ICP备15042641号-3