中国统计网

登录

首页

分类浏览

专题

专栏作者

问答

线下活动

企业招聘

app下载

投稿

注册




用python抓一把百度音乐的热歌榜 top500
头像 云开_sky 大数据技术
大数据技术
  1. #!/usr/bin/python

  2. #filename:get_html.py

  3. #coding=utf-8


  4. import urllib2

  5. import re


  6. #item = { 'songItem': { 'sid': '(?=\d)', 'sname': '(?!\d)', 'author': '?!\d' } }

  7. item = "{ 'songItem': { (.*) } }"

  8. item2 = "'sid': '(.*)', 'sname': '(.*)', 'author': '(.*)'"

  9. myfile = file("song.txt",'w')

  10. response = urllib2.urlopen('http://music.baidu.com/top/dayhot')

  11. html = response.read()

  12. html = re.findall(item,html)

  13. i = 1

  14. for rec in html:

  15.     r = re.findall(item2,rec)

  16.     print >> myfile,i,r[0][0],r[0][1],r[0][2]

  17.     i = i+1


如下图是生成的结果文件



另有两篇不错的文章:


1.http://www.jb51.net/article/17560.htm 关于Python字符串的encode与decode的比较透彻的讲解。


2.http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 很好的讲python正则表达式的。


End.


作者:云开_sky(中国统计网特邀认证作者)


本文为中国统计网原创文章,需要转载请联系中国统计网(小编微信:itongjilove),转载时请注明作者及出处,并保留本文链接。

我要评论
验证码
  • 0
暂无评论

关注公众号

中国统计网微信公众号

微信公众号:cntongji

今日热议

专栏作者

  • 数据海洋
    统计网特邀认证作者
    数据应用的实践者!
  • 傅一平
    统计网特邀认证作者
    浙江移动大数据中心 数据管理部经理 博士 毕业于浙江大学 10多年数据从业经验,专注于大数据采集、处理、建模、管理、变现及产业等研究
  • tommy
    统计网特邀认证作者
    数据落地应用探索者
  • 张溪梦
    统计网特邀认证作者
    GrowingIO创始人&CEO,前LinkedIn商务分析总监
  • 黄成明
    统计网特邀认证作者
    黄成明 ,零售数据分析研究者,拥有15年的销售及数据分析经验,历经美国强生公司、妮维雅公司、雅芳公司和鼎盛时期的诺基亚公司。目前是数据化管理的咨询顾问和培训师。他独立研发了基于周销售权重指数的零售管理模型,可以有效地进行目标管理、销售预测、客流预估、促销评估、销售预警等。
  • 桑文锋
    统计网特邀认证作者
    神策数据创始人 & CEO,出身于百度大数据部。
立即下载
版权所有: 统计网. Copyright © 2016 itongji.cn All Rights Reserved. 备案号:ICP备15042641号-3