网站地址:直播吧
本来是想写糗事百科的。。但是不知道为什么总是被禁止。。于是就换了个直播吧。
本来以为直播吧的很好写。但是发现直播吧的源代码写的很混乱。相同的比赛,有的是重点比赛,有的不是,因此格式不一样。。。还有的会混着图片。时间大部分都用来处理这方面了。最终想到了用split方法来处理掉中间这些混着的空格,图片和重点比赛标志 。
代码如下:
import urllib
import urllib2
import re
class zbb:
def __init__(self):
self.url='http://www.zhibo8.cc/index.html'
self.user_agent='Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:42.0) Gecko/20100101 Firefox/42.0'
self.headers = {'User_Agent':self.user_agent}
self.request=urllib2.Request(self.url,headers=self.headers)
def run(self):
try:
response=urllib2.urlopen(self.request)
content=response.read().decode('utf-8')
patt=re.compile('
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.e1idc.net