网站开发指南,wordpress跳转内容页,高密制作网站,建筑工程网招聘信息记录个还没解决的问题。下面爬虫代码是可以执行的#xff0c;但是在我的Ubuntu的虚拟中刚开始是可以运行的#xff0c;但是#xff0c;后来不知道改了什么东西#xff0c;用urllib2写的爬虫和用scrapy 的爬虫代码都不能运行了#xff01;#xff01;。
import urllib2
i…记录个还没解决的问题。下面爬虫代码是可以执行的但是在我的Ubuntu的虚拟中刚开始是可以运行的但是后来不知道改了什么东西用urllib2写的爬虫和用scrapy 的爬虫代码都不能运行了。
import urllib2
import reclass Spider:def __init__(self):self.page 1self.switch Truedef loadPage(self):print loadPageurl http://www.neihan8.com/article/list_5_ str(self.page) .htmlheaders {User-Agent : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36}request urllib2.Request(url, headersheaders)response urllib2.urlopen(request)html response.read()gbk_html html.decode(gbk).encode(utf-8)pattern re.compile(div\sclassf18 mb20(.*?)/div, re.S)content_list pattern.findall(gbk_html)self.dealPage(content_list)def dealPage(self, content_list):for item in content_list:item item.replace(br /, ).replace(p, ).replace(/p, )self.writePage(item)def writePage(self, item):with open(duanzi.txt, a) as f:f.write(item)def startWork(self):while self.switch:self.loadPage()command raw_input(please enter continue, q back)if command q:self.switch Falseself.page 1print 3q useif __name__ __main__:s Spider()s.startWork()爬虫结果 在终端下的错误信息。
Traceback (most recent call last):File 01-neihan.py, line 44, in modules.startWork()File 01-neihan.py, line 34, in startWorkself.loadPage()File 01-neihan.py, line 15, in loadPageresponse urllib2.urlopen(request)File /usr/lib/python2.7/urllib2.py, line 154, in urlopenreturn opener.open(url, data, timeout)File /usr/lib/python2.7/urllib2.py, line 429, in openresponse self._open(req, data)File /usr/lib/python2.7/urllib2.py, line 447, in _open_open, req)File /usr/lib/python2.7/urllib2.py, line 407, in _call_chainresult func(*args)File /usr/lib/python2.7/urllib2.py, line 1228, in http_openreturn self.do_open(httplib.HTTPConnection, req)File /usr/lib/python2.7/urllib2.py, line 1198, in do_openraise URLError(err)
urllib2.URLError: urlopen error [Errno 111] Connection refused
出现这个问题之前是我想fangqiang, 所以设置了代理后来把代理关了也不行。这问题目前还没解决不知道是Ubuntu的环境问题还是python的问题。
问题定位出问题确实是代理的问题了。
解决办法
1、首先查看下 /etc/apt/apt.conf发现里面里面有
http_proxyhttp://192.168.16.109:13128/ https_proxyhttps://192.168.16.109:13128/
也许内容和我的不一样。然后删除这个文件然后重启电脑发现里面还没有解决。
2、查看一下cat /etc/enviroment发现有配置
http_proxyhttp://192.168.16.109:13128/ https_proxyhttps://192.168.16.109:13128/
把里面的配置文件删除了切记PATH/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games这一行不要删除不然Ubuntu开机就不能进入到桌面了
3、然后重启电脑执行代码问题解决。