清新区城乡建设局网站,亚网互联网站设计,阿里云centos7 搭建wordpress,php 企业网站在网上看到有人利用pythonbeautifulsoup爬取豆瓣Top250 试着自己模仿这个做了个爬取IMDB的#xff0c; 可惜只能爬取到11个。 后来检查了超久#xff0c; 才发现#xff0c; soupBeautifulSoup(contents)这里#xff0c;内容不完整#xff0c;只能到11个电影为止。 代码如…在网上看到有人利用pythonbeautifulsoup爬取豆瓣Top250 试着自己模仿这个做了个爬取IMDB的 可惜只能爬取到11个。 后来检查了超久 才发现 soupBeautifulSoup(contents)这里内容不完整只能到11个电影为止。 代码如下 import urllib2
from bs4 import BeautifulSoup
mylist[]def crawl(url):headers{User-Agent:Mozilla/5.0(Windows;U;Windows NT 6.1;en-US;rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6}requrllib2.Request(url,headersheaders)pageurllib2.urlopen(req,timeout200)contentspage.read()soupBeautifulSoup(contents)for tag in soup.find_all(tr,class_{odd,even}):m_ordertag.find(td,class_titleColumn).span.get_text()m_nametag.find(td,class_titleColumn).a.get_text()m_rating_scorefloat(tag.find(td,class_ratingColumn imdbRating).strong.get_text())print(%s %s %s % (m_order,m_name,m_rating_score))mylist.append((m_order,m_name,m_rating_score))crawl(http://www.imdb.com/chart/top?ref_nv_ch_250_4) 后来好像需使用正则表达式把爬取来的网页进行处理后才好弄。 但是正则表达式未操作过 如果有人看到想问下是否可以不通过正则表达式来解决这个问题呢转载于:https://www.cnblogs.com/jawiezhu/p/4251265.html