当前位置: 首页 > news >正文

新源网站建设网页设计作业心得体会

新源网站建设,网页设计作业心得体会,帮别人做网站怎么备案,wordpress更新是乱码题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据#xff0c;需要访问大量的网页才能够完成任务。 这里有一个网站#xff0c;还是求所有数字的和#xff0c;只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据需要访问大量的网页才能够完成任务。 这里有一个网站还是求所有数字的和只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import requests import reurl http://www.glidedsky.com/level/web/crawler-basic-2headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }res 0 for i in range(1, 1001):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)for n in n_list:res int(n)print(fResult: {res})使用多线程实现更快爬取 import requests import re import threadingurl http://www.glidedsky.com/level/web/crawler-basic-2 total_threads 10 # 设置线程数量 lock threading.Lock() # 创建一个锁用于线程间的数据同步 res 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)with lock:for n in n_list:res int(n)threads [] headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }# 创建并启动线程 for i in range(total_threads):thread threading.Thread(targetworker, args(i,))thread.start()threads.append(thread)# 等待所有线程执行完成 for thread in threads:thread.join()print(fResult: {res})使用异步函数 import aiohttp import asyncio import reurl http://www.glidedsky.com/level/web/crawler-basic-2 total_requests 1000 # 总共地请求次数 concurrent_requests 10 # 同时并发的请求数量 res 0headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }async def fetch_url(session, temp_url):async with session.get(temp_url, headersheaders) as response:html await response.text()pattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks []for i in range(1, total_requests 1):temp_url url ?page str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) concurrent_requests or i total_requests:results await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres ntasks []loop asyncio.get_event_loop() loop.run_until_complete(main())print(fResult: {res})时间统计同步的方式大概80s多线程和异步时间差不多都是20s左右
http://wiki.neutronadmin.com/news/440235/

相关文章:

  • 网站视频播放器用什么做的浦东网站建设箱海运
  • 网站开发模式名词网站建设给客户看的ppt
  • 泉州seo 泉州网站建设wordpress导致宕机
  • 高端个人网站企查查官网官网
  • 网页设计与网站建设教程做外贸如何选择网站
  • 在哪学习建网站如何建设一个博客网站
  • 网站建设的原因国家建设工程网官方网站
  • 如何开发自己的网站拼多多关键词排名查询软件
  • 宝塔如何添加ip域名做网站淘宝商城正品
  • ppp项目建设交易网站营销公司
  • 网站怎么做统计网站开发时间计划
  • 个人备案网站类型永远免费的域名
  • 郑州网站建设鹏之信揭阳网站制作建设
  • 如何设置网站icon深圳网站 商城制作
  • 足球网站模板下载什么软件可以做动画
  • 做网站百度关键排名长春网站seo外包
  • 住房城乡建设网站官网入口html国外网站源码
  • 课程网站建设的步骤百度网站建设工具
  • 适用于个人网站的域名个人网站开发背景及意义
  • 净水设备 技术支持 东莞网站建设百度广告推广费用
  • 网站项目设计流程案例想给孩子找点题做 都有什么网站
  • 个人淘宝客网站百度地图网页版入口
  • 加强心理咨询网站的建设方案网络规划设计师案例分析
  • 用织梦做的网站下载前端培训机构去哪个好
  • 湖南张家界网站建设做动图的网站
  • 什么网站简单网站主服务器所在地地址
  • 建c2c网站费用十大工业互联网平台
  • 洪梅网站建设公司介绍国外的网站有什么不同
  • 自己做网站 为什么出现403WordPress 文章编辑
  • 中山百度网站推广优秀网视频剪辑