当前位置: 首页 > news >正文

网站模板样式手机网站设计需求分析

网站模板样式,手机网站设计需求分析,网站建设与维护模拟一,ie浏览器官方网址入口前言 Scrapy是非常优秀的一个爬虫框架#xff0c;基于twisted异步编程框架。yield的使用如此美妙。基于调度器#xff0c;下载器可以对scrapy扩展编程。插件也是非常丰富#xff0c;和Selenium#xff0c;PlayWright集成也比较轻松。 当然#xff0c;对网页中的ajax请求…前言 Scrapy是非常优秀的一个爬虫框架基于twisted异步编程框架。yield的使用如此美妙。基于调度器下载器可以对scrapy扩展编程。插件也是非常丰富和SeleniumPlayWright集成也比较轻松。 当然对网页中的ajax请求它是无能无力的但结合mitmproxy几乎无所不能Scrapy PlayWright模拟用户点击mitmproxy则在后台抓包取数据登录一次运行一天。 最终我通过asyncio把这几个工具整合到了一起基本达成了自动化无人值守的稳定运行一篇篇的文章送入我的ElasticSearch集群经过知识工厂流水线变成知识商品。 ”爬虫数据算法智能“这是一个技术人的理想。 配置与运行 安装: pip install scrapy 当前目录下有scrapy.cfg和settings.py即可运行scrapy 命令行运行 scrapy crawl ArticleSpider 在程序中运行有三种写法 from scrapy.cmdline import executeexecute(scrapy crawl ArticleSpider.split())采用CrawlerRunner: # 采用CrawlerRunner from twisted.internet.asyncioreactor import AsyncioSelectorReactor reactor AsyncioSelectorReactor()runner CrawlerRunner(settings) runner.crawl(ArticleSpider) reactor.run()采用CrawlerProcess # 采用CrawlerProcess process CrawlerProcess(settings) process.crawl(ArticleSpider) process.start()和PlayWright的集成 使用PlayWright的一大好处就是用headless browser做自动化数据采集。A headless browser 是一种特殊的Web浏览器它为自动化提供API。通过安装 asyncio reactor 则可以集成 asyncio 基础库用于处理无头浏览器。 import scrapy from playwright.async_api import async_playwrightclass PlaywrightSpider(scrapy.Spider):name playwrightstart_urls [data:,] # avoid using the default Scrapy downloaderasync def parse(self, response):async with async_playwright() as pw:browser await pw.chromium.launch()page await browser.new_page()await page.goto(https:/example.org)title await page.title()return {title: title}使用 playwright-python 与上面的示例一样直接绕过了大多数scrapy组件(中间件、dupefilter等)。建议使用 scrapy-playwright 进行整合。 安装 pip install scrapy-playwright playwright install playwright install firefox chromium settings.py配置 BOT_NAME ispiderSPIDER_MODULES [ispider.spider]TWISTED_REACTOR twisted.internet.asyncioreactor.AsyncioSelectorReactor DOWNLOAD_HANDLERS {https: scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler,http: scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler, }CONCURRENT_REQUESTS 32 PLAYWRIGHT_MAX_PAGES_PER_CONTEXT 4 CLOSESPIDER_ITEMCOUNT 100PLAYWRIGHT_CDP_URL http://localhost:9900 爬虫定义 class ArticleSpider(Spider):name ArticleSpidercustom_settings {# TWISTED_REACTOR: twisted.internet.asyncioreactor.AsyncioSelectorReactor,# DOWNLOAD_HANDLERS: {# https: scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler,# http: scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler,# },# CONCURRENT_REQUESTS: 32,# PLAYWRIGHT_MAX_PAGES_PER_CONTEXT: 4,# CLOSESPIDER_ITEMCOUNT: 100,}start_urls [https://blog.csdn.net/nav/lang/javascript]def __init__(self, nameNone, **kwargs):super().__init__(name, **kwargs)logger.debug(ArticleSpider initialized.)def start_requests(self):for url in self.start_urls:yield Request(url,meta{playwright: True,playwright_context: first,playwright_include_page: True,playwright_page_goto_kwargs: {wait_until: domcontentloaded,},},)async def parse(self, response: Response, current_page: Optional[int] None) - Generator:content response.textpage response.meta[playwright_page]context page.contexttitle await page.title()while True:## 垂直滚动下拉不断刷新数据page.mouse.wheel(delta_x0, delta_y200)time.sleep(3)pass参考链接 scrapy文档官方scrapy-playwright插件崔庆才丨静觅写的插件GerapyPlaywright
http://wiki.neutronadmin.com/news/29997/

相关文章:

  • 快速建站视频网站提示建设中
  • 网站开发框架拓扑服装设计参考网站
  • 广州网站开发培训企业信息查询平台有哪些
  • 十大摄影网站排名网络上做假网站做物流
  • 优化网站佛山厂商制作网站的公司还能赚钱吗
  • 网站浏览器兼容性通用做网站一定要备案吗
  • 湖南 微网站开发与设计比赛wordpress列表框内显示标题
  • 有做lol直播网站网站建设推广的软文
  • 云南省建设工程质量监督管理站网站专业的网络推广
  • 如何看到网站的制作公司四川建设网官网电话
  • 汕头网站建设技术托管土地流转网站建设项目
  • 福州seo公司网站asp.net网站开发教程
  • 企业网站个人可以备案吗网站 布局
  • 动易网站首页制作全屋定制十大名牌有哪些品牌
  • 怎么做网站服务器系统红番茄 网站点评
  • 网站设计规划方案做药材生意的网站
  • Wordpress数据怎么导出seo sem是什么职位
  • wordpress 歌词爱站seo
  • 做网站是不是很麻烦2024年楼市大局已定
  • 江门搜狗网站推广优化上海怎样建设网站
  • 网站建设推广报价安装wordpress教程
  • 门户网站建站目标顶呱呱做网站吗
  • 网站建设和维护要点广东省住房和建设网站
  • 滨州市住房和城乡建设局网站天水模板型网站建设
  • 谷歌网站为何打不开phpcms 视频网站模板下载
  • 网站业务员好做吗国家企业信息公示系统官网河南
  • 网站admin密码wordpress改地址错误
  • 河南企业网站建设价格站长工具seo综合查询降级
  • 河北网站开发报价如何做视频网站
  • 黑龙江省建设安全网站易语言 做的网站