当前位置: 首页 > news >正文

建立网站的方式wordpress做成仿阿里巴巴

建立网站的方式,wordpress做成仿阿里巴巴,长沙网站排名公司哪家好,常做网站首页的文件名一. 内容简介 python爬取robomaster论坛文章数据。 二. 软件环境 2.1vsCode 2.2Anaconda version: conda 22.9.0 2.3代码 三.主要流程 3.1 接口分析#xff0c;以及网页结构分析 # 这是文章链接,其实id就是文章的id # https://bbs.robomaster.com/forum.php?modview…一. 内容简介 python爬取robomaster论坛文章数据。 二. 软件环境 2.1vsCode 2.2Anaconda version: conda 22.9.0 2.3代码 三.主要流程 3.1 接口分析以及网页结构分析 # 这是文章链接,其实id就是文章的id # https://bbs.robomaster.com/forum.php?modviewthreadtid9234 # 文章结构 # 大疆这个文章,在访问网站时候,他会把文章内容在服务端拼接好,是没办法直接拿到接口数据的, # 第一个方面就是,urllib访问时候,拿到整个网页结构,这个结构是不带js执行的,虽然数据都有,但是是和浏览器里面有些定位不太一样的,在用xpath解析时候,经常找不到,有点不太方便 # 第二个方面,就是因为里面有些内容需要登录,这个登录有两种验证方式,一种是token,一种是cookie,大疆是cookie,所以我们需要在请求头中假如cooke访问,分别用urllib和elenium实现3.2 通过urllib携带cookie爬取网页结构 import urllib.request from lxml import etree import json from selenium.webdriver.common.by import By from selenium import webdriver import random import time import pyautogui from datetime import datetime import ssl import re import urllib.request def urllibRequest(url):headers {Cookie:换成自己的直接去网页请求里面复制,User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 16_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.6 Mobile/15E148 Safari/604.1}# 创建一个不验证证书的上下文对象context ssl._create_unverified_context()request urllib.request.Request(urlurl, headersheaders)response urllib.request.urlopen(request, contextcontext) # 在这里传入context参数content response.read().decode(UTF-8)return contenturl https://bbs.robomaster.com/forum.php?modviewthreadtid9234 content urllibRequest(url) print(content) 里面有一点需要注意的就是这个网页结构如果不能解析的话要加这个里面xml会报错替换一下就好 content_without_declaration re.sub(r^\?xml.*\?, , content) html_tree etree.HTML(content_without_declaration)3.3 通过selenium携带cookie爬取网页结构 直接给selenium加个请求头 import urllib.request from lxml import etree import json from selenium.webdriver.common.by import By from selenium import webdriver import random import time import pyautogui from datetime import datetime import randomdef seleniumRequest(url,chrome_path,waitTime): headers {User-Agent:Mozilla/5.0 (iPhone; CPU iPhone OS 16_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.6 Mobile/15E148 Safari/604.1Cookie:换自己的}options webdriver.ChromeOptions()# 添加cookie到浏览器中options.add_experimental_option(excludeSwitches, [enable-automation])options.add_experimental_option(useAutomationExtension, False)# 添加Header到options中options.add_argument(fuser-agent{headers[User-Agent]})options.add_argument(fcookie{headers[Cookie]})# 谷歌浏览器exe位置options.binary_location chrome_path# 是否要启动页面# options.add_argument(--headless) # 启用无头模式# GPU加速有时候会出bugoptions.add_argument(--disable-gpu) # 禁用GPU加速options.add_argument(--disable-blink-featuresAutomationControlled)driver webdriver.Chrome(optionsoptions)driver.execute_cdp_cmd(Page.addScriptToEvaluateOnNewDocument,{source: Object.defineProperty(navigator, webdriver, {get: () undefined})})# 启动要填写的地址,这就启动浏览器driver.get(url)# 这是关闭浏览器# 等待页面加载可以根据实际情况调整等待时间driver.implicitly_wait(waitTime)# 获取完整页面结构full_page_content driver.page_source# 关闭浏览器driver.quit()return full_page_content # # 处理完整页面结构 # print(full_page_content) url https://bbs.robomaster.com/forum.php?modviewthreadtid9234 # print(url)chrome_path rC:\Program Files\Google\Chrome\Application\chrome.exe waitTime 8 # 获取网页结构 # 通过selenium调用浏览器访问 content seleniumRequest(url,chrome_path,waitTime) print(content)3.4 网页结构定位 一般都是通过xpath语法一个div下面如果有多个类我xpath就选不到了,可以用下面这个 //div[contains(class, example)]还有一种方式可以用谷歌浏览器里面的工具就不用自己一个一个选了 还有就是xpath选取得结构用txt保存下来里面代码包括结构 # # 解析对应数据 # contents html_tree.xpath(//div[classmessage])[0] # print(contents)# # # 将选定的div元素转换为字符串 # div_html etree.tostring(contents, encodingunicode)# # print(div_html) # # # 将HTML保存为文件 # with open(output.txt, w, encodingutf-8) as f: # f.write(div_html)
http://wiki.neutronadmin.com/news/327804/

相关文章:

  • 网站建设 套格式做护肤的网站有哪些
  • 中成网站建设网站开发新闻管理系统的背景
  • 郑州网站关键手机网站建设的费用
  • 太平阳电脑网网站模板深圳做兼职的网站设计
  • 做优惠券网站如何引流30岁做网站编辑
  • flash个人音乐网站模板源码阿里巴巴开通诚信通后网站怎么做
  • 网站一般宽度临沂小程序开发公司哪家好
  • 如何让自己的网站被搜索引擎收录全网引流推广 价格
  • 免费静态网站托管平台南宁建站模板厂家
  • 有关企业电子网站建设论文安徽建设网官方网站
  • 北京做兼职网站有哪些北京设计公司有哪些公司
  • 网站建设商城制作怎么提高网站响应速度
  • 惠州市两学一做网站嘉定网站建设公司
  • 网站能实现什么功能做网站找个人还是公司
  • 汕头企业制作网站推广合肥 中网站
  • 网站建设与维护1997年WordPress系统配置要求
  • 做网站的域名是做什么用的荥阳做公司网站的公司
  • 惠州市网站建设公司免费软件电视剧最全
  • 网站单页支付宝支付怎么做怎样申请微信小程序开店
  • 网站的设计与制作论文题目温州市网站建设哪家公司好
  • iis网站子目录设置二级域名可以做设计私单的网站
  • 直播间挂人气自助网站网站被抄袭
  • 番禺建设网站哪家好4399游戏官网
  • 东莞做网站 自媒体网站建设案例 算命网站
  • 北京市网站制作郑州做网站哪家比较好
  • 菏泽科技网站建设购物网站开发环境
  • 网站模板 北京公司企业网站建设需要哪些软件
  • 用wordpress建站一定要先有域名和空间吗网站外链建设:论坛签名是否还值得做
  • 做试管婴儿的网站青岛易龙网站建设
  • 有教做点心的网站吗光谷做网站推广价格