当前位置：首页 > news >正文

湛江做网站从订阅号怎么做网站

news 2026/1/9 13:53:16

湛江做网站从,订阅号怎么做网站,做彩票网站犯法,线上推广外包公司因为很多网站都增加了登录验证#xff0c;所以需要添加一段利用cookies跳过登陆验证码的操作 import pandas as pd import requests from lxml import etree # 通过Chrome浏览器F12来获取cookies#xff0c;agent#xff0c;headers cookies {ssxmod_itna2:eqfx0DgQGQ0QGDC…因为很多网站都增加了登录验证所以需要添加一段利用cookies跳过登陆验证码的操作 import pandas as pd import requests from lxml import etree # 通过Chrome浏览器F12来获取cookiesagentheaders cookies {ssxmod_itna2:eqfx0DgQGQ0QGDC8DXxxxxx,ssxmod_itna:euitGKD5iIgGxxxxx} agent Mozilla/5.0 (Windows NT 10.0; Win64; x64)xxxxxxxheaders {User-Agent : agent,Host:www.xxx.com,Referer:https://www.xxx.com/ } #建立会话 session requests.session() session.headers headers cookies获取方式 chrmoe浏览器F12把name和value填入cookies agent获取方式任意点击一条网络资源右侧headers往下翻到底测试访问是否成功 #↓此处测试访问是否成功成功的话返回码200 requests.utils.add_dict_to_cookiejar(session.cookies, cookies) url https://www.xxx.com/search-prov/36/3604/p1 responsesession.get(url) print(response) 访问成功的话进入下一步一般翻页后查看网址变化就能得出网址规则 #初始化df数据 df pd.DataFrame(columns [企业名称])#观察翻页后网址变化规律取10页数据 for k in range(10): url https://www.xxx.com/search-prov/36/3604/p str(k1) / cookies_dict requests.utils.add_dict_to_cookiejar(session.cookies, cookies)page_text requests.get(url, headers headers, cookies cookies_dict).text # GET#print(page_text)tree etree.HTML(page_text) #数据解析#取到企业名对应xpathname [i for i in tree.xpath(//div[classcompany-title font-18 font-f6]/a/text())]dic {企业名称:name}df1 pd.DataFrame(dic)df pd.concat([df,df1], axis0)#print(df) print(全部数据爬取成功) print(df) 最后将结果导入csv文件编码格式utf-8-sig防止乱码 #将df数据写入csv文件 df.to_csv(xx企业名录.csv,indexNone,encoding utf-8-sig)

查看全文

http://wiki.neutronadmin.com/news/488078/