网站建设遵循的原则,网站做支付接口,网站优化seo怎么做,用vps安装Wordpresspython 正则表达式知识点正则 常用符号. : 匹配任意字符#xff0c;换行符除外* #xff1a; 匹配前一个字符 0 次或者无限次#xff1f; #xff1a; 匹配前一个字符 0次或者1次.* #xff1a; 贪心算法.*#xff1f; #xff1a;非贪心算法()#xff1a; 括号内的数…python 正则表达式知识点正则 常用符号. : 匹配任意字符换行符除外* 匹配前一个字符 0 次或者无限次 匹配前一个字符 0次或者1次.* 贪心算法.* 非贪心算法() 括号内的数据作为结果返回正则常用方法findall: 匹配所有符合规律的内容返回包含结果的列表Search 匹配并提取第一个符合规律的内容返回一个正则表达式对象Sub: 替换符合规律的内容返回替换后的值正则表达式的基本应用 ,使用正则表达式过滤一个简单的test文件test 文件如下html极客学院爬虫测试《python定向爬虫入门》这是第一条这是第二条这是第三条这是第四条正则使用效果如下#coding:utf-8import reold_urlhttp://www.jikexueyuan.com/course/web/?pageNum2total_page13f open(t1.txt,r,encodingutf-8)html f.read()f.close()#爬取标题title re.search((.*?),html,re.S).group(1)#使用search 找到所需要的内容就返回print(title)执行代码显示如下极客学院爬虫测试#爬取链接links re.findall(href(.*?),html,re.S)print(links)执行代码显示如下[http://www.jikexueyuan.com/welcome.html, http://www.jikexueyuan.com/1.html, http://www.jikexueyuan.com/2.html, http://www.jikexueyuan.com/3.html, http://www.jikexueyuan.com/4.html]#提取文字text_filed re.findall((.*?),html,re.S)[0]print(text_filed)print()the_text re.findall((.*?),text_filed,re.S)for every_text in the_text:print(every_text)执行代码显示如下这是第一条这是第二条这是第三条这是第四条#sub 实现翻页功能for i in range(7,total_page1):new_link re.sub(pageNum\d,pageNum%d %i,old_url,re.S)print(new_link)执行代码显示如下http://www.jikexueyuan.com/course/web/?pageNum7http://www.jikexueyuan.com/course/web/?pageNum8http://www.jikexueyuan.com/course/web/?pageNum9http://www.jikexueyuan.com/course/web/?pageNum10http://www.jikexueyuan.com/course/web/?pageNum11http://www.jikexueyuan.com/course/web/?pageNum12http://www.jikexueyuan.com/course/web/?pageNum13