博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫_糗事百科(正则表达式)
阅读量:4966 次
发布时间:2019-06-12

本文共 1081 字,大约阅读时间需要 3 分钟。

1 import requests 2 import re 3 from lxml import etree 4  5 headers = 'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/60.0' 6  7  8 def get_html(url): 9     try:10         response = requests.get(url, headers)11         response.raise_for_status()12         response.encoding = 'utf-8'13         return response.text14     except:15         print('get_html() faild')16 17 18 def parse_html(html):19     # 正则表达式20     hrefs = re.findall(r'(.*?)', html, re.S)26     27     new_content = []28     for content in contents:29         content = re.sub('<.*?>', '', content)30         x = content.strip()31         new_content.append(x)32     return new_content33 34 35 def main():36     page_num = 1337     for i in range(1, page_num+1):38         url = 'https://www.qiushibaike.com/text/page/{}/'.format(i)39         html = get_html(url)40         contents = parse_html(html)41         print(contents)42 43 44 if __name__ == '__main__':45     main()
hrefs = re.findall(r'

这个链接的正则表达式感觉写的没问题啊,可是匹配不到东西,奇了怪了,先放着吧,xpath可以匹配到

运行结果

 

转载于:https://www.cnblogs.com/MC-Curry/p/9431365.html

你可能感兴趣的文章
Linux centosVMware shell 管道符和作业控制、shell变量、环境变量配置文件
查看>>
【设计模式】工厂模式
查看>>
两个表格中数据不用是一一对应关系--来筛选不同数据,或者相同数据
查看>>
客户数据库出现大量cache buffer chains latch
查看>>
機械の総合病院 [MISSION LEVEL: C]
查看>>
实战练习细节(分行/拼接字符串/字符串转int/weak和copy)
查看>>
Strict Standards: Only variables should be passed by reference
查看>>
hiho_offer收割18_题解报告_差第四题
查看>>
AngularJs表单验证
查看>>
静态方法是否属于线程安全
查看>>
02号团队-团队任务3:每日立会(2018-12-05)
查看>>
SQLite移植手记1
查看>>
js05-DOM对象二
查看>>
mariadb BINLOG_FORMAT = STATEMENT 异常
查看>>
C3P0 WARN: Establishing SSL connection without server's identity verification is not recommended
查看>>
iPhone在日本最牛,在中国输得最慘
查看>>
动态方法决议 和 消息转发
查看>>
js 基础拓展
查看>>
C#生成随机数
查看>>
Android应用程序与SurfaceFlinger服务的连接过程分析
查看>>