博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫_糗事百科(正则表达式)
阅读量:4966 次
发布时间:2019-06-12

本文共 1081 字,大约阅读时间需要 3 分钟。

1 import requests 2 import re 3 from lxml import etree 4  5 headers = 'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/60.0' 6  7  8 def get_html(url): 9     try:10         response = requests.get(url, headers)11         response.raise_for_status()12         response.encoding = 'utf-8'13         return response.text14     except:15         print('get_html() faild')16 17 18 def parse_html(html):19     # 正则表达式20     hrefs = re.findall(r'(.*?)', html, re.S)26     27     new_content = []28     for content in contents:29         content = re.sub('<.*?>', '', content)30         x = content.strip()31         new_content.append(x)32     return new_content33 34 35 def main():36     page_num = 1337     for i in range(1, page_num+1):38         url = 'https://www.qiushibaike.com/text/page/{}/'.format(i)39         html = get_html(url)40         contents = parse_html(html)41         print(contents)42 43 44 if __name__ == '__main__':45     main()
hrefs = re.findall(r'

这个链接的正则表达式感觉写的没问题啊,可是匹配不到东西,奇了怪了,先放着吧,xpath可以匹配到

运行结果

 

转载于:https://www.cnblogs.com/MC-Curry/p/9431365.html

你可能感兴趣的文章
python考点
查看>>
DataMining--Python基础入门
查看>>
单片机复位电路
查看>>
php json_decode失败,返回null
查看>>
获取单选按钮选中的值
查看>>
oracle 分页
查看>>
助教学期总结
查看>>
绘制基本 图形之矩形与多边形
查看>>
3-day3-list-truple-map.py
查看>>
02: djangorestframework使用
查看>>
7zip 自解压安装程序
查看>>
Edit控件显示多行文字
查看>>
JS第二周
查看>>
dataTable.NET的search box每輸入一個字母進行一次檢索的問題
查看>>
Python 文件处理
查看>>
邻接表详解
查看>>
服务器一:分布式服务器结构
查看>>
迭代dict的value
查看>>
eclipse package,source folder,folder区别及相互转换
查看>>
Py 可能是最全面的 python 字符串拼接总结(带注释版)
查看>>