博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取知乎热榜标题和连接 (python,requests,xpath)
阅读量:4921 次
发布时间:2019-06-11

本文共 1171 字,大约阅读时间需要 3 分钟。

用python爬取知乎的热榜,获取标题和链接。

环境和方法:ubantu16.04、python3、requests、xpath

 

1.用浏览器打开知乎,并登录

 

 

 

2.获取cookie和User—Agent

 

 

3.上代码

1 import requests 2 from lxml import etree 3  4 def get_html(url): 5     headers={ 6             'Cookie':'你的Cookie', 7             #'Host':'www.zhihu.com', 8             'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36' 9             }10 11     r=requests.get(url,headers=headers)12 13     if r.status_code==200:14         deal_content(r.text)15 16 def deal_content(r):17     html = etree.HTML(r)18     title_list = html.xpath('//*[@id="TopstoryContent"]/div/section/div[2]/a/h2')19     link_list = html.xpath('//*[@id="TopstoryContent"]/div/section/div[2]/a/@href')20     for i in range(0,len(title_list)):21         print(title_list[i].text)22         print(link_list[i])23         with open("zhihu.txt",'a') as f:24             f.write(title_list[i].text+'\n')25             f.write('\t链接为:'+link_list[i]+'\n')26             f.write('*'*50+'\n')27 28 def main():29     url='https://www.zhihu.com/hot'30     get_html(url)31 32 main()

 

4.爬取结果

 

转载于:https://www.cnblogs.com/emmm/p/10297824.html

你可能感兴趣的文章
LinkedList
查看>>
Spring框架下PropertyPlaceholderConfigurer类配置roperties文件
查看>>
SQL查询优化
查看>>
[原创]独立模式安装Hive
查看>>
声音推荐【Anaesthesia】Maximilian Hecker强烈推荐
查看>>
地址虚拟机vmware centos6.3 Device eth0 does not seem to be present
查看>>
链表实现单链表创建、排序(升序)
查看>>
Spring旅程(一)为什么使用Spring
查看>>
centos安装桌面和远程连接
查看>>
侠探锦毛鼠之真假白玉堂
查看>>
[mark]如何删除地址栏的记录?
查看>>
python CSV写中文
查看>>
poj3304 Segments
查看>>
Android onNewIntent调用时机
查看>>
命令模式
查看>>
MySQL 基础命令
查看>>
用css画个遨游logo
查看>>
杭电2061
查看>>
硬盘的工作原理
查看>>
开发日志
查看>>