新浪博客为例,10年前,博客很火的时候,我也有在那里留下了一些日记
目前新浪的博客只能自己可见,需要登录
1.1.1 新建账号

初始是未登录状态

1.1.2 登录

会打开浏览器,
1.1.3 自己登录


登录成功后,可以在浏览器中打开自己的博客查看 一下是否正常
https://blog.sina.com.cn/u/1291367225

1.1.4 保存cookie
然后,可以保存cookies了

显示已登录

现在可以新建任务 了
1.1.5 新建任务


1.1.6 填写任务信息
1.1.6.1 获取入口地址
首选入口就是播客的目录页,里面基本就是自己的全部文章汇总:
https://blog.sina.com.cn/s/articlelist_1291367225_0_1.html

1.1.6.2 获取抓取的网址
随便打开一篇文章,看下地址格式
https://blog.sina.com.cn/s/blog_4cf8b3390100xomz.html

1.1.6.3 任务填写
任务可以按下面输入

注意要选择账号,不然获取不到

入口地址:第一个要爬的地址
爬取url规则:用来筛选过程中有效网址的地址规则
截图url规则:判断哪些网址会保存下来
1.1.7 开始爬取

1.1.8 任务完成

1.1.9 打开目录

1.1.10 网页效果
