Skip to content

webcloner功能演示-新浪博客备份

>

新浪博客为例,10年前,博客很火的时候,我也有在那里留下了一些日记

目前新浪的博客只能自己可见,需要登录

1.1.1 新建账号

初始是未登录状态

1.1.2 登录

会打开浏览器,

1.1.3 自己登录

登录成功后,可以在浏览器中打开自己的博客查看 一下是否正常

https://blog.sina.com.cn/u/1291367225

1.1.4 保存cookie

然后,可以保存cookies了

显示已登录

现在可以新建任务 了

1.1.5 新建任务

1.1.6 填写任务信息

1.1.6.1 获取入口地址

首选入口就是播客的目录页,里面基本就是自己的全部文章汇总:

https://blog.sina.com.cn/s/articlelist_1291367225_0_1.html

1.1.6.2 获取抓取的网址

随便打开一篇文章,看下地址格式

https://blog.sina.com.cn/s/blog_4cf8b3390100xomz.html

1.1.6.3 任务填写

任务可以按下面输入

注意要选择账号,不然获取不到

入口地址:第一个要爬的地址

爬取url规则:用来筛选过程中有效网址的地址规则

截图url规则:判断哪些网址会保存下来

1.1.7 开始爬取

1.1.8 任务完成

1.1.9 打开目录

1.1.10 网页效果