百度爬虫是网页的抓取

发布于 2021-03-09 14:00:56
关注者
0
被浏览
1k
1 个回答
搜一搜社区
搜一搜社区 2021-03-09
搜一搜问答社区

百度爬虫是网页的抓取,无论是表单填写还是网页点击都是网页抓取。他的技术说白了就是让蜘蛛进入你的网页,爬取页面中的信息和内容。推荐一篇博客《面向ai的python爬虫系列(三):首页爬取》这篇文章写的也比较详细。大致步骤就是:预处理,提取重要信息(keywords、intext等)反爬,识别用户来源,及标识对应网站来源过滤标签(比如翻页、下拉等,例如:按照链接跳转到appstore),对标签进行过滤,为了让爬虫抓取出来的结果存在排序对应关系从获取页面到开始过滤结果之间,加一个网站的缓存过程

撰写答案

请登录后再发布答案,点击登录

发布
问题

分享
好友

手机
浏览

扫码手机浏览