• 保存到桌面加入收藏设为首页
黑科技引流池

GitHub 抢手:各大网站的 Python 爬虫登录汇总

时间:2019-07-10 00:55:11   作者:文章CMS   来源:   阅读:139   评论:0
内容摘要:  非论是天然言语处置仍是计较机视觉,做机械进修算法总会具有数据不足的环境,而这个时候就需要我们用爬虫获取一些额外数据。这个项目引见了若何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目曾经供给了知乎、B 站、和豆瓣等 18 个网站的......

  非论是天然言语处置仍是计较机视觉,做机械进修算法总会具有数据不足的环境,而这个时候就需要我们用爬虫获取一些额外数据。这个项目引见了若何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目曾经供给了知乎、B 站、和豆瓣等 18 个网站的登录方式。

  作者收集了一些网站的登岸体例和爬虫法式,有的通过 selenium 登录,有的则通过抓包间接模仿登录。作者但愿该项目能协助初学者进修各大网站的模仿登岸体例,并爬取一些需要的数据。

  作者暗示模仿登岸根基采用间接登录或者利用 selenium+webdriver 的体例,有的网站间接登录难度很大,好比 358卖家工具 空间和 bilibili 等,采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium,但为了效率,我们也能够在登录后维护获得的 cookie。登录后,我们就能挪用 requests 或者 scrapy 等东西进行数据采集,如许数据采集的速度能够获得包管。

  每一个网站城市有对应的登录代码,有的还无数据的爬代替码。以豆瓣为例,次要的登录函数如下所示,它会获取验证码、处置验证码、前往登录数据完成登录,并最初保留 cookies。

  当然这些都是简单的演示,在 GitHub 项目中能够找到更多的示例。此外,作者表白因为网站策略或者样式改变而导致代码失效,我们也能够提 Issue 或 Pull Requests。最初,该项目将来还会不断维护,良多工具哦也会慢慢改良,项目作者表白:


标签:黑爬虫网站  
相关评论