4个GitHub上高星的python爬虫项目

2022-04-15 0 487

php能写网页吗

4个GitHub上高星的python爬虫项目

文 | 某某白米饭

来源:Python 技术「ID: pythonall」

4个GitHub上高星的python爬虫项目

GitHub 是一个开源宝库,上面有许多第三方的爬虫库,是可以拿来直接使用和学习的。不需要我们花费大量的时间去研究特定的网站如何去抓取数据。

1. gopup

GoPUP ( 项目所采集的数据皆来自公开的数据源,数据接口:百度、谷歌、头条、微博指数,宏观数据,利率数据,货币汇率,千里马、独角兽公司,新闻联播文字稿,影视票房数据,高校名单,疫情数据等等

4个GitHub上高星的python爬虫项目

安装

使用清华的 pip 源

pip install gopup -i 使用

查看文档 #/

import gopup as gpdf_index = gp.weibo_index(word=”疫情”, time_type=”3month”)print(df_index)

示例结果:

4个GitHub上高星的python爬虫项目

2. weibo-spider

weibo-spider ( 是一个微博的爬虫,可以连续的爬取一个或多个微博用户的数据,并将数据写入文件和数据库。支持下载微博中的原始图片/视频、转载图片/视频,Live Photo 中的视频。

4个GitHub上高星的python爬虫项目

安装

安装有两种方式,一种是源码安装,一种是pip

$ git clone ;cd weiboSpider$ pip install -r requirements.txt或者python3 -m pip install weibo-spider使用

weibo-spider 爬虫已经在文章 《中秋不发女朋友,发追女神的方法》 中使用了一次,可以抓取到用户的各种资料、图片、视频。

安装后第一次运行命令行 python3 -m weibo_spider ,会自动在当前目录创建config.json配置文件修改 config.json 文件中 user_id_list 微博用户 ID。再次运行 python3 -m weibo_spider

示例结果:

4个GitHub上高星的python爬虫项目

3. You-Get

you-get ( 提供便利的方式来下载网络上的媒体信息,包括视频、音频、图片,支持 80+ 网站。小编经常用来下载 B 站视频。

安装

在 pip 之前需要安装 FFmpeg (强烈推荐) 或 Libav、(可选) RTMPDump。

pip3 install you-get升级用 pip3 install –upgrade you-get使用

只需要简单的使用 you-get 命令就可以下载视频、图片、音频

you-get 网址如:you-get ?spm_id_from=333.851.b_f6d6d656e64.1

示例结果:

4个GitHub上高星的python爬虫项目

4. musicdl

Music-dl ( 是一个基于 Python3 的命令行工具,可以从多个网站搜索和下载音乐,解决音乐不知道在哪个网站的问题。Music-dl 的 API 是从公共网络获取的,下载不了 VIP 音乐。

Music-dl 支持 音乐,酷狗音乐,网易云音乐,咪咕音乐和百度音乐。

4个GitHub上高星的python爬虫项目

安装pip install musicdl使用music-dl -k 周杰伦

示例结果:

4个GitHub上高星的python爬虫项目

总结

介绍了 GitHub 上高赞的爬虫项目,大家都可以看看源码,学习源码,让自己的 python 之道更加强大。


苹果cms采集是免费的吗

苹果CMS模板 杂七杂八 4个GitHub上高星的python爬虫项目 https://www.pgcms.net/1967.html

常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或联络我们。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务