Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
423 5.5k 841

P portia:Scrapy 可视化爬取
 
10.0 3.3000000000000003
677 4k 2k

T TuShare是实现对股票/期货等金融数据从**数据采集**、**清洗加工** 到 **数据存储**过程的工具
 
10.0 1.7999999999999998
189 2.9k 656

? 🔞 全球最大成人网站PornHub爬虫 (Scrapy、MongoDB) 一天500w的海量数据
 
10.0 4.699999999999999
  昨天
278 2.7k 1.2k

M 模拟登录一些知名的网站,为了方便爬取需要登录的网站
 
10.0 2.2
  18天前
91 2.1k 226

G 各种不同语言实现的爬虫程序和爬虫框架集合
 
8.6 0.3
  10天前
34 955 57

G Gain 采用asyncio, uvloop和aiohttp编写的Web爬虫框架
 
3.1 2.0
  1月前
109 986 197

O OnionScan,一个暗网的扫描和爬虫工具。可以用它来扫描暗网中的隐藏服务,并收集一些潜在的泄漏数据。除此之外,OnionScan也可以帮助你搜索出各种匿名服务的标识,例如比特币钱包地址、PGP密钥、以及电子邮件地址等等。
 
25 879 50

S Sukhoi 简约和强大的Web爬虫
 
3.0 0.0
113 958 473

豆瓣读书的爬虫
 
2.9 0.0
  6月前
79 750 302

P PSpider - Python3下极为简洁的爬虫框架
 
2.4 3.7
  昨天
64 645 227

D django-dynamic-scraper - 通过Django管理界面创建爬虫
 
2.0 0.0
  3月前
54 618 179

P 爬取微信公众号文章
 
1.9 0.0
  2年前
33 566 89

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
1.7000000000000002 0.0
  6月前
128 541 126

C crawl-frontier-一个灵活前沿的web 抓取框架
 
1.7000000000000002 0.3
8 170 37

? 简介: 此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在最短2分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。
 
1.5 1.0
  7天前
43 354 51

M Malspider是一个网络爬虫框架,它检测网络依赖性的特点
 
1.1 0.0
32 335 107

Z 知乎爬虫(验证码自动识别)
 
1.1 0.0
  9月前
7 174 29

P pcap2curl 读取数据包捕获,提取HTTP请求并将其转换为cURL命令进行重放
 
1.1 2.5
  7天前