Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
423 5.7k 877

P portia:Scrapy 可视化爬取
 
10.0 0.8
741 4.5k 2.1k

T TuShare是实现对股票/期货等金融数据从**数据采集**、**清洗加工** 到 **数据存储**过程的工具
 
10.0 0.5
102 2.2k 258

G 各种不同语言实现的爬虫程序和爬虫框架集合
 
9.3 0.3
  14天前
242 2.2k 896

Y 越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术
 
9.3 5.2
  5天前
1.6k 24.3k 6.2k

S Scrapy:一个快速高级的网站截图和网页采集框架
 
9.0 5.5
149 2.1k 644

简易爬虫代理池
 
8.6 3.8
  18天前
34 987 61

G Gain 采用asyncio, uvloop和aiohttp编写的Web爬虫框架
 
3.2 3.3000000000000003
  3天前
34 986 61

Gain:基于 asyncio, uvloop 和 aiohttp 的 Python 爬虫框架
 
3.2 3.3000000000000003
  3天前
119 991 502

豆瓣读书的爬虫
 
3.0 0.0
  8月前
25 879 50

S Sukhoi 简约和强大的Web爬虫
 
2.9 0.0
82 789 327

P PSpider - Python3下极为简洁的爬虫框架
 
2.5 7.3
  5天前
158 697 415

E 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情
 
2.2 1.0
  7天前
65 661 237

D django-dynamic-scraper - 通过Django管理界面创建爬虫
 
2.0 0.8
  1月前
38 630 104

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
1.9 0.3
  1月前
55 626 187

P 爬取微信公众号文章
 
1.9 0.0
  2年前
135 573 126

C crawl-frontier-一个灵活前沿的web 抓取框架
 
1.7999999999999998 2.3000000000000003
50 487 259

P Python爬虫,京东自动登录,在线抢购商品
 
1.5 0.3
  16天前
42 360 55

M Malspider是一个网络爬虫框架,它检测网络依赖性的特点
 
1.1 0.0
38 356 115

Z 知乎爬虫(验证码自动识别)
 
1.1 0.0
  10月前
43 337 221

Q QQ空间爬虫(日志、说说、个人信息)
 
1.1 0.0
  1年前