现代 Web 抓取,一个框架搞定

Scrapling

写爬虫时最烦人的是什么?反爬——Cloudflare、Turnstile、动态加载、网站改版后选择器失效……Scrapling 的目标就是让这些问题不再是问题。

它是一个纯 Python 的 Web 抓取框架,内置反爬绕过、自适应解析、MCP AI 集成,性能对标甚至超越 Scrapy/lxml/BeautifulSoup。目前 55,000+ Star。

核心能力

三挡抓取模式

  • Fetcher——标准 HTTP 请求,轻量快速
  • StealthyFetcher——隐身浏览器,可绕过 Cloudflare Turnstile 等反爬
  • DynamicFetcher——完整浏览器自动化(基于 Playwright)

自适应解析

传统爬虫最脆弱的地方就是选择器——网站改个 class 名就崩了。Scrapling 的智能元素追踪能在网站改版后自动重新定位元素,还能自动生成选择器。

AI 集成 (MCP)

内置 MCP 服务器,可直接与 Claude、Cursor 等 AI 工具集成,让 AI 帮你写爬虫。

Spider 引擎

Scrapy 风格的异步爬虫 API,支持并发、断点续爬、流式模式、robots.txt 合规、请求阻塞检测、JSON/JSONL 导出。

会话管理

支持代理轮换、域名/广告过滤、DNS 防泄漏(DoH)。

快速上手

pip install scrapling
from scrapling import Fetcher

f = Fetcher()
page = f.fetch("https://example.com")
page.css("h1").text  # 自适应选择器

CLI 交互模式

不用写代码也能抓数据:scrapling fetch https://example.com,内置基于 IPython 的交互式 shell,支持 curl 命令转换。

性能

官方基准测试显示 Scrapling 在解析性能上超过 Parsel/Scrapy、lxml、PyQuery、Selectolax、BeautifulSoup。

总结

Scrapling 是目前 Python 生态中最值得关注的 Web 抓取框架之一。它把反爬绕过、自适应解析、AI 集成这些现代需求做成了内置功能,而不是需要额外折腾的插件。如果你在写爬虫或维护抓取系统,Scrapling 值得一试。

前往 GitHub 仓库 · 54,900 ★