现代 Web 抓取,一个框架搞定
写爬虫时最烦人的是什么?反爬——Cloudflare、Turnstile、动态加载、网站改版后选择器失效……Scrapling 的目标就是让这些问题不再是问题。
它是一个纯 Python 的 Web 抓取框架,内置反爬绕过、自适应解析、MCP AI 集成,性能对标甚至超越 Scrapy/lxml/BeautifulSoup。目前 55,000+ Star。
核心能力
三挡抓取模式
- Fetcher——标准 HTTP 请求,轻量快速
- StealthyFetcher——隐身浏览器,可绕过 Cloudflare Turnstile 等反爬
- DynamicFetcher——完整浏览器自动化(基于 Playwright)
自适应解析
传统爬虫最脆弱的地方就是选择器——网站改个 class 名就崩了。Scrapling 的智能元素追踪能在网站改版后自动重新定位元素,还能自动生成选择器。
AI 集成 (MCP)
内置 MCP 服务器,可直接与 Claude、Cursor 等 AI 工具集成,让 AI 帮你写爬虫。
Spider 引擎
Scrapy 风格的异步爬虫 API,支持并发、断点续爬、流式模式、robots.txt 合规、请求阻塞检测、JSON/JSONL 导出。
会话管理
支持代理轮换、域名/广告过滤、DNS 防泄漏(DoH)。
快速上手
pip install scrapling
from scrapling import Fetcher
f = Fetcher()
page = f.fetch("https://example.com")
page.css("h1").text # 自适应选择器
CLI 交互模式
不用写代码也能抓数据:scrapling fetch https://example.com,内置基于 IPython 的交互式 shell,支持 curl 命令转换。
性能
官方基准测试显示 Scrapling 在解析性能上超过 Parsel/Scrapy、lxml、PyQuery、Selectolax、BeautifulSoup。
总结
Scrapling 是目前 Python 生态中最值得关注的 Web 抓取框架之一。它把反爬绕过、自适应解析、AI 集成这些现代需求做成了内置功能,而不是需要额外折腾的插件。如果你在写爬虫或维护抓取系统,Scrapling 值得一试。
▶ 前往 GitHub 仓库 · 54,900 ★