Scrapling — Interesting Links

现代 Web 抓取，一个框架搞定

Scrapling

写爬虫时最烦人的是什么？反爬——Cloudflare、Turnstile、动态加载、网站改版后选择器失效……Scrapling 的目标就是让这些问题不再是问题。

它是一个纯 Python 的 Web 抓取框架，内置反爬绕过、自适应解析、MCP AI 集成，性能对标甚至超越 Scrapy/lxml/BeautifulSoup。目前 55,000+ Star。

传统爬虫最脆弱的地方就是选择器——网站改个 class 名就崩了。Scrapling 的智能元素追踪能在网站改版后自动重新定位元素，还能自动生成选择器。

内置 MCP 服务器，可直接与 Claude、Cursor 等 AI 工具集成，让 AI 帮你写爬虫。

Scrapy 风格的异步爬虫 API，支持并发、断点续爬、流式模式、robots.txt 合规、请求阻塞检测、JSON/JSONL 导出。

支持代理轮换、域名/广告过滤、DNS 防泄漏（DoH）。

pip install scrapling

from scrapling import Fetcher

f = Fetcher()
page = f.fetch("https://example.com")
page.css("h1").text  # 自适应选择器

不用写代码也能抓数据：scrapling fetch https://example.com，内置基于 IPython 的交互式 shell，支持 curl 命令转换。

官方基准测试显示 Scrapling 在解析性能上超过 Parsel/Scrapy、lxml、PyQuery、Selectolax、BeautifulSoup。

Scrapling 是目前 Python 生态中最值得关注的 Web 抓取框架之一。它把反爬绕过、自适应解析、AI 集成这些现代需求做成了内置功能，而不是需要额外折腾的插件。如果你在写爬虫或维护抓取系统，Scrapling 值得一试。