欧美精品日韩精品一卡,欧美日韩人妻精品一区二区三区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

2025 AI爬蟲最佳實踐：Deepseek+Crawl4ai+Playwright MCP

餅干哥哥

2025-05-07

0 評論 4884 瀏覽 9 收藏

15 分鐘

在 2025 年，AI 爬蟲領(lǐng)域迎來了全新變革。本文聚焦于 2025AI 爬蟲最佳實踐，深入實戰(zhàn)演示如何運(yùn)用 Deepseek、Crawl4ai 以及 Playwright MCP 這三大工具組合，實現(xiàn)高效、智能的爬蟲操作，從環(huán)境搭建到代碼實踐，再到動態(tài)加載與數(shù)據(jù)提取，全方位展現(xiàn) AI 爬蟲的魅力與潛力，讓你輕松掌握前沿爬蟲技術(shù)。

今天來做一個實戰(zhàn)：用Crawl4ai做一次AI爬蟲，看看是什么樣子的

小試牛刀

先根據(jù)官方的代碼安裝起來：

# Install the package

pip install -U crawl4ai

# Run post-installation setup

crawl4ai-setup

# Verify your installation

crawl4ai-doctor

最后看到下圖的樣子，就證明安裝、初始化成功了。

接下來我們測一下官方給的示例。

import asyncio

from crawl4ai import *

async def main():

async with AsyncWebCrawler() as crawler:

result = await crawler.arun(

url=”https://www.nbcnews.com/business”,

)

print(result.markdown)

if __name__ == “__main__”:

asyncio.run(main())

官方的測試是一個新聞網(wǎng)站

新建py文件，把代碼黏貼進(jìn)去，直接運(yùn)行后，結(jié)果顯示，確實能正常抓取。

提取表格

最新版的Crawl4ai 有個新的功能：把網(wǎng)站上的表格抓取下來后，解析成pandas的DataFrame格式。

簡單來說，之前我們需要手動去把下載下來的數(shù)據(jù)，清洗、結(jié)構(gòu)化后，轉(zhuǎn)成DataFrame格式再做分析。

現(xiàn)在是可以一步到位了。

我們看下這個官方示例給的是一個虛擬貨幣的網(wǎng)站，我們需要把下圖中的表格給爬下來，并轉(zhuǎn)成python 的表格，可以直接用于下一步分析。

但這里出了一個問題：官方給的示例無法用，如圖，是不完整的，都是紅色波浪線，直接運(yùn)行會報錯，我代碼能力又差，不會改，怎么辦？

很簡單，讓AI去改就好了。直接上Cursor。

但接下來又有新問題：因為這是crawl4ai的新功能，有些AI應(yīng)該是沒有學(xué)習(xí)的。

此時就可以用我們之前介紹的context7MCP，讓AI自己去學(xué)習(xí)最新的文檔，再來補(bǔ)全代碼。紅溫了！Cursor又亂寫代碼？1分鐘裝上Context7 MCP享受實時文檔檢索服務(wù)

我用的提示詞：

文件代碼是crawl4ai的官方示例，效果是把如圖的網(wǎng)站表格數(shù)據(jù)抓取下來，保存為pandas的dataframe格式但這個代碼不完整，需要你用context7 mcp 找到最新的crawl4ai文檔，把代碼補(bǔ)充完整確保能正常使用

AI一頓操作之后，拿到的代碼直接運(yùn)行就能跑了，我們看到已經(jīng)順利把前面網(wǎng)站里的表格下載成了DF

還是挺順利的，打開Excel看更完整一些，接下來就能用這些數(shù)據(jù)做分析。

動態(tài)加載

現(xiàn)在的網(wǎng)站很少靜態(tài)了，大多數(shù)都是動態(tài)加載，也就是需要不斷滾動才會加載新的內(nèi)容，如果這個流程要自己處理就太麻煩了。

幸好，Crawl4ai內(nèi)置了javascript的支持，我們可以直接寫一句js代碼，就能讓頁面一滾到底把所有內(nèi)容加載。result = await crawler.arun(? ? url=”https://動態(tài)內(nèi)容站點.com”,? ? js_code=”window.scrollTo(0, document.body.scrollHeight);”,? ? wait_for=”document.querySelector(‘.loaded’)”)

OK，至此，我們已經(jīng)跑通了Crawl4ai 官方給的爬蟲示例代碼。但還沒用上AI的地方。

要知道，我們之所以用這些框架，就是想讓AI來幫我們解決爬蟲中的難題。

所以接下來我們來看下怎么在Crawl4ai用AI來做爬蟲？進(jìn)階：大模型動態(tài)加載爬取電商評論

還是業(yè)務(wù)場景先行，我選擇了一個高頻的場景：電商商品評論爬取。（后續(xù)爬下來的評論數(shù)據(jù)還可以做文本分析，挖掘出有商業(yè)價值的信息）

網(wǎng)址是：https://www.amazon.com/PawSwing-AutoComb-Automatic-Surround-biomimetic/dp/B0DMSVNTC1

往下翻能看到評論列表：

利用playwright MCP初始化腳本

在原先Cursor的窗口下，直接讓AI先幫我們完成代碼的撰寫：現(xiàn)在需要你寫一個Crawl4ai的腳本，把這個亞馬遜產(chǎn)品下的評論抓取出來：顧客姓名、標(biāo)題、國家、時間、評論內(nèi)容等，你可以先用playwright mcp去看一下這個網(wǎng)站，然后再修改

發(fā)現(xiàn)沒有，我沒有讓AI直接去寫代碼，而是讓它先去看一眼這個網(wǎng)站長什么樣，然后再寫代碼。

因為每個網(wǎng)站加載流程、速度、結(jié)構(gòu)都是不同的，貿(mào)貿(mào)然寫一個通用的代碼，很可能跑不通。

而Playwright MCP的介紹與安裝我之前也說過，可以直接跳轉(zhuǎn)這個文章去學(xué)習(xí)：用 Playwright MCP 讓 AI 改它自己寫的屎山代碼

話說回來，我們已經(jīng)能看到AI Called MCP tool，自動打開亞馬遜網(wǎng)站，并且`get_visible_html`，也就是看了一眼。

得到的代碼如下，整體很長，我截了一些關(guān)鍵部分，包括建議也放到了注釋里：

1. 定義亞馬遜評論的數(shù)據(jù)模型

classAmazonReview(BaseModel):

customer_name:

review_title:

country_and_date:

review_body:

image_urls:

rating:

# 2. 使用LLMConfig來配置AI模型

llm_config = LLMConfig(

provider=provider,

api_token=api_token,

base_url=base_url

)

# 3. 設(shè)置AI爬取數(shù)據(jù)的策略，關(guān)鍵就是提示詞

strategy = LLMExtractionStrategy(

llm_config=llm_config,

schema=AmazonReview.model_json_schema(),

extraction_type=”schema”,

instruction=f”””

從提供的HTML內(nèi)容中提取亞馬遜產(chǎn)品評論信息。

評論通常包含在一個帶有 ‘data-hook=”review”‘ 屬性的<div>元素中。

請為每個評論提取以下信息，并構(gòu)造成一個JSON對象列表:

1. ?`customer_name`: 評論者的名字，通常在一個帶有 ‘data-hook=”genome-widget”‘ 的span元素內(nèi)或附近。

2. ?`review_title`: 評論的標(biāo)題，通常在一個帶有 ‘data-hook=”review-title”‘ 的span或a元素內(nèi)，可能是加粗的文本。

3. ?`country_and_date`: 評論的國家和日期，通常在一個帶有 ‘data-hook=”review-date”‘ 的span元素內(nèi)，格式類似于 “Reviewed in [國家] on [日期]”。

4. ?`review_body`: 評論的正文內(nèi)容，通常在一個帶有 ‘data-hook=”review-body”‘ 的span元素內(nèi)。

5. ?`image_urls`: 評論中用戶上傳的圖片URL列表。圖片通常是<img>標(biāo)簽，其父元素可能帶有 ‘review-image-tile’ 或類似class。請?zhí)崛?lt;img>標(biāo)簽的’src’屬性。如果沒有圖片，則此字段為null或空列表[]。

6. ?`rating`: 評論的星級評分，通常在評論標(biāo)題附近或評論正文開頭。

確保提取盡可能多的評論。忽略頁面上非評論區(qū)域的內(nèi)容。

“””,

chunk_token_threshold=8000, # 改回合理的分塊閾值

apply_chunking=True, # 對大型頁面進(jìn)行分塊處理

input_format=”html”,

verbose=True# 開啟LLM策略的詳細(xì)日志

)

# 4. 對瀏覽器的設(shè)置，尤其是反爬厲害的網(wǎng)站一定要設(shè)置

browser_config = BrowserConfig(

headless=False, ?# 可以設(shè)為True在后臺運(yùn)行

java_script_enabled=True, ?# 確保JavaScript加載評論

# 可以添加代理、user-agent等配置來模擬真實用戶，減少被屏蔽的風(fēng)險

# user_agent=”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36″

viewport={“width”: 1280, “height”: 800},

verbose=True# 開啟瀏覽器配置的詳細(xì)日志

)

# 5. 爬蟲配置

crawler_config = CrawlerRunConfig(

cache_mode=CacheMode.BYPASS,

page_timeout=90000, ?# 增加頁面加載超時時間，亞馬遜頁面可能較慢

extraction_strategy=strategy,

# 增加等待時間，確保動態(tài)加載的評論內(nèi)容出現(xiàn)

# 注意：crawl4ai目前沒有直接的wait_for_selector或類似playwright的精細(xì)等待機(jī)制

# 可以通過 page_timeout 間接控制等待時間，或者后續(xù)考慮用playwright直接操作

verbose=True# 開啟爬蟲運(yùn)行的詳細(xì)日志

)

# 6. 開始爬取

result = await crawler.arun(

url=self.url,

config=self.crawler_config,

js_code=”window.scrollTo(0, document.body.scrollHeight);”,

wait_for=”document.querySelector(‘.loaded’)”

)