2026 Lazada商品数据爬虫实战：高效批量采集商品数据

import requests
import json

url = "https://example.lazada.api/product/detail"  # 示例接口（需替换为真实接口）

headers = {
    "User-Agent": "Mozilla/5.0",
    "Accept": "application/json"
}

params = {
    "itemId": "123456789"
}

response = requests.get(url, headers=headers, params=params)

if response.status_code == 200:
    data = response.json()
    
    # 示例字段解析
    title = data.get("title")
    price = data.get("price")
    sold = data.get("sold")
    
    print("商品标题:", title)
    print("价格:", price)
    print("销量:", sold)
else:
    print("请求失败:", response.status_code)

2、使用Playwright应对动态页面

有些Lazada页面数据是通过JavaScript动态加载的，如果接口不好找，可以考虑使用浏览器自动化工具（Playwright、Selenium）

这类方案适合处理复杂页面交互、抓取评论分页数据，并获取完整渲染后的页面内容。不过相比API方式，这种方法成本更高，也更容易触发反爬。

3、抓取动态数据（以价格/标题为例）

Playwright可以直接通过DOM定位元素：

from playwright.sync_api import sync_playwright
from playwright import stealth_sync
import random
import time

def run_lazada_scraper(product_url):
    with sync_playwright() as p:
        # 1. 启动浏览器（生产环境建议 headless=False 观察效果）
        browser = p.chromium.launch(headless=False) 
        
        # 2. 设置特定的 Context，模拟真实的设备缩放和语言
        context = browser.new_context(
            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36",
            viewport={'width': 1280, 'height': 800},
            locale="en-US"
        )

        page = context.new_page()
        
        # 3. 关键：注入 Stealth 脚本，隐藏 webdriver 特征
        stealth_sync(page)
        
        try:
            print(f"正在访问: {product_url}")
            page.goto(product_url, wait_until="domcontentloaded", timeout=60000)

            # 4. 模拟真人行为：随机滚动页面以触发延迟加载的数据
            page.evaluate("window.scrollBy(0, 500)")
            time.sleep(random.uniform(2, 4))

            # 5. 修改选择器（使用更稳健的语义化定位，避免硬编码 Class 名）
            # Lazada 的标题通常在 h1 中
            title_element = page.wait_for_selector("h1", timeout=10000)
            title = title_element.inner_text() if title_element else "未找到标题"

            # 价格定位优化：Lazada 价格通常带有特定货币符号或在 pdp-price 类下
            # 注意：这里需要根据具体站点调整，以下是通用尝试
            price = page.locator(".pdp-price").first.inner_text()

            # 销量定位
            sold_count = page.locator(".pdp-review-summary__extra-first").first.inner_text()

            print("-" * 30)
            print(f"【抓取成功】")
            print(f"商品标题: {title}")
            print(f"商品价格: {price}")
            print(f"销售反馈: {sold_count}")
            print("-" * 30)

        except Exception as e:
            print(f"抓取失败，原因: {e}")
            # 如果触发验证码，可以在此处截图保存，手动处理或分析
            page.screenshot(path="error_capture.png")
        
        finally:
            browser.close()

# 测试运行（请替换为真实的 Lazada 商品链接）
test_url = "https://www.lazada.sg/products/example-item-i12345.html" 
run_lazada_scraper(test_url)

4、抓取评论数据

评论通常是滚动加载 + 点击分页，示例：

# 滚动到评论区域
page.evaluate("window.scrollTo(0, document.body.scrollHeight)")

# 等待评论加载
page.wait_for_selector(".review-content")

reviews = page.locator(".review-content").all()

for r in reviews:
    print(r.inner_text())

如果有“查看更多评论”按钮：

while True:
    try:
        page.click("text=Load more")
        page.wait_for_timeout(2000)
    except:
        break

三、如何避免被封？ Lazada商品数据抓取稳定方案

在完成基础的 Lazada爬虫实战之后，有时候很快会遇到一个问题：为什么刚开始能抓，过一会儿就被限制甚至封IP？

本质原因在于：Lazada具备一整套完善的反爬机制。如果没有针对性优化，再好的代码也无法长期稳定运行。通常有以下几种解决办法：

1、使用住宅代理IP

在所有反爬对抗策略中，代理IP是最核心的一环。如果你仍然使用单一IP进行抓取，几乎无法支撑批量数据采集。相比之下，更成熟的做法是使用动态住宅代理。这类代理基于真实家庭网络环境构建，具备更接近普通用户的访问特征，因此在平台风控系统中更“自然”。

在实际操作中，一些做规模化数据采集的团队，通常会选择类似 IPFoxy 这类动态住宅代理服务商。与普通数据中心IP相比，这种代理在面对Lazada反爬机制时往往更稳定，可以明显降低封禁概率，从而提升整体抓取成功率和持续运行能力：

IP来源分散，重复率低
支持高并发请求
匿名性更强，不易被识别为数据中心流量
行为特征更接近真实用户访问

点击前往免费试用IPFoxy

代理集成示例：

import requests

proxies = {
    "http": "http://username:password@proxy_ip:port",
    "https": "http://username:password@proxy_ip:port"
}

response = requests.get(
    "https://www.lazada.sg/products/xxx.html",
    proxies=proxies,
    timeout=10
)

print(response.status_code)

实战建议：

每次请求更换IP（或设置轮换周期）
控制单IP请求数量（如每IP < 50次）

2、控制请求频率

很多爬虫被封，不是因为技术复杂，而是请求太猛。建议设置随机延迟1~5秒或是不规则访问节奏。

示例：

import time
import random

time.sleep(random.uniform(1, 5))

3、伪装请求头

真实用户访问浏览器时，会携带完整的请求头信息。如果你只写一个简单的User-Agent，很容易被识别。

建议至少包含：

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
    "Accept-Language": "en-US,en;q=0.9",
    "Referer": "https://www.lazada.sg/"
}

4、引入Cookie与会话管理

Lazada会通过Cookie识别用户行为，如果每次请求都是“全新用户”，风险会更高。建议使用 requests.Session() 维持会话或在Playwright中复用浏览器上下文。

示例：

session = requests.Session()
session.headers.update(headers)

response = session.get("https://www.lazada.sg/")

四、常见问题FAQ

1、Lazada商品链接很多，如何批量获取而不是一个个复制？

可以从类目页或搜索结果页入手，先抓取商品列表页中的URL，再批量进入详情页抓数据。
如果规模更大，建议先构建“关键词 → 商品列表 → 商品详情”的抓取链路，或定期采集类目数据做增量更新。

2、不同国家站点（SG / MY / TH）数据能一起抓吗？

可以，但不建议混用。
不同站点的页面结构可能略有差异，接口参数不完全一致，风控策略也不同。更稳的做法是按站点分别采集 + 分开存储数据。

3、为什么同样的代码，在本地可以跑，服务器上却不行？

常见原因包括：
服务器IP被识别
网络环境不同
缺少浏览器环境
很多时候不是代码问题，而是运行环境差异

五、总结

整体来看，Lazada商品数据爬虫并不只是“写代码抓数据”，而是一个完整的数据采集与运营体系。从前期的数据字段梳理，到中期的抓取实现，再到后期的稳定性优化，每一步都会直接影响最终效果。

如果你只是做小规模测试，简单脚本就可以运行；但如果你希望长期、批量地进行 Lazada数据采集，那么代理IP、请求策略以及环境配置都会成为关键因素。尤其是在平台风控不断升级的情况下，一套稳定的抓取方案，往往比代码本身更重要。

一、Lazada可以抓取哪些数据？

1、商品基础信息

2、商品价格数据

3、商品销量数据

4、商品评价数据

5、竞品店铺数据

二、爬虫实战：如何抓取 Lazada商品数据？

1、Python示例：抓取Lazada商品数据