#!/usr/bin/env python3 """ 淘宝爬虫 - 简化调试模式不依赖Selenium，使用requests直接获取页面 """ import json import os import requests from datetime import datetime from bs4 import BeautifulSoup # 创建输出目录 OUTPUT_DIR = "debug_output" os.makedirs(OUTPUT_DIR, exist_ok=True) def log(message, level="INFO"): """打印带时间戳的日志""" timestamp = datetime.now().strftime('%H:%M:%S') print(f"[{timestamp}] [{level}] {message}") def fetch_page(url): """获取页面内容""" headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 10; SM-G973F) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', 'Accept-Encoding': 'gzip, deflate', 'Connection': 'keep-alive', } log(f"正在请求URL: {url[:80]}...") try: response = requests.get(url, headers=headers, timeout=30) log(f"✓ 响应状态码: {response.status_code}") log(f"✓ 响应大小: {len(response.content)} 字节") log(f"✓ 内容类型: {response.headers.get('Content-Type', 'Unknown')}") return response.text, response.status_code except Exception as e: log(f"✗ 请求失败: {e}", "ERROR") return None, None def analyze_html(html): """分析HTML结构""" log("开始分析HTML结构...") # 保存原始HTML timestamp = datetime.now().strftime('%Y%m%d_%H%M%S') html_file = os.path.join(OUTPUT_DIR, f"page_{timestamp}.html") with open(html_file, 'w', encoding='utf-8') as f: f.write(html) log(f"✓ 已保存HTML: {html_file}") soup = BeautifulSoup(html, 'html.parser') # 基本统计 stats = { 'title': soup.title.string if soup.title else 'N/A', 'div_count': len(soup.find_all('div')), 'a_count': len(soup.find_all('a')), 'script_count': len(soup.find_all('script')), 'img_count': len(soup.find_all('img')), } log("页面基本信息:") log(f" 标题: {stats['title']}") log(f"

数量: {stats['div_count']}") log(f" 链接数量: {stats['a_count']}") log(f"