请教各位仿站有什么好的方式

WOAIOKK · 2025 年1 月 5 日 03:32

一个html被加密的，拿到源码发现全是加密，一个html加一个static我尝试用AI，结果搞得乱七八糟。。寻个合适的仿站的手法

awq · 2025 年1 月 5 日 07:00

使用 Python工具使用 BeautifulSoup 或 Selenium 抓取并解析页面内容

awq · 2025 年1 月 5 日 07:01

还可以用动态抓取

Selenium模拟浏览器行为，加载页面后抓取渲染后的HTML。

Puppeteer一个基于Node.js的工具，可以高效抓取动态内容。

awq · 2025 年1 月 5 日 07:01

编辑器用 VS Code、Sublime Text，用于修改和优化代码。

WOAIOKK · 2025 年1 月 5 日 14:34

@“awa”#p203213 Selenium抓能抓到css之类的不？我先去试试你说的

awq · 2025 年1 月 5 日 15:42

@“我爱OKK”#p203686 Selenium 可以抓取网页元素的 CSS 属性值，

James · 2025 年1 月 5 日 15:51

直接截图给AI，让他写一个一模一样的

WOAIOKK · 2025 年1 月 5 日 15:51

@“awa”#p203720 我试了一下，好像不太行，抓取下来的不太对，我就用其他的改了改，

WOAIOKK · 2025 年1 月 5 日 15:52

@“James”#p203726 不好使，我试了，GPT4+CURSOR也是了，写的稀烂

WOAIOKK · 2025 年1 月 5 日 15:53

@“awa”#p203720

最终方案用的是playwright，代码如下我还写了代码拼接功能，把JS和CSS离线下来

```

from playwright.sync_api import sync_playwright

from bs4 import BeautifulSoup

import os

import requests

from urllib.parse import urljoin, urlparse
def save_complete_page(output_dir=“saved_page”):

# 创建输出目录

if not os.path.exists(output_dir):

os.makedirs(output_dir)
# 创建子目录
assets_dirs = {
    "css": os.path.join(output_dir, "css"),
    "js": os.path.join(output_dir, "js"),
    "images": os.path.join(output_dir, "images"),
    "fonts": os.path.join(output_dir, "fonts"),
}
for dir_path in assets_dirs.values():
    os.makedirs(dir_path, exist_ok=True)

# 启动浏览器
with sync_playwright() as p:
    browser = p.chromium.launch(headless=False)  # 显示浏览器窗口
    context = browser.new_context()
    page = context.new_page()

    # 打开目标网页
    target_url = "https://XXX.com"
    print(f"正在加载页面: {target_url}")
    page.goto(target_url, wait_until="networkidle")  # 等待页面所有网络请求完成

    # 提示用户手动操作
    print("浏览器已启动，请手动检查页面内容，完成后按下 Enter 键继续抓取...")
    input("按下 Enter 键继续抓取页面内容...")

    # 获取渲染后的 HTML
    html_content = page.content()

    # 使用 BeautifulSoup 解析 HTML
    soup = BeautifulSoup(html_content, "html.parser")

    # 下载并替换 CSS 文件
    for link in soup.find_all("link", {"rel": "stylesheet"}):
        href = link.get("href")
        if href:
            local_path = download_asset(href, target_url, assets_dirs["css"])
            if local_path:
                link["href"] = os.path.relpath(local_path, output_dir)

    # 下载并替换 JS 文件
    for script in soup.find_all("script", {"src": True}):
        src = script.get("src")
        if src:
            local_path = download_asset(src, target_url, assets_dirs["js"])
            if local_path:
                script["src"] = os.path.relpath(local_path, output_dir)

    # 下载并替换图片文件
    for img in soup.find_all("img", {"src": True}):
        src = img.get("src")
        if src:
            local_path = download_asset(src, target_url, assets_dirs["images"])
            if local_path:
                img["src"] = os.path.relpath(local_path, output_dir)

    # 下载并替换字体文件
    for font in soup.find_all("link", {"rel": "stylesheet"}):
        href = font.get("href")
        if href and (href.endswith(".woff") or href.endswith(".woff2") or href.endswith(".ttf")):
            local_path = download_asset(href, target_url, assets_dirs["fonts"])
            if local_path:
                font["href"] = os.path.relpath(local_path, output_dir)

    # 保存更新后的 HTML 文件
    html_file_path = os.path.join(output_dir, "index.html")
    with open(html_file_path, "w", encoding="utf-8") as f:
        f.write(soup.prettify())
    print(f"HTML 文件已保存到: {html_file_path}")

    # 关闭浏览器
    browser.close()

def download_asset(asset_url, base_url, save_dir):

“”“下载静态资源到本地”“”

asset_url = urljoin(base_url, asset_url)  # 拼接完整 URL

parsed_url = urlparse(asset_url)

filename = os.path.basename(parsed_url.path)

local_path = os.path.join(save_dir, filename)
try:
    print(f"正在下载: {asset_url}")
    response = requests.get(asset_url, stream=True, timeout=10)
    if response.status_code == 200:
        with open(local_path, "wb") as f:
            for chunk in response.iter_content(1024):
                f.write(chunk)
        return local_path
    else:
        print(f"下载失败: {asset_url} (状态码: {response.status_code})")
except Exception as e:
    print(f"下载失败: {asset_url} (错误: {e})")
return None

if name == “main”: save_complete_page() ```

James · 2025 年1 月 5 日 15:56

@“我爱OKK”#p203731 感谢分享，其实这里有个工具很好用。 https://www.nodeloc.com/d/7511

话题		回复	浏览量
深色模式JS和解除网页复制粘贴限制日常 \| General	4	74	2024 年9 月 15 日
py脚本-通过博客链接地址保存csdn文章为pdf/html/md 技术 \| Technology	3	85	2025 年4 月 3 日
NLer 制作的【影视站模板】，干净又卫生 👏 技术 \| Technology	25	164	2025 年6 月 7 日
搞了个deeplx测活脚本，佬们可以自己试一下技术 \| Technology	7	88	2024 年8 月 21 日
我这个非IT人员也能写播放器代码了。神奇人工智能 \| AI	6	88	2025 年5 月 23 日

请教各位仿站有什么好的方式

相关话题