当前位置:网站首页 >  百科

DedeCMS新闻采集零基础实操教程 全流程可直接上手无门槛落地

时间:2026年05月20日 05:19:56 来源:易频IT社区

前置准备

DedeCMS新闻采集零基础实操教程 全流程可直接上手无门槛落地(0)

1. 环境要求:DedeCMS版本为V5.7 SP2官方正式版,下载地址:https://www.dedecms.com/download.html ,PHP版本适配5.6~7.2,开启allow_url_fopen配置或安装curl扩展,服务器uploads目录权限设置为755。

2. 功能入口:登录DedeCMS后台,依次点击左侧菜单栏>核心>采集管理>普通文章采集,进入采集配置页面。

第一步:新建采集节点基础配置

1.1 基础信息填写

点击“新增节点”按钮,按以下规则填写配置:

  • 节点名称:自定义填写,例如「XX网科技新闻采集」,仅用于后台识别
  • 目标网站编码:打开目标新闻站任意页面,查看源码meta标签的charset属性,选择对应编码(UTF-8/GB2312),编码填写错误会导致采集内容全乱码
  • 采集列表地址:填写目标站列表页的分页规则,例如目标站第1页为https://xxx.com/news/list_1.html、第2页为list_2.html,填写格式如下: ``` https://xxx.com/news/list_{[page:1-10]}.html ``` {[page:1-10]}表示采集第1到第10页的列表内容,可根据需求调整页码范围

1.2 列表区域过滤配置

DedeCMS新闻采集零基础实操教程 全流程可直接上手无门槛落地(3)

按以下步骤定位列表区域,避免采集到页面广告、导航等无关内容:

  • 打开目标站列表页,按F12调出开发者工具,点击元素选择器选中新闻列表的外层容器,复制该容器的唯一标识(class或id)
  • 列表开始标记:填写容器的开始标签,例如容器为
    ,就直接填
  • 列表结束标记:填写容器的结束标签后的唯一标识,例如列表结束后是
    ,就填
    标记必须和页面源码完全一致,不要多留空格
  • 内容页链接匹配:填写列表中新闻链接的前缀,例如列表中链接格式为,就填,[link]为变量占位符,系统会自动匹配链接地址

第二步:内容页采集规则配置

2.1 通用字段匹配

打开目标站任意内容页,用F12定位每个字段的标签,按以下规则填写:

  • 文章定位标题标签,例如

    XXX

    ,开始标记填

    ,结束标记填

  • 作者/来源:定位对应标签,规则同上,若目标站无对应字段,可在默认值栏填写「佚名」「转载」
  • 发布时间:定位时间标签,规则同上,同时勾选「自动转换日期格式」选项,系统会自动匹配DedeCMS的时间格式
  • 缩略图配置:勾选「提取内容第一个图片为缩略图」,无需手动上传缩略图
  • 远程资源配置:勾选「下载远程图片到本地」,避免目标站图片失效或盗链限制

2.2 正文内容过滤配置

正文是最容易出现冗余内容的字段,按以下规则配置:

  • 正文开始/结束标记:定位正文外层容器,填写对应开始、结束标记,规则和列表区域配置一致
  • 冗余内容过滤:点击「添加过滤项」,把正文中的广告、分享按钮、相关推荐等无关内容的开始、结束标记填入,支持添加多条过滤规则,所有无关内容都要添加过滤,避免生成无效内容
  • HTML标签保留:在「允许的HTML标签」栏填写需要保留的标签,默认保留

    DedeCMS新闻采集零基础实操教程 全流程可直接上手无门槛落地(6)

    • 等常用排版标签,不需要可清空自动转纯文本

    第三步:采集测试与批量入库

    3.1 单条测试验证

    配置完所有规则后,必须先做单条测试,不要直接批量采集:点击节点右侧的「测试」按钮,先测试列表页,确认能正常获取到内容页链接,再任选一条链接测试内容采集,检查每个字段是否正确、有没有乱码、有没有多余内容,若有问题回到对应配置项调整标记,直到测试完全正常。

    3.2 批量采集导入

    测试通过后,回到采集节点列表,点击节点右侧的「采集」按钮,选择「采集所有未采集链接」,等待采集完成后,点击「导出内容」,选择要导入的目标栏目,勾选是否自动生成HTML,提交后即可将采集的内容全部导入对应栏目。

    常见问题排查

    • 采集返回空白:首先检查PHP版本是否在5.6~7.2范围内,allow_url_fopen是否开启,若目标站有防采集,在节点配置的「HTTP头」栏添加User-Agent,值为: ``` Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 ```
    • 内容乱码:确认目标站编码和节点配置的编码一致,可在页面源码meta标签的charset属性查看对应编码
    • 图片无法下载:检查uploads目录权限是否为755,是否勾选了「下载远程图片到本地」选项
    • 重复内容:在节点配置中开启「重复内容检测」,选择按标题或URL检测,重复内容自动跳过

相关推荐

最新

热门

推荐

精选

标签

易频IT社区是综合性互联网IT技术门户网站,专注分享网络技术、服务器运维、网络安全、编程开发、系统架构、云计算、大数据等行业干货,实时更新IT行业资讯、零基础教程、实战案例,为IT从业者、技术爱好者提供专业的学习交流平台。

Copyright © 2021-2026 易频IT社区. All Rights Reserved. 备案号:闽ICP备2023013482号 网站地图