关闭 x
IT技术网
    技 采 号
    ITJS.cn - 技术改变世界
    • 实用工具
    • 菜鸟教程
    IT采购网 中国存储网 科技号 CIO智库

    IT技术网

    IT采购网
    • 首页
    • 行业资讯
    • 系统运维
      • 操作系统
        • Windows
        • Linux
        • Mac OS
      • 数据库
        • MySQL
        • Oracle
        • SQL Server
      • 网站建设
    • 人工智能
    • 半导体芯片
    • 笔记本电脑
    • 智能手机
    • 智能汽车
    • 编程语言
    IT技术网 - ITJS.CN
    首页 » Destoon »Destoon 火车采集器采集入库教程

    Destoon 火车采集器采集入库教程

    2023-08-29 11:37:24 出处:IT技术网
    分享

    一、安装火车采集器

    下载地址:http://www.locoy.com/download

    下载后解压至电脑任意目录,例如D:\LocoySpider,双击D:\LocoySpider\LocoySpider.exe打开主程序,如下图:

    注意:运行火车采集器要求电脑安装.NET2.0框架支持。如果主程序无法运行,很可能是因为您的电脑没有安装.NET2.0框架。.NET2.0框架可以通过以下地址下载:

    http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe

    二、采集前的准备工作

    2.1说明

    由于本教程的重点是讲解采集入库,所以采集过程仅简单介绍。如果要详细了解采集过程,请参考以下资源:

    火车用户手册:http://www.locoy.com/help

    火车用户论坛:http://bbs.locoy.com/

    火车采集服务:http://www.locoy.com/Service/DataCrawl/

    2.1下载入库规则文件

    火车采集器的入库规则是可以自己制作的,为了便于理解和测试,本站已经做好资讯入库规则,请通过以下地址下载:

    http://download.destoon.com/tool/spider.zip

    下载解压后,将其中的DESTOON 3.0资讯.cwr 复制到火车采集器安装目录/Module目录

    2.3配置DESTOON采集入库接口

    DESTOON采集入库接口位于您的站点目录/api/spider.php。用Editplus或其他编辑软件打开此文件。

    注意:如果您的站点是UTF-8编码,请不要使用记事本编辑PHP文件。

    需要配置的参数,系统已经做了中文的注释,请注意查看。

    下面讲一下常用的配置:

    $verify_mode 一般设置为2,采用密钥验证

    $spider_auth 设置一个最少6位的密钥,为了配合已经配置好的Destoon 3.0资讯.cwr规则,暂时请设置为12345678,后面会详细说明。

    $spider_status 建议设置为2,这样采集到的信息默认会发布为待审核状态。

    接口为了安全,默认需要修改一下spider.php文件名。为了方便测试,可以暂时删除此限制。注释掉以下代码即可:

    if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('为了系统安全,请修改接口文件名');

    设置好的配置如下:

    三、建立采集站点

    本教程将以采集Destoon帮助文档为例说明。

    打开火车采集器主面板,点击站点菜单,选择新建站点:

    四、新建采集任务

    在建立的站点上点右键,从该站点新建任务:

    五、设置采集网址规则

    设置完成之后,点击开始测试网址采集:

    看到目标网址,说明网址规则设置成功

    六、设置采集内容规则

    打开任意一个目标网址,寻找标题、内容等字段匹配规则:

    例一:设置标题规则

    例二:设置内容规则

    设置好字段后,再次测试:

    此时已经采集到正确的内容了。

    七、设置采集内容发布

    7.1选择Web在线发布方式发布

    7.2 定义Web在线发布全局设置

    点击添加,可以看到本站提供的Destoon 3.0资讯采集规则

    选择一个分类并保存

    7.3 选择已保存的配置

    返回到发布内容设置界面,在表格上点右键,选择添加更多发布配置

    选择 DT文档 点击添加,然后选择分类

    7.4保存任务

    填写任务名称,点击保存按钮

    八、采集内容

    在刚才建立的DT文档任务上点右键,选择开始任务采集

    软件提示内容发布成功。

    进入网站后台,资讯管理,审核资讯

    可以看到采集到的资讯列表,说明发布成功。

    九、采集发布规则

     

    为了便于测试和理解,本教程默认提供了一个规则,下面讲解如果修改或者建立规则。

    在建立的任务DT文档上点右键,编辑任务,进入发布内容设置,点击定义web在线发布全局设置

    如果需要新建一个发布规则,可以采用火车采集器自带的发布模块编辑器新建,也可以将火车采集器安装目录/Mdule目录里的Destoon 3.0资讯.cwr复制一个新文件,例如Destoon 3.0供应.cwr,然后用火车采集器模块编辑器编辑。

    9.1文章发表参数

    如果需要添加一个字段,例如作者,可以在Post数据里追加&author=[标签:作者],其中author对应Destoon资讯表的字段,[标签:作者]对应采集软件采集的字段。

    如果需要知道Destoon系统某个模块具体有那些字段,例如资讯,可以在网站后台添加资讯或者会员中心发布资讯点右键,查看网页源代码,形如name=”post[xxxx]”中的xxxx即为字段,和数据库中表的字段名称一致。

    备注:本教程提供的规则定义了发布地址为/api/spider.php,所以在配置spider.php参数时,删除了系统对文件名的设置。同时定义了发送的密钥auth为12345678,所以在配置spider.php参数时设置了$spider_auth = '12345678';

    9.2刷新列表设置

    刷新列表设置用于获取Destoon模块的分类内容,各个模块的设置是一致的,但是需要修改其中的moduleid参数。

    十、小结

    对于有PHP基础的用户,可以直接修改spider.php接口代码,然后配合采集器发送的数据,实现更多内容的入库。

    网站起步阶段,适量采集,并非有500G的空间就可以采集500G的数据,以免CPU和内存配置不匹配导致站点运行卡顿。

    采集是一把双刃剑,在带来便利的同时也面临被搜索引擎惩罚或版权纠纷的风险,请慎用。

    上一篇 Destoon 火车采集器 下一篇

    声明: 此文观点不代表本站立场;转载务必保留本文链接;版权疑问请联系我们。

    别人在看

    电脑屏幕不小心竖起来了?别慌,快捷键搞定

    Destoon 模板存放规则及语法参考

    Destoon系统常量与变量

    Destoon系统目录文件结构说明

    Destoon 系统安装指南

    Destoon会员公司主页模板风格添加方法

    Destoon 二次开发入门

    Microsoft 将于 2026 年 10 月终止对 Windows 11 SE 的支持

    Windows 11 存储感知如何设置?了解Windows 11 存储感知开启的好处

    Windows 11 24H2 更新灾难:系统升级了,SSD固态盘不见了...

    IT头条

    Synology 更新 ActiveProtect Manager 1.1 以增强企业网络弹性和合规性

    00:43

    新的 Rubrik Agent Cloud 加速了可信的企业 AI 代理部署

    00:34

    宇树科技 G1人形机器人,拉动一辆重达1.4吨的汽车

    00:21

    Cloudera 调查发现,96% 的企业已将 AI 集成到核心业务流程中,这表明 AI 已从竞争优势转变为强制性实践

    02:05

    投资者反对马斯克 1 万亿美元薪酬方案,要求重组特斯拉董事会

    01:18

    技术热点

    大型网站的 HTTPS 实践(三):基于协议和配置的优化

    ubuntu下右键菜单添加新建word、excel文档等快捷方式

    Sublime Text 简明教程

    用户定义SQL Server函数的描述

    怎么在windows 7开始菜单中添加下载选项?

    SQL Server 2016将有哪些功能改进?

      友情链接:
    • IT采购网
    • 科技号
    • 中国存储网
    • 存储网
    • 半导体联盟
    • 医疗软件网
    • 软件中国
    • ITbrand
    • 采购中国
    • CIO智库
    • 考研题库
    • 法务网
    • AI工具网
    • 电子芯片网
    • 安全库
    • 隐私保护
    • 版权申明
    • 联系我们
    IT技术网 版权所有 © 2020-2025,京ICP备14047533号-20,Power by OK设计网

    在上方输入关键词后,回车键 开始搜索。Esc键 取消该搜索窗口。