1、确定采集目标
2、获取目标远程页贺宴面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则租拍枝不弊敏一样
4、入库
工具/原料PHPCMS
方法/步骤
1、首先我们需要下载并安装GBK格式的PHPCMS系统。
2、下载PHPCMS和文章采集器的接口文件
3、将jiekou.php文件复制到网站的根目录下,并用记事本打开该文件,修改“密码验证”栏目password处的密码
4、启动文章采集器,先点击【第三步发布内容设置】中的"web发布管理弯橘唤配置"
5、在d出的【web发布配置管理】窗口中单击右侧的【更多】按钮,导入“phpcms9.wpm”配置模块,并选择该模块
6、设埋凯置【web发布配置管理】中的编码设置、登录 *** 作、获取分类栏目等选项
7、单击【测试】按钮伍凯,在d出的【发布配置测试】对话框中设置标签和内容的值,此项为必须设置,否则发布测试文章会失败。至此PHPCMS已经与文章采集器连接成功。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)