大家好,感谢邀请,今天来为大家分享一下内容资讯网站源码分享的问题,以及和内容网址的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!
l采集网站
【场景描述】采集站长之家文章数据。
【源网站介绍】
站长之家(中国站长站)为个人站长与企业网络提供全面的站长资讯、源代码程序下载、海量建站素材、强大的搜索优化辅助工具、网络产品设计与运营理念以及一站式网络解决方案,十年来我们一直致力为中文网站提供动力。
【使用工具】前嗅ForeSpider数据采集系统,免费下载:
http://www.forenose.com/view/forespider/view/download.html
【入口网址】
https://www.chinaz.com/biz/
【采集内容】
采集站长之家电商分类中文章的数据,采集字段:标题、发布时间、来源平台、正文内容等。
【采集效果】如下图所示:
l思路分析
配置思路概览:
l配置步骤
1.新建采集任务
选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。
2.获取翻页链接
①在浏览器上打开该页面,往后翻页,发现是瀑布流翻页。点击F12,打开NetWork界面,继续翻页发现翻页请求如下图所示:
②观察这几个翻页请求的header,发现请求链接和header中的path参数随着翻页数的变化而变化,如下图所示:
③写脚本,拼接链接,具体脚本如下所示:
脚本文本:
urlu;\nfor(i=0;i<5;i++){//遍历\nu.urlname=URL.urlname+i+&34;;//拼地址+分页\nu.title=URL.title+&34;+i;\nu.entryid=this.id;\nu.tmplid=2;\nRESULT.AddLink(u);\n}
④采集预览,如下图所示,每个翻页都有一条请求,与浏览器中的请求一致。
3.获取文章列表链接
①继续在浏览器中观察翻页请求,在翻页请求的Response中找到了文章的标题与链接。
②新建模板02,在其下新建一个链接抽取。
③用脚本打开翻页请求获取返回源码。
④打开翻页请求后,根据所需要的文章链接在源码中的位置,获取文章链接。观察浏览器源码中数据的位置如下图所示:
⑤根据以上观察,编写脚本将招聘列表链接抽取出来。具体操作如下:
脚本文本为:
varur=URL.urlname;//定义ur是当前网址,即翻页链接\nvarpath=ur.Right(&34;);//path为翻页链接“.com”右侧的内容\nvarheader;//定义header\nheader.var(&34;)=path;//定义参数:path,与浏览器中的翻页请求一致\nvardoc=EXTRACT.OpenDoc(CHANN,ur,&34;,header);//打开翻页请求\nif(doc)//打开请求后\n{\nvardm=doc.GetDom();//获取源码\nvara=dm.FindClass(&34;,&34;);//找到第一个节点\nvarb=a.child.child.next.next;//找到第二个节点\nfor(i=0;i<19;i++){//循环获取19个文章的链接\nurlu;\nu.urlname=b.child.child.child.child.href;//取第三个节点的href值为链接\nu.title=b.child.child.child.child.title;//取第三个节点的title值为链接标题\nu.entryid=this.id;\nu.tmplid=3;//关联模板3\nRESULT.AddLink(u);\nb=b.next;//跳入下一个文章单元\n}\n}
⑥采集预览,如下图所示:
4.抽取文章数据
①新建模板03,在该模板下新建一个数据抽取。
②新建一个数据表单,具体步骤和字段属性如下所示:
③填写示例地址
采集预览,双击进入下一层,复制任意一条文章链接,复制在模板03的示例地址位置:
④关联数据表单,如下图所示:
⑤双击内置浏览器,显示出示例地址页面。
⑥抽取数据采用定位取值法,以title为例进行演示,具体操作如下图所示:
Pubtime字段:
Author字段:
Content字段:
⑦点击采集预览,如下图所示:
l采集步骤
模板配置完成,采集预览没有问题后,可以进行数据采集。
①首先要建立采集数据表:
选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【zhanzhangzhijia】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。
②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。
③采集中:
④采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。
⑤导出的文件打开如下图所示:
*本教程仅供学习交流,严禁用于商业用途!
l前嗅简介
前嗅大数据,国内领先的研发型大数据专家,多年来致力于为大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台!
关于内容资讯网站源码分享,内容网址的介绍到此结束,希望对大家有所帮助。