一点概念:大多数网站都是以列表页和详情页的层次结构进行组织的,例如我们进入新浪新闻频道,有很多标题链接,这可认为是列表页,点标题链接后进入的新闻正文便是详情页。 列表页:指栏目或目录页面,一般包含有多个标题链接。如:网站首页或栏目页面都是列表页。主要作用:通过列表页可获取多个详情页的链接。 详情页:包含具体内容的页面,如一篇网页文章,里面含有:标题,作者,发布日期,正文内容,标签等。 提示:详细说明可见列表页概念、详情页概念; 使用文章采集软件一般目的:大批量地获取详情页里面的具体内容数据,并使用这些数据进行各种分析,发布自有网站等等。详细步骤如下: 第一步:登录简数控制台 打开 简数数据采集平台-http://www.yuzn.com页面,点击右上角控制台,注册账号并登录进入控制台。 第二步:创建采集任务 用户需先寻找要采集的网页,一般是 “列表页 + 详情页” 模式,教程以IT168网络安全频道--http://www.yuzn.com为例,用户可以跟着教程操作一遍。 点击【创建采集任务】按钮,使用智能向导模式创建任务,自命名任务名称与填写采集的列表页网址,再点击下一步即可。 |