推扬网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
推扬网 门户 经验分享 查看内容

b2b推广:基本完成对长尾关键词的处理

2020-3-23 19:20| 发布者: admin| 查看: 310| 评论: 0

以百度为例,思路如下: 1、搜索主关键词,分析相关搜索链接,存入网址库,标记为未抓取。 2、读取数据库中标记为未抓取的网址,抓取后分析相关搜索,存入网址库,标记为未抓取。 3、重复2直到指定深度(一般热门关键词6层左右深度差不多全部读取,一般关键词4层即可,理论上可以无限层,但需要抓取的数据量呈级数增长,相关性也越来越差,没必要)。 4、人工处理长尾词,这里需要人工去除一些无关的关键词,保留合适的(当前搜素引擎的语义处理能力还很弱)。

以百度搜索为例,构思以下:

1、检索主关键字,剖析搜索推荐连接,存进网址库,标识为未爬取。

2、载入数据库查询中标识为未爬取的网站地址,爬取后剖析搜索推荐,存进网址库,标识为未爬取。

3、反复2直至特定深层(一般热搜词6层上下深层类似所有载入,一般关键字4层就可以,基础理论上能够無限层,但必须爬取的信息量呈等比级数提高,关联性也愈来愈差,没必需)。

4、人工服务解决长尾关键词,这儿必须人工服务除去一些不相干的关键字,保存适合的(当今搜索模块的词义解决工作能力还太弱)。

到此,基础进行了对长尾词的解决,能够得到一个较为全的长尾词目录了。因为本人还必须科学研究不一样层级关键字相互关系,因此储存了百度搜索的网页页面,界定了亲子关系,都没有过虑不一样层中间同样的关键字,这种对找长尾关键词用途并不大。

全自动获得文档特定总体目标关键字的php保持见附注:spider_keywords

这就是我自购程序流程,出示一个保持方法,准备用得话还必须依据自身应用自然环境改动,规定懂php,SQL。重要一部分如有关关键词挖掘获取早已做的相对稳定,请安心使用。在其中:

mykeyword.dat为储放关键字的文档,每列一个主关键字。

$depth为爬取深层,默认设置5层,针对一般关键字够深。

程序流程发掘数据信息后储放在我的PostgreSQL数据库查询,数据库查询默认设置UTF-8编号,能够依据自身的具体必须改动。数据分析表构造以下:

–Table:mykeywords

–DROPTABLEmykeywords;

CREATETABLEmykeywords

(idserialNOTNULL,

fathertext,

“content”text,

sonstext,

depthtext,

keynametext,

remarktext,

is_spideredboolean,

CONSTRAINTmykeywords_pkeyPRIMARYKEY(id)

)

WITH(OIDS=FALSE);

ALTERTABLEmykeywordsOWNERTOpostgres;


鲜花

握手

雷人

路过

鸡蛋

最新评论

精选推荐

    广告服务|投稿要求|禁言标准|版权说明|免责声明|手机版|小黑屋|推扬网 ( 粤ICP备18134897号 )|网站地图 | 邮箱:vayae@hotmail.com

    GMT+8, 2025-5-9 09:17 , Processed in 0.091402 second(s), 28 queries .

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    返回顶部