推扬网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
推扬网 门户 经验分享 查看内容

优化师:抓取、存储、页面分析及索引系统的主要工作过程及抓取方法!

2020-3-23 19:54| 发布者: admin| 查看: 490| 评论: 0

站长之家(Chinaz.com)10月21日消息 今日,百度站长平台Lee撰文介绍了索引系统的相关问题概述。罗列出了如何能够在最快的速度内返回用户查找结果,从而提高用户体验度的相关信息。 搜索引擎索引系统概述(一)原文如下: 众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里

爱站网(Chinaz.com)10月21日信息 今天,百度站长工具Lee刊文详细介绍了数据库索引系统软件的有关难题简述。列举出了怎样可以在最快内回到客户搜索結果,进而提升客户体验度的基本信息。

百度搜索引擎数据库索引系统软件简述(一)原文如下:

毫无疑问,百度搜索引擎的关键工作中全过程包含:爬取、储存、网页页面剖析、数据库索引、查找等好多个关键全过程。以往几个星期给大伙儿详细介绍了爬取有关的简略全过程。今日简略详细介绍一下数据库索引系统软件,以亿为企业的网页页面表中搜索特殊的一些关键字宛如海洋里边捞针,或许一定的時间内能够进行搜索,可是客户等不了,从客户体验视角人们务必在ms级別给与客户令人满意的結果,不然客户只有外流。怎么才能超过这类规定呢?

假如能了解客户搜索的关键字(query切词后)都出現在什么网页页面中,那麼客户查找的处理方式即能够想像为包括了query中切词后不一样一部分的网页页面结合求交的全过程,而查找即变为了网页页面名字中间的较为、求交。那样,在ms内以亿为企业的查找变成了将会。这就是说一般常说的倒排索引及求交查找的全过程。以下为创建倒排索引的基础全过程:

(1)网页页面剖析的全过程事实上是将初始网页页面的不一样一部分开展鉴别并标识,比如:title、keywords、content、link、anchor、评价、别的非关键地区这些;

(2)词性标注的全过程事实上包含了切词词性标注近义词变换同义词辨析这些,以对某网页页面title词性标注为例,获得的将是那样的信息:term文字、termid、词类、词性这些;

(3)以前的提前准备工作中进行后,接下去就是创建倒排索引,产生{termàdoc},能够粗略地的了解为以下,为何是【term->doc】,而并不是立即运用【doc->term】呢?

所述就是数据库索引系统软件中的倒排索引全过程,是百度搜索引擎保持ms级查找十分关键的一个阶段。


鲜花

握手

雷人

路过

鸡蛋

最新评论

精选推荐

    广告服务|投稿要求|禁言标准|版权说明|免责声明|手机版|小黑屋|推扬网 ( 粤ICP备18134897号 )|网站地图 | 邮箱:vayae@hotmail.com

    GMT+8, 2025-5-15 10:11 , Processed in 0.073251 second(s), 29 queries .

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    返回顶部