基于网页框架和规则的网页噪音去除方法

基于网页框架和规则的网页噪音去除方法

一、相关概念 1.1 网页噪音概述 网页噪音是指在一个页面内与页面主题无关的区域及项。网页噪声可分为以下几类: 导航类:为了维持网页间的链接关系,方便浏览者对网站进行浏览而设置的链接。 修饰类:为了美化页面而采用的背景、修饰图片等

中文分词算法概述

中文分词算法概述

一、中文分词技术综述 1、全文检索技术 所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给

网页正文信息抽取新方法

网页正文信息抽取新方法

一、基于中文标点符号和HTML 树 结构的网页正文信息抽取方法H TML  ( hyper text markup language) 是超文本标记语言, 是基于标准通用标记语言(SGML) 的一个庞大的文档处理系统. SGML 的基本思想是采用描述标记( Tag) 来提供描述文档结构的附加信息. HTML 利用SGML 定

基于网页分块的搜索引擎排序算法改进

基于网页分块的搜索引擎排序算法改进

一、传统搜索引擎排序算法 1. 1  搜索引擎排序算法概述 搜索引擎查询的结果按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Di

基于标签密度的自适应正文提取方法

基于标签密度的自适应正文提取方法

一、标签密度和锚文本密度 HTML 网页源码中主要包括文本和标签两大元素,并且它们是混合共存的。根据标签的作用可以将H TML 标签分为容器型标签和描述型标签。通过每一对容器型标签中所包括的标签数与总文本数的比(标签密度) 和锚文本数与总文本数

一种提高搜索引擎检索质量的网页解析法

一种提高搜索引擎检索质量的网页解析法

目前的搜索引擎采用以关键字检索为基础的检索技术。即搜索引擎按关键字对整个网页进行索引和检索。在这种处理方法中,所有出现在网页中的字词都被用作索引项, 但实际的网页中常常包含大量的与网页主题无关的文字。例如,图1 和图2 是以“河北人民

基于标签路径聚类的文本信息抽取算法

基于标签路径聚类的文本信息抽取算法

1、 网页预处理 可以通过以下3 个预处理规则来过滤网页中的不可见噪声和部分可见噪声: 仅删除标签本身; 删除标签本身及其相应的起始与结束标签包含的HTML 文本; 对HTML 标签进行修正和配对,删除源码中的乱码。 2、区域噪音的处理 为了

SEO问题之重复内容如何解决

SEO问题之重复内容如何解决

重复内容是搜索引擎极力避免的一个问题,如果你的网站存在重复内容,及相同的内容呈现在不同的页面上,也宝航不同的网站上。对于搜索引擎来说,他们不希望用户搜索后得到的搜索结果中有重读的内容,那么事先搜素引擎就会采取行动。将这些重复的

前阿里巴巴SEO人员国平答网友问

国平:对互联网和软件的很多方面都有了解,不仅仅限于SEO。前阿里巴巴SEO人员。 官方博客:http://www.semyj.com/ 问题:一个行业网站,有好多行业关键词,比如阿里巴巴这样的网站怎么做SEO,详细把内部链接的做法讲解下,谢谢老师。 国平:内部链接和

百度下拉联想词SEO操作方法

百度下拉联想词SEO操作方法

传统SEO的限制: 高流量词竞争激烈,有竞价广告的存在很难有好的有利排名; 长尾词流量太小,总的提升效果不佳; 百度搜索结果不稳定,很难长时间获取好的排名; 搜索引擎对外链的看重在减小,高质量外链价格越来越高。 下拉联想词生成方

Page 4 of 12« First...«23456»10...Last »