标点符(钱魏 Way)

中文分词算法概述

一、中文分词技术综述 1、全文检索技术 所谓全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。在中文文档中根据是否采用分词技术,索引项可以是字、词或词组,由此可分为基于字的全文索引和基于词的全文索引。基于字的全文索引是指对于文章中的每一个字都建立索引, […]

网页正文信息抽取新方法

一、基于中文标点符号和HTML 树 结构的网页正文信息抽取方法H TML  ( hyper text markup language) 是超文本标记语言, 是基于标准通用标记语言(SGML) 的一个庞大的文档处理系统. SGML 的基本思想是采用描述标记( Tag) 来提供描述文档结构的附加信息. HTML 利用SGML 定义了一些标记,如<html>、<title>等,用 […]

基于网页分块的搜索引擎排序算法改进

一、传统搜索引擎排序算法 1. 1  搜索引擎排序算法概述 搜索引擎查询的结果按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Direct Hit 排序算法是一种动态排序算法, 搜索引擎返回的排序结果根据用户的点击和网页被浏览的时间进行变化. PageRank […]

基于标签密度的自适应正文提取方法

一、标签密度和锚文本密度 HTML 网页源码中主要包括文本和标签两大元素,并且它们是混合共存的。根据标签的作用可以将H TML 标签分为容器型标签和描述型标签。通过每一对容器型标签中所包括的标签数与总文本数的比(标签密度) 和锚文本数与总文本数的比(锚文本密度) ,来说明网页中不同区域标签和锚文本的稠密度,其中TagDensity 为标签密度,AnchoDensity 为锚文本密度,TagNum […]

一种提高搜索引擎检索质量的网页解析法

目前的搜索引擎采用以关键字检索为基础的检索技术。即搜索引擎按关键字对整个网页进行索引和检索。在这种处理方法中,所有出现在网页中的字词都被用作索引项, 但实际的网页中常常包含大量的与网页主题无关的文字。例如,图1 和图2 是以“河北人民出版社”为关键字的检索结果。图1 所示网页的主要内容是关于2004 十大印象图书介绍,其中包括上海人民出版社出版的《达芬奇密码》,在网页中注明的出处是新华网河北频道。 […]

SEO问题之重复内容如何解决

重复内容是搜索引擎极力避免的一个问题,如果你的网站存在重复内容,及相同的内容呈现在不同的页面上,也宝航不同的网站上。对于搜索引擎来说,他们不希望用户搜索后得到的搜索结果中有重读的内容,那么事先搜素引擎就会采取行动。将这些重复的内容从他的索引库中删除。这篇文章旨在让你了解造成重复内容的不同原因,然后找出各个的解决之道。 你可以把重复内容比作你站在你一个十字路口,道路标志上有两个不同方向都指向同一个目 […]

前阿里巴巴SEO人员国平答网友问

国平:对互联网和软件的很多方面都有了解,不仅仅限于SEO。前阿里巴巴SEO人员。 官方博客:http://www.semyj.com/ 问题:一个行业网站,有好多行业关键词,比如阿里巴巴这样的网站怎么做SEO,详细把内部链接的做法讲解下,谢谢老师。 国平:内部链接和网站业务结合,把重要的内容突出,内部链接在大网站和小网站是不一样的,小网站的话大家都去做外链来抢排名,但是大网站的权重高,到一定的程度 […]

百度下拉联想词SEO操作方法

传统SEO的限制: 高流量词竞争激烈,有竞价广告的存在很难有好的有利排名; 长尾词流量太小,总的提升效果不佳; 百度搜索结果不稳定,很难长时间获取好的排名; 搜索引擎对外链的看重在减小,高质量外链价格越来越高。 下拉联想词生成方法: 创造一个全新词(0流量、0搜索0竞争)(创建的新词不要太长,最好小于5个左右,5个以上会被百度无视),通过SEO技术操作在12-17天内将全新词优化至百度自然搜索排名 […]

2010百度世界大会李彦宏讲解框计算

腾讯科技讯(胡祥宝)9月2日消息,百度世界2010大会今日在北京中国大饭店拉开帷幕。百度董事长兼CEO李彦宏现场发表演讲表示,百度的框计算开放平台上的应用已经融合了400多家合作伙伴。 李彦宏说,通过百度的应用开放平台,将对开发者提供三种收入模式。“第一种直接付费,网民可以通过直接在线的方式付费给开发者;第二种是捐赠;第三种是通过贴片广告,你的应用里可以植入广告,这样的话也可以通过分成的方式获得相 […]