搜索
首页 电脑/网络 软件

中文分词技术 搜索引擎

全部回答

2010-12-15

0 0

    现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法。常用的几种机械分词方法如下:   1)正向最大匹配法(由左到右的方向);   2)逆向最大匹配法(由右到左的方向);   3)最少切分(使每一句中切出的词数最小)。
     2、基于理解的分词方法。 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
  它通常包括三个部分:分词子系统、句法语义子系统、总控部分。 3、基于统计的分词方法。   从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。
  因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。  互现信息体现了汉字之间结合关系的紧密程度。
  当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。
    因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

2010-12-06

31 0

请问您要问的是什么呢?

类似问题换一批

热点推荐

热度TOP

相关推荐
加载中...

热点搜索 换一换

电脑/网络
软件
程序设计
电脑装机
操作系统/系统故障
硬件
笔记本电脑
百度
互联网
反病毒
软件
软件
多媒体软件
系统软件
办公软件
网络软件
图像处理软件
举报
举报原因(必选):
取消确定举报