返回首页
  主页 > SEO知识 > SEO基础 >

中文分词:搜索引擎如何中文分词?

2019-03-08 09:00 阅读:155 来源:智宇SEO自媒体

  什么是中文分词

  任何文档都可以看做是一些连续的词的集合。然后中文没有明显的词间分隔,这一点和英文不同。当然英文也有难点,列如时态和词性的变化等。在中文语法中,词汇是由两个或者多个汉子组成的。并且句子是连续书写的,句子间由标点分隔。这就要求在自动分析中文文本前,首先将整据切割成小的词汇单元,这就是中文分词。

  举个例子来说明分词的难度,对于“学历史学好”这个句子,作为人来说,很容易正确切分“学/历史学/好”然而计算机要具有这种智慧还是要有很多工作要做的。否则可能会分成“学历/史学/好”

  目前的分词手段主要是依靠字典和统计学的方法。由于索引是按照关键词建索引的,索引分词的效果直接决定了索引词以及检索的效果。因此例如将文档“学历史学好”错分成“学历/史学/好”,索引索引时,只会对“学历”,“史学”,“好”这3个索引词建立它们与该文档的关联关系。这样查询“历史学”这个关键词时,无法检索出这个文档可见分词质量在很大程度上影响了搜索的结果和效果。

  1. 通过字典实现分词

  在中文分词中主要体系了3种难分类型

  A. 交集型歧义

  “从小学”这个词可能有多种切分方法。

  Eg:“从小学电脑”----> 正确切分为“从小/学/电脑”

  B. 组合型歧义

  “中将”这个词可能有多种切分方法

  Eg:“美军中将竞公然说”------->正确切分为“美军/中将/竟公然说”

  “新建地铁中将禁止商业摊点”---->正确切分为“新建/地铁/中/将/禁止/商业摊点”

  C. 混合型歧义

  同时包含上面两种歧义,则为混合型歧义。

  对于“人才能”,可以能切分“人才/能”,“人/才能”和“人/才/能”

  利用字典分词,将字典做成一个前缀结构的数据结构,这种方法称为“最大正向匹配法”,通常称为“MM法”。
中文分词:搜索引擎如何中文分词?

  后缀结构树分词,这种方称为“逆向最大匹配”,也叫”RMM法”。两种方法原理相同,不同的是分词的扫描方向。

中文分词:搜索引擎如何中文分词?

  这种分词也可以称为“贪婪算法”,贪婪在于总是认为最大匹配的词汇最优,或者说最大匹配可以使得切方出的词汇最少。而较少的索引词可以降低索引系统的工作量和最终索引文件的大小。

  2.通过统计学方法实现分词

  虽然字典分词解决了分词的大部分问题,但由于字典收录词数的限制,分词还需要具有新词发现的能力,补充到新发现的普遍被采用的各种词汇到字典中,其中包括演艺明姓名和网络流行语。甚至股票代码和火车车次都有可能成为新词发现的目标。

  事实上,发现新出现的词汇过程相当复杂,需要很多基于概率及信息学方面的知识,在本书中不展开深入研究。基本的原理就是探索那些经常一同出现的字。总是相互出现的字很有可能构成一个词。为此需要分析和探索大量网友内容,这种分析与探索过程都是离线完成,最后还要一个人工确认的过程。

  中文分词技术还在不断的发展,还没有哪一种分词算法能够解决一切问题。



上一篇:网页查重是什么?百度如何判断原创文章

下一篇:没有了

返回首页