百度中文分词算法原理

手册/FAQ (363) 2015-10-23 13:40:25

      在中文中,最基本的独立单位就是词,词是最小语言意义的成分,词可以有一个或多个汉字构成,而词又有不同的分类。相对英文而言,中文词不仅数量多,而且变化性强,同音字多,语义多样性,书写格式多样化的的特点。中文分词需要识别汉字中词的边界,将汉字串切分为正确的词串,这就是中文分词的任务,也是搜索引擎的难题。

     汉语分词主要内容有:分词规范问题、切分算法问题和分词歧义问题。分词规范确定词的定义,并作为分词的单位;切分算法解决的是如何对词进行切分,建立符合实际语义的词的边界;分词歧义是为了解决处理分词过程中的歧义。

分词算法的归类:

1、基于字符串匹配的分词算法(机械分词算法),按照一定的策略将待分析字符串与“充分大的”机器字典中的词条进行匹配,基于字符串匹配的分词方法主要是正向匹配和逆向匹配,按照长度不同优先匹配可以分为:最大最长匹配和最小最短匹配。这种方法主要是依据字典进行匹配,逐词遍历,词条的选择影响分词的效果。

2、基于理解的方法:在分词的同时进行语义分析,利于语法信息和语义信息处理歧义现象。

3、基于统计的方法:对语料中的字组频率进行计算,不考虑切分字典。

      中文分词算法词典匹配,基于统计,最大匹配、最小匹配对词的长度和字数进行匹配,是关键字排名的核心,而正向匹配和逆向匹配解决了网页内容词与词的相关性,所以对分词算法的研究也是网站关键字排名的基础。

      百度中文分词排名算法就是必须要用下划线,百度几乎每一个周期对正向匹配的网站进行关键词加权,这就引发出正向匹配原则。然后就是按照正向匹配原则来分割成多个拼接词,这就是新网站利用百度中文分词来活动巨大流量的秘密。下划线对于百度标题算法有着非常大的作用,下划线表示接受百度搜索引擎的中文分词协议,换句话说,就是用下划线,表示我要告诉百度蜘蛛,我要你给我网站做分词处理。下划线是百度中文分词排名算法中最重要的一个符号,站长切记!  

 

THE END