C语言实现搜索引擎技术之中文分词

发布时间：2022-06-13 09:30:10 所属栏目：Linux 来源：互联网

导读：搜索引擎技术在码农眼里一直是比较高大上,其中文分词是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一,现在我们来用C语言简单实现一下中文搜索引擎中文分词. 目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大

　　搜索引擎技术在码农眼里一直是比较高大上,其中文分词是中文自然语言处理领域的基础研究,也是中文搜索引擎的核心模块之一,现在我们来用C语言简单实现一下中文搜索引擎中文分词.

　　目前而言的分词系统绝大多数都是基于中文词典的匹配算法,其中,最为常见的是最大匹配算法(Maximum Matching,以下简称MM算法),而MM算法有三种:一种正向最大匹配、一种逆向最大匹配和双向匹配,本文以正向最大匹配算法为例介绍其基本思想和实现.

　　一、基本思想

　　(1)假设词典中最长的词语字数为w(一般设置为8个字符,即4个汉字).

　　(2)判断带分词语句长度是否大于w个字,如果大于w则跳到(3),如果小于w则跳到(6).

　　(3）取待分词语句的前w个字。

　　(4）在词典中查找w,如果存在,则从语句中去掉w,从语句中w后的词开始重复上面过程.

　　(5）如果不存在,就去掉这w个字的最后一个字.

　　(6）检查是否是单字或者空,如果是,则退出.

　　(7）如果不是,则继续判断词库中是否存在这个词,如此反复循环,直到输出一个词.

　　(8）继续取短语的前w个字反复循环,这样就可以将一个语句分成词语的组合了.

　　二、简单实现,代码如下:

　　#include <stdio.h>
　　#include <string>
　　#include <set>
　　using namespace std;
　　set<string> g_setWordDictionary;
　　
　　int construct()
　　{
　　    g_setWordDictionary.insert("中国");
　　    g_setWordDictionary.insert("中国人");
　　    g_setWordDictionary.insert("纽约");
　　    g_setWordDictionary.insert("北京");
　　}
　　
　　bool match(string &word)
　　{
　　    set<string>::iterator itor = g_setWordDictionary.find(word);
　　    if (itor == g_setWordDictionary.end())
　　    {
　　        return false;
　　    }
　　
　　    return true;
　　}
　　
　　void forward_maximum_matching(string content, set<string> &keywords)
　　{
　　    #define MAX_LEN 12      //词库中最长词语(utf-8一个汉字3个字节)
　　    #define MIN_LEN 3       //单字(原理同上)
　　    int len = content.length();
　　    int right_len = len;
　　    int start_pos = 0;
　　    bool ret = false;
　　    string kw_value = "";
　　    int kw_len = 0;
　　    int kw_pos = 0;
　　    //单字或空串
　　    while (right_len > MIN_LEN)
　　    {
　　        //语句大于词库中最长词语
　　        if (right_len >= MAX_LEN)
　　        {
　　            kw_value = content.substr(start_pos, MAX_LEN);
　　        }
　　        //语句小于词库中最长词语
　　        else
　　        {
　　            kw_value = content.substr(start_pos, right_len);
　　        }
　　
　　        //词库匹配
　　        ret = match(kw_value);
　　        kw_len = kw_value.length();
　　        kw_pos = 0;
　　        while (!ret && kw_len > 2*MIN_LEN)
　　        {
　　            //去掉候选词右边一个汉字
　　            kw_len -= MIN_LEN;
　　            kw_value = kw_value.substr(kw_pos, kw_len);
　　            //继续匹配
　　            ret = match(kw_value);
　　        }
　　
　　        //匹配到词
　　        if (ret)
　　        {
　　            keywords.insert(kw_value);
　　            //从语句中去掉匹配到的词
　　            start_pos += kw_len;
　　            right_len = len - start_pos;
　　        }
　　        //未匹配到词，下移一个字
　　        else
　　        {
　　            start_pos += MIN_LEN;
　　            right_len = len - start_pos;
　　        }
　　    }//while (right_len > MIN_LEN)
　　}
　　
　　int main()
　　{
　　    //构造词库
　　    construct();
　　
　　    //切分词库
　　    string content = "我是中国人，我是来自中国北京的中国人，在纽约工作";
　　    set<string> keywords;
　　    forward_maximum_matching(content, keywords);
　　    set<string>::iterator itor;
　　
　　    //输出分词
　　    for (itor=keywords.begin(); itor!=keywords.end(); ++itor)
　　    {
　　        printf("result: %sn", (*itor).c_str());
　　    } //phpfensi.com
　　
　　    return 0;
　　}

（编辑：柳州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Linux 远程桌面管理工	Linux 远程桌面管理工
如何运用 Kubevirt 管	24 个 Docker 常见问题