Liu Shouda coder

cppjieba

2016-06-06

读取utf8文本,解析成unicode编号进行处理。

image

主要函数:

utf8转化的unicode在结巴中称为rune。每个rune对应一个字。不仅保存了unicode编号,还保存了该字符在原字符串的起始位置和长度信息

GetStringsFromWords: 从word结构体中,提取utf8字符串

GetWordsFromWordRanges: 根据单词的左右边界,获取词。

在SegmentBase.hpp中用symbols_定义了标点符号列表。在实际分词中,如果遇到这个列表中的符号,则以这个符号作为划分进行分词。

词性标注只是简单的查找字典。如果在字典中没有,则用简单的规则匹配(统计unicode值小于0x80的个数及占比)看是否是英文或数字。


下一篇 cppmary

Content