cppjieba

读取utf8文本，解析成unicode编号进行处理。

主要函数：

utf8转化的unicode在结巴中称为rune。每个rune对应一个字。不仅保存了unicode编号，还保存了该字符在原字符串的起始位置和长度信息

GetStringsFromWords：从word结构体中，提取utf8字符串

GetWordsFromWordRanges：根据单词的左右边界，获取词。

在SegmentBase.hpp中用symbols_定义了标点符号列表。在实际分词中，如果遇到这个列表中的符号，则以这个符号作为划分进行分词。

词性标注只是简单的查找字典。如果在字典中没有，则用简单的规则匹配（统计unicode值小于0x80的个数及占比）看是否是英文或数字。