主要补充来自 NLP 语料分词词表、网络百科词条名等数据。 相比出版词典等,数据量级更大,囊括更多新词、长词。 由于主要来自网络文本,数据污染问题较严重,如含特殊字符,敏感类字词较多(NSFW),同存在非规范词形、繁简混杂等情况。 如用于输入法词库、模型训练等场景,请慎重使用。
- 常用规范词表和专名词见:https://github.com/zispace/hanzi-words
- 搜狗词库见:https://github.com/zispace/dict-scel; 官网https://pinyin.sogou.com/dict/
- 网络百科词条:
- 维基百科(中文)
- 百度百科
- 腾讯词向量
- 部分输入法词库(转换成纯文本词表)
- 高校名称
- 反义词对
- ……