Skip to content

zispace/hanzi-words-ext

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 

Repository files navigation

汉语词表补充

主要补充来自 NLP 语料分词词表、网络百科词条名等数据。 相比出版词典等,数据量级更大,囊括更多新词、长词。 由于主要来自网络文本,数据污染问题较严重,如含特殊字符,敏感类字词较多(NSFW),同存在非规范词形、繁简混杂等情况。 如用于输入法词库、模型训练等场景,请慎重使用。

数据集

  • 网络百科词条:
    • 维基百科(中文)
    • 百度百科
  • 腾讯词向量
  • 部分输入法词库(转换成纯文本词表)
  • 高校名称
  • 反义词对
  • ……