A.Jieba专注于中文分词操作
B.NLTK主要用于一般自然语言处理任务(标记化,POS标记,解析等)
C.Gensim主要用于题和向量空间建模、文档集合相似性等
D.Scikit-learn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频-逆文档频率特征提取(TfidfVectorizer)等。
A.正向最大匹配法(由左到右的方向)
B.逆向最大匹配法(由右到左的方向)
C.最少切分(使每一句中切出的词数最小)
D.双向最大匹配法(进行由左到右、由右到左两次扫描)
A.南京市*长江*大桥
B.南京*市长*江大桥
C.南京市长*江大桥
D.南京市*长江大桥