NLP的目的是希望计算机能够理解人类语言,并提供智能服务。在中文的语言环境里,“词”是构成语法的基本单位,绝大多数的NLP任务都依赖分词的结果。
中文和英文有很大的不同,英文是以空格作为分隔符的,而中文是字与字直接连接在一起,这就造成了中文分词要比英文分词难度要大的多了。
中文分词经历了20多年的发展,一路上克服了各种困难,我梳理了一下主要4个难题:
1.中文语言里词界定标注不够清晰和统一,比如:“改革开放”可以整体切分,也可以切分成“改革”和“开发”。
2.人工规则和统计学习孰优孰劣。
3.中文歧义问题,比如:“乒乓球拍卖完了”可以切分成“乒乓球/拍卖/完/了”,也可以切分成“乒乓球拍/卖完/了“。
4.中文的新词发现,比如:各种网络新词、人名、品牌名等等。
综上所述,中文的NLP要比英文类语言难很多,但中文分词之后其实就与其它语言没收什么太大的区别了。
本人有10年的互联网工作经验,对NLP有深入的研究,如果感兴趣的朋友,可以阅读头条的文章:https://www.toutiao.com/i6757934198884925963/,里面有更加详细的中文分词讲解。
希望以上内容对大家有所帮助,多谢!