加入收藏 | 设为首页 | 关于我们 尊敬的先生/女士,您好,欢迎光临论文世界网!

 联系我们

点击这里给我发消息 点击这里给我发消息
联系电话:158-6676-5171
 免费论文
基于词典与统计的组合分词模型
发布时间:2019-01-29 点击: 发布:中国论文期刊网
词典结构
词典结构是基于词典分词方法的核心问题,直接影响到分词算法的性能。对
词典结构优劣的评价主要基于三个因素:
1、词条查询速度
2、词典的空间利用率
3、词典的维护性能
粗分模型 
最大匹配方法和最短路径法保留一个最“可靠”的切分路径,而全切分的方
法保留了所有的切分路径,本文提出的基于字位标注的粗分模型力求在二者之间
寻求一个平衡,利用词典对字串进行粗分需要兼顾粗分结果集规模和对正确切分
的覆盖率,即在尽可能包含正确切分结果的基础上最大程度的压缩粗分结果集规
模。同时,本模型对农业专业术语中的组合词也做了特殊处理。
基本思想是:首先对待处理文本进行预处理对于预处理后形成的语句集合利用特征词库进行特征词切分,从而形成长度更短的字串集合。该字串集合作为本文提出的基于字位标注的粗分模型的输入,进行粗分,输出包含歧义的切分结果。
基于字位标注的粗分模型:假设字串 S=C1C2…Cn,n 为字串长度,核心词典词条集合为 Dic,基本过程如下:
(1)通过核心词典 Dic 进行正向最大匹配,匹配初始长度为 Dic 最大词条长度,匹配初始位置为 1。匹配成功是指 Key=CpCp+1…Cq,且 Key∈Dic,匹配失败则减去字串尾最后一个字,如果当前待匹配字串长度为1则直接切分,匹配起始位置向右移动 1 位,继续匹配过程,直到整个字串全部处理完毕,转入步骤(4)。
(2)如果匹配成功,判断 Key 的类型,如果 Key 为专业词则将 Key 存入辅助词表,并减去字串尾最后一个字,转入步骤(1)。如果 Key 为普通词则转入步骤(3)。
(3)对 Key=CpCp+1…Cq,词长为 q-p+1,对每个字标注三元组(S,L,P)其中 S 为该词条对于字串的相对位置,此处为 p,L 表示词条长度,此处为q-p+1,P 为当前字对于该词条的相对位置,此处根据当前字不同分别为 1,2…q-p+1。
例如,假设 S=“世界关注中国产品质量”,Key=“世界”,其中“世”的三元组为(1,2,1),“界”的三元组为(“1,2,2”)。标注后减去字串尾最后一个字,转入步骤(1)。
(3)对 S 中 S=C1C2…Cn的三元组进行扫描,如果 Ci(1≤i≤n)对应的三元组个数 m 大于 1,则该字为产生歧义的字,并且包含该字的词为 m 个。由该字向前和向后扫描最远同头字,即为产生歧义的边界。进一步在 S 中扫描头尾相接的词串即对应一种划分。
 歧义消解
    中文分词对歧义的处理可以大致分为两个过程:歧义发现和歧义消解。歧义
分为交集型歧义和组合型歧义。
   对于交集型歧义,链长是指歧义字段中所包含的交集字段的个数。例如下面
一组交集型歧义情况:
“和尚未”---链长为1
“结合成分”---链长为2
“为人民工作”---链长为3
“结合成分子时”---链长为4
覆盖型歧义的例子:
“我/马上/就/来。”“他/从/马/上/下来。”
“机器翻译/很/难。”“用/机器/翻译/文章/很/难。”
最常用的歧义发现方法是双向最大匹配法,但这种方法通过双向扫描并不能
检测出所有的歧义,对于链长为偶数的交集型歧义和全部的覆盖型歧义则无能为
力。
    计算机处理自然语言歧义问题一般可以通过基于规则的方法、基于记忆的方
法和基于统计语言模型的方法。不同于形式语言的严格性和规范性,自然语言是
人类自然进化产生,包含大量复杂的语言现象,并还在不断演进发展中。所以基
于规则和基于记忆的消歧方法很难通过人工总结的“规律”覆盖各种语言现象,
因此本文采用的是基于统计语言模型的消歧方法。
    统计语言模型实际上就是一个概率分布,它给出了某种语言中所有可能的句
子的出现概率,也就是说,在统计语言模型中,任意一个句子都是可以被接受的,
只是被接受的概率大小不同。
上一篇:我国企业人力资源培训与开发中存在的问题     下一篇:没有了

QQ在线编辑

  • 在线咨询
  • 点击这里给我发消息
    客服小薇
  • 点击这里给我发消息
    晚班客服
  • 点击这里给我发消息
    客服小爱
  • 点击这里给我发消息

服务热线

  • 158-6676-5171
展开