博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
tn文本分析语言(四) 实现自然语言计算器
阅读量:5843 次
发布时间:2019-06-18

本文共 3431 字,大约阅读时间需要 11 分钟。

tn是desert和tan共同开发的一种用于匹配,转写和抽取文本的语言。解释器使用Python实现,代码不超过1000行。

github地址:

前言

本文将利用引擎实现一个自然语言计算器,支持加减乘除和平方的计算。如下面的测试样例:

三平方加上四平方如果2乘以3大于4的平方且3>8,那么输出5+4,否则输出12如果今天下雨,则发送微博3.4的7次方加上五分之一3.4*2.7二百八十除以五分之一三点五乘以三十七二十七+15*15十四点五的平方加上八十三除以三点五

基本的思路,是将整个文本,转换为一个Python的表达式,传递给Python的eval函数执行。这是一种取巧的办法,如果需要,可以修改引擎,实现自定义的脚本解析器。

运算符实现

下面的代码定义了计算符,非常容易理解:

#%Include% Rules/cnextadd  = (/加上?|\+|+/ : /+/) ;sub  = (/减去?|\-|-/ : /-/);mul = (/乘以?|\*|×/ : /*/);div = (/除以?|/|÷/ : ///); pow2 = (/的?平方/ : /**2/);pow3 = (/的?立方/ : /**3/);pown=  (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; divpow = $(digit) $(divpow0) $(digit) ;powx= $(pow2) | $(pow3) | $(pown);pow = $(digit) $(powx);

#%Include% Rules/cnext 引入了外部的一个规则文件,这个文件定义了中文和数字的表达方法。因此在本规则中,可直接引用cnext文件中定义的规则。

顺便指出,只要保证规则名称一致,通过更换为英语或其他语言的数字表达,就可以在不修改本脚本的情况下方便地让规则支持其他语言的计算功能

逻辑运算符

or = (/或/ : / or /);and = (/且/ : / and /);not = (/不是/ : / not /);equal = (/等于|=/ : /=/);bigger = (/大于|>/ : />/);less = (/小于|

值得一提的是,我们将逻辑转换成了or and 和not, 这是为了能够转写

运算符组合

addsub0=  $(add) | $(sub) ; logic0 =$(or) | $(and)  ;divpow0 = $(mul) | $(div);equalcheck = $(bigger) |$(less) | $(noequal);operator= $(addsub0) | $(equalcheck) | $(logic0);

非终结符和终结符

低优先级的表达式可以表示如下:

addsub= $(noterminator) $(operator) $(noterminator);
由于乘除和n次方的的优先级比加减和逻辑运算符优先级高,所以我们将运算符分为两类:
终结符

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow);

非终结符

#%Order% 28noterminator = $(terminator) : "eval(m.rstr)" |  $(addsub) : "eval(m.rstr)";

此处需要解释脚本的含义,

  • m在此处代指前面匹配的实体
  • m.rstr为m的转写后的字符串
  • m.mstr为m匹配的字符串
    eval是引擎内置的函数,代指对转写后的字符串求值。

例子

三平方加上四平方

匹配路径如下
TODO
最后eval(32+42),结果为5

无法消除的左递归

如果希望支持计算类似'3加5的和乘以3'的表达式,那么terminator表达式需要这样写:

terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function)|   $(noterminator)  $(add) $(noterminator)  $(addresult)|   $(noterminator) $(sub) $(noterminator)  $(subresult);

但是,注意第二条子表达式

$(noterminator) $(add) $(noterminator) $(addresult)
$(noterminator)又引用了terminator,因此会导致无穷递归。
目前还没有找到合适的方法解决这个问题。

完整的代码

#计算引擎#尝试解决 三点五乘以八点三的功能#%Include% Rules/cnextadd  = (/加上?|\+|+/ : /+/) ;sub  = (/减去?|\-|-/ : /-/);mul = (/乘以?|\*|×/ : /*/);div = (/除以?|/|÷/ : ///); pow2 = (/的?平方/ : /**2/);pow3 = (/的?立方/ : /**3/);pown=  (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; result= (/的?结果/);addresult0= (/的?和/);subresult0= (/的?差/);addresult = $(result) $(addresult0);subresult = $(result) $(subresult0);addsub0=  $(add) | $(sub) ; logic0 =$(or) | $(and)  ;divpow0 = $(mul) | $(div);equalcheck = $(bigger) |$(less) | $(noequal);operator= $(addsub0) | $(equalcheck) | $(logic0);divpow = $(digit) $(divpow0) $(digit) ;powx= $(pow2) | $(pow3) | $(pown);pow = $(digit) $(powx); #functionsprint = (/打印/ : /print/);send = (/发送/ : /send/);functions = $(print) | $(send);function = $(functions) $(noterminator) : "invoke(m[0].rstr,m[1].rstr)";addsub= $(not) $(noterminator)    | $(noterminator) $(operator) $(noterminator);    terminator   = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function);#暂时无法分析 3加5的和乘以3,因为会造成循环递归,从左向右推导不可行#   | ) $(add) $(noterminator)  $(addresult)#   | $(noterminator) $(sub) $(noterminator)  $(subresult);#%Order% 28noterminator = $(terminator) : "eval(m.rstr)" |  $(addsub) : "eval(m.rstr)";or = (/或/ : / or /);and = (/且/ : / and /);not = (/不是/ : / not /);equal = (/等于|=/ : /=/);bigger = (/大于|>/ : />/);less = (/小于|

作者:
出处:
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

分类:
本文转自FerventDesert博客园博客,原文链接:http://www.cnblogs.com/buptzym/p/5361121.html,如需转载请自行联系原作者
你可能感兴趣的文章
需求文档和软件都是服务的集合
查看>>
使用Linq查找重复
查看>>
傻子都能看懂的并查集入门
查看>>
ERROR in static/js/0.5d7325513eec31f1e291.js from UglifyJs
查看>>
requirejs的插件介绍与制作
查看>>
迷宫求解无敌版(递归调用结构体法)第二季
查看>>
理解React组件的生命周期
查看>>
Git 常用命令
查看>>
SQL分页查询【转】
查看>>
RDLC
查看>>
HDU 2094 产生冠军
查看>>
HDU 2289 Cup (二分)
查看>>
C#中使用Monitor类、Lock和Mutex类来同步多线程的执行
查看>>
【面试&笔试】ASP.NET的相关问题
查看>>
【Android】Android布局中实现圆角边框
查看>>
动态规划--图像压缩
查看>>
SoapUI Pro Project Solution Collection-XML assert
查看>>
[Jobdu] 题目1139:最大子矩阵
查看>>
[翻译] 使用CSS进行文字旋转
查看>>
CAS单点登陆实践-1:创建x.509证书
查看>>