百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

使用ANTLR开发自己的DSL语言(一)(antlr入门)

ccwgpt 2025-06-13 11:44 14 浏览 0 评论

概述

本文介绍如何使用 ANTLR 4 开发一个属于自己的 DSL 语言,本篇文章是该系列文章的第一篇,从模仿一个最简单的计算器开始。这个计算器我把它叫做"CALC",它具有如下最基本的功能 :

  • 正整数的加减乘除表达式
  • 不使用括号时,乘除优先级高于加减
  • 使用括号可以提升运算符号的优先级
  • 变量记忆一个表达式的结果
  • 可以输出表达式或者变量结果

至于该计算器内部的执行,为了简单起见,使用了解释执行模式,而不是编译执行。

具体实现

该计算器语言的实现,我使用了 antlr4 + java 8 + maven。

下面首先给出该 maven 项目 pom.xml 文件的具体内容 :

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>andy.antlr4</groupId>
    <artifactId>calc_v1</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.antlr/antlr4 -->
        <dependency>
            <groupId>org.antlr</groupId>
            <artifactId>antlr4</artifactId>
            <version>4.9.2</version>
        </dependency>
    </dependencies>
</project>

这个 pom.xml 文件内容很简单,其核心就两点 :

  • 这是一个通过 maven 管理的项目
  • 该项目依赖了包 org.antlr:antlr4:4.9.2

接下来,看这个计算器的 ANTLR 语法 :

grammar CALC;

///////////// 语法规则 (首字母小写)
program: stmt+;

stmt: 'print' expr NEWLINE          # print // 输出表达式的值
|ID '=' expr NEWLINE                # assign // 赋值语句
|NEWLINE                            # blank // 空行
;

expr:expr (MUL|DIV) expr    # MulDiv // 乘除表达式
|expr (ADD|SUB) expr        # AddSub // 加减表达式
|'('expr')'                 # Parenthesis // ()表达式,提升优先级
|ID                         # Variable    // 表达式指向另外一个变量
|value                      # IntLiteral // 字面值或者变量方式表达式
;

value:INT     // 直接是一个整数字面值
;

////////////// 词法规则 (首字母大写)

MUL : '*';  // 乘法操作符
DIV : '/';  // 除法操作符
ADD : '+';  // 加法操作符
SUB : '-';  // 减法操作符
ID  : [a-z]+; // 变量名称
INT : [1-9][0-9]*; // 整数字面值
NEWLINE : '\r'?'\n'; // 换行符号
WS : [ \t\r\n] -> skip; // 忽略空白,跳格和换行符

在这个语法定义文件中,我把所定义的计算器DSL语言起名为"CALC"。

该语言一点都不复杂,估计很容易你就能读明白。不过我还是稍作解释,加速理解:

  • 第4行是整个语法规则的入口,它的意思是一个程序"program"由一条或者多条程序语句"stmt"组成。
  • 第6-9行是一个程序语句"stmt"的语法规则。这里一个程序语句"stmt"可能存在三种情况。第一种情况是打印一个表达式;第二种情况将表达式赋值给一个变量;第三种情况是一个空行。并且从这三行可以看出,我使用了"NEWLINE"表示一个语句的结束,这里提前说一下,"NEWLINE"在这个语法中,其实是表示一个换行符,也就是 '\r'?'\n',我把它在这个语法里作为了一个程序语句的分隔符。
  • 第11-15行是一个表达式"expr"的语法规则。这里一个表达式也有5种情况。第一种,是两个表达式的乘除运算;第二种,是两个表达式的加减运算;第三种,是通过括号将一个表达式括起来,这其实是提升运算符优先级的手段;第四种,表达式引用了另外一个变量;第五种,表达式是一个值"value"。
  • 第18行是值"value"的语法规则。我把它定义为一个整数"INT"。
  • 第23-26行,是对加减乘除四个运算符的定义。
  • 第27行,是对变量名称的定义,为了简单起见,这里我只允许变量名称使用小写英文字母。
  • 第28行,是对整数的定义,这里我只识别1-9开头的数字。换句话讲,0和负数是识别不了的,0345这样的数字我也不识别。
  • 第29行,可以看到之前提到过的换行符"NEWLINE"的定义,我也将它作为该DSL的语句分隔符。
  • 第30行,我定义了空白,跳格和换行符和对他们的处理:跳过。


接下来,将该语法文件作为输入,使用如下命令行可以生成计算器CALC的Java语言解析器框架。

antlr4 CALC.g4 -visitor

其中命令行 "antlr4"的定义如下(windows平台版本) :

@echo off
SET CLASSPATH=.;D:\programs\antlr4\lib\antlr-4.9.2-complete.jar;%CLASSPATH%
java org.antlr.v4.Tool %*

使用ANTLR 工具生成的CALC解析器框架,具体来讲,会是如下几个Java类/接口 :

  • CALCLexer
  • CALCParser
  • CALCListener 接口
  • CALCVisitor 接口
  • CALCBaseListener 实现接口 CALCListener
  • CALCBaseVisitor 实现接口 CALCVisitor


这些类或者接口之间的关系如上图所示,目前这里不做深入介绍。现在主要关注其中的类 "CALCBaseVisitor",这是计算器"CALC"关键逻辑实现所要使用的基类。

现在实现我们计算器"CALC"的关键逻辑 :

package andy.calc;

import java.util.concurrent.ConcurrentHashMap;

/**
 * CALC 脚本的 Visitor 模式实现类
 */
public class CALCVisitorImpl extends CALCBaseVisitor<Integer> {
    // 计算器内容, 用于记录变量的值
    ConcurrentHashMap<String, Integer> memory = new ConcurrentHashMap<String, Integer>();

    /**
     * 访问规则分支 'print' expr NEWLINE
     *
     * @param ctx
     * @return
     */
    @Override
    public Integer visitPrint(CALCParser.PrintContext ctx) {
        Integer value = visit(ctx.expr());

        // 该节点有三个词法符号
        // 1. print 字符串
        // 2. expr 表达式
        // 4. NEWLINE 换行符
        String expressionLiteral = ctx.getChild(1).getText();

        System.out.println(expressionLiteral + " = " + value);

        // 注意 : 该 print 语句返回了值 0, 语言开发者可以根据需要决定在这里返回什么值
        return 0;
    }

    /**
     * 访问规则分支 : ID '=' expr NEWLINE
     *
     * @param ctx
     * @return
     */
    @Override
    public Integer visitAssign(CALCParser.AssignContext ctx) {
        String id = ctx.ID().getText(); // 获取变量名称
        Integer value = visit(ctx.expr()); // 访问表达式,得到表达式的值
        memory.put(id, value); // 将变量的值记录到计算器内存中

        return value;
    }

    /**
     * 访问规则分支 : expr (MULTIPLY|DIVIDE) expr
     *
     * @param ctx
     * @return
     */
    @Override
    public Integer visitMulDiv(CALCParser.MulDivContext ctx) {
        Integer left = visit(ctx.expr(0)); // 乘除表达值 左操作数
        Integer right = visit(ctx.expr(1)); // 乘除表达式 右操作数
        if (ctx.MUL() != null) {
            return left * right; // 乘法的情况
        } else {
            return left / right; // 如果不是乘法,则认为是除法
        }
    }

    /**
     * 访问规则分支 : expr (PLUS|MINUS) expr
     *
     * @param ctx
     * @return
     */
    @Override
    public Integer visitAddSub(CALCParser.AddSubContext ctx) {
        Integer left = visit(ctx.expr(0));  // 加减表达值 左操作数
        Integer right = visit(ctx.expr(1)); // 加减表达值 右操作数
        if (ctx.ADD() != null) {
            return left + right; // 加法的情况
        } else {
            return left - right; // 如果不是加法,则认为是减法
        }
    }

    /**
     * 访问规则分支 : variable
     *
     * @param ctx
     * @return
     */
    @Override
    public Integer visitVariable(CALCParser.VariableContext ctx) {
        String id = ctx.getText();

        return memory.containsKey(id) ?
                memory.get(id) : // 这是一个已经定义的变量
                0; // 引用了一个未被定义的变量,则返回 0
    }

    /**
     * 访问规则分支 : value
     *
     * @param ctx
     * @return
     */
    @Override
    public Integer visitValue(CALCParser.ValueContext ctx) {
        String text = ctx.getText();
        // 是整数数字字面值的情况
        return Integer.parseInt(text);
    }

    /**
     * 访问分支 : '('expr')'
     *
     * @param ctx
     * @return
     */
    @Override
    public Integer visitParenthesis(CALCParser.ParenthesisContext ctx) {
        return visit(ctx.expr());
    }
}

类"CALCVisitorImpl"实现了计算器"CALC"的关键逻辑,也就是对各个语法规则语义解析:要么是打印一个表达式的值;要么是计算一个表达式;要么是对一个变量进行赋值记忆表达式的值。具体每个方法在这里就不再详细介绍了,参看类中方法上面的注释即可。

到此为止,我们的计算器的核心就实现完成了。接下来,将其包装一下,对使用者有好一些:

package andy.calc;

import org.antlr.v4.runtime.CharStreams;
import org.antlr.v4.runtime.CodePointCharStream;
import org.antlr.v4.runtime.CommonTokenStream;

/**
 * CALC 计算器DSL解释执行器
 */
public class CALCInterpreter {
    /**
     * 执行 CALC 语言脚本
     * @param script CALC 语言脚本
     */
    public void run(String script) {
        //  对每一个输入的字符串,也就是 CALC 语言脚本,构造一个 CodePointCharStream
        CodePointCharStream stream = CharStreams.fromString(script);

        //  用 stream 构造 CALC 词法分析器 lexer,词法分析的作用是产生记号
        CALCLexer lexer = new CALCLexer(stream);

        //  用 CALC 词法分析器 lexer 构造一个词法符号流 tokens
        CommonTokenStream tokens = new CommonTokenStream(lexer);

        //  使用 法符号流 tokens 构造 CALC 语法分析器 parser,至此已经完成词法分析和语法分析的准备工作
        CALCParser parser = new CALCParser(tokens);

        //  最终 : 调用 CALC 语法分析器的规则 program,完成对 CALC 表达式脚本 script 的分析
        CALCParser.ProgramContext programContext = parser.program();

        //  通过访问者模式,执行我们的程序
        CALCBaseVisitor evalVisitor = new CALCVisitorImpl();
        evalVisitor.visit(programContext);
    }
}


现在,我们就有了一个可以给"CALC"用户使用的计算器了,现在,我们模仿用户来使用这个计算器 :

package andy.zero;

import andy.calc.CALCInterpreter;


public class Application {
    public static void main(String[] args) {
        CALCInterpreter calcInterpreter = new CALCInterpreter();

        String script = "\n" + // 语句1 : 空语句,为了下面各脚本行对齐添加的一个空语句行,没有什么其他意义
                "a = 1\n" + // 语句2 : 定义变量 a , 值为 1
                "b = 2\n" + // 语句3 : 定义变量 b, 值为 2
                "c = 3\n" + // 语句4 : 定义变量 c, 值为 3
                "d = ( a + b + 1 ) * c \n" + // 语句5: 定义变量 d, 为一个表达式,最终结果应该是 12
                "e = d \n" + // 语句6 : 定义变量 e, 值复制自 d, 应该为 12
                "print e\n" + // 语句7 : 输出变量 e 的值, 应该为 12
                "print f\n" + // 语句8 : 输出变量 f 的值, 应该为 0, 因为 f 是一个未被定义的变量
                "print 4 + 5 + 20 / 2 \n"; // 语句9 : 输出一个直接表达式的值, 应该为 19

        calcInterpreter.run(script);
    }
}

这个程序模拟了对如下"CALC"脚本的执行 :


a = 1
b = 2
c = 3
d = ( a + b + 1 ) * c 
e = d 
print e
print f
print 4 + 5 + 20 / 2

运行一下这个程序,你会看到如下输出 :

e = 12
f = 0
4+5+20/2 = 19

怎么样 ? 实现一个自己的计算器语言是不是很简单 ?

相关推荐

自己动手写Android数据库框架_android开发数据库搭建

http://blog.csdn.net/feiduclear_up/article/details/50557590推荐理由关于Android数据库操作,由于每次都要自己写数据库操作,每次还得去...

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

智东西编译|金碧辉编辑|程茜智东西5月28日消息,据科技媒体TheDecoder5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude3.7...

工信部:着力推动大模型算法、框架等基础性原创性的技术突破

工信部新闻发言人今日在发布会上表示,下一步,我们将坚持突出重点领域,大力推动制造业数字化转型,推动人工智能创新应用。主要从以下四个方面着力。一是夯实人工智能技术底座。通过科技创新重大项目,着力推动大模...

乒乓反复纠结“框架不稳定”的三个小误区

很多球友由于对框架的认知不清晰,往往会把“框架不稳定”当成一种心理负担,从而影响学球进度,其典型状态就是训练中有模有样,一旦进入实战,就像被捆住了手脚。通过训练和学习,结合“基本功打卡群”球友们交流发...

前AMD、英特尔显卡架构师Raja再战GPU,号称要全面重构堆栈

IT之家8月5日消息,知名GPU架构师拉贾科杜里(RajaKoduri)此前曾先后在AMD和英特尔的显卡部门担任要职。而在今日,由Raja创立的GPU软件与IP初创企...

三种必须掌握的嵌入式开发程序架构

前言在嵌入式软件开发,包括单片机开发中,软件架构对于开发人员是一个必须认真考虑的问题。软件架构对于系统整体的稳定性和可靠性是非常重要的,一个合适的软件架构不仅结构清晰,并且便于开发。我相...

怪不得别人3秒就知道软考案例怎么做能50+

软考高级统一合格标准必须三科都达到45分,案例分析也一直是考生头疼的一门,但是掌握到得分点,案例能不能50+还不是你们说了算吗?今天就结合架构案例考点,分享实用的备考攻略~一、吃透考点,搭建知识框架从...

UML统一建模常用图有哪些,各自的作用是什么?一篇文章彻底讲透

10万+爆款解析:9大UML图实战案例,小白也能秒懂!为什么需要UML?UML(统一建模语言)是软件开发的“蓝图”,用图形化语言描述系统结构、行为和交互,让复杂需求一目了然。它能:降低沟通成本避...

勒索软件转向云原生架构,直指备份基础设施

勒索软件组织和其他网络犯罪分子正越来越多地将目标对准基于云的备份系统,对久已确立的灾难恢复方法构成了挑战。谷歌安全研究人员在一份关于云安全威胁演变的报告中警告称,随着攻击者不断改进数据窃取、身份泄露和...

ConceptDraw DIAGRAM:释放创意,绘就高效办公新未来

在当今数字化时代,可视化工具已成为提升工作效率和激发创意的关键。ConceptDrawDIAGRAM,作为一款世界顶级的商业绘图软件,凭借其强大的功能和用户友好的界面,正逐渐成为众多专业人士的首选绘...

APP 制作界面设计教程:一步到位_app界面设计模板一套

想让APP界面设计高效落地,无需繁琐流程,掌握“框架搭建—细节填充—体验优化”三步法,即可一步到位完成专业级设计。黄金框架搭建是基础。采用“三三制布局”:将屏幕横向三等分,纵向保留三...

MCP 的工作原理:关键组件_mcp部件

以下是MCP架构的关键组件:MCP主机:像ClaudeDesktop、GitHubCopilot或旅行助手这样的AI智能体,它们希望通过MCP协议访问工具、资源等。MCP主机会...

软件架构_软件架构师工资一般多少

软件架构师自身需要是程序员,并且必须一直坚持做一线程序员。软件架构应该是能力最强的一群程序员,他们通常会在自身承接编程任务的同时,逐渐引导整个团队向一个能够最大化生产力的系统设计方向前进。软件系统的架...

不知不觉将手机字体调大!老花眼是因为“老了吗”?

现在不管是联系、交友,还是购物,都离不开手机。中老年人使用手机的时间也在逐渐加长,刷抖音、看短视频、发朋友圈……看手机的同时,人们也不得不面对“视力危机”——老花眼,习惯眯眼看、凑近看、瞪眼看,不少人...

8000通用汉字学习系列讲座(第046讲)

[表声母字]加(续)[从声汉字]伽茄泇迦枷痂袈笳嘉驾架咖贺瘸(计14字)嘉[正音]标准音读jiā。[辨形]上下结构,十四画。会意形声字,从壴从加,加也表声。注:从壴,字义与鼓乐有关;从加,字义与...

取消回复欢迎 发表评论: