百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

POI Sax 事件驱动解析Excel2007文件

ccwgpt 2024-12-17 13:00 90 浏览 0 评论

Excel2007版本的代码如下,本文主要是用于POI解析大文件Excel容易出现内存溢出的现象而提出解决方案,故此解决了大数据量的Excel文件解析的难度,在此拿出来贡献给大家,谢谢!

1. Office2007与Office Open XML

在Office 2007之前,Office一直都是以二进制位的方式存储,但这种格式不易被其它软件拿来使用,在各界的压力下,MicroSoft于2005年发布了基于XML的ooxml开放文档标准。ooxml的xml schema强调减少load time,增快parsing speed,将child elements分开存储,而不是multiple attributes一起存,这有点类似于HTML的结构。ooxml 使用XML和ZIP技术结合进行文件存储,因为XML是一个基于文本的格式,而且ZIP容器支持内容的压缩,所以其一大优势就是可以大大减小文件的尺寸。其它特点这里不再叙述。

2. SAX方式解析XML

SAX全称Simple API for XML,它是一个接口,也是一个软件包。它是一种XML解析的替代方法,不同于DOM解析XML文档时把所有内容一次性加载到内存中的方式,它逐行扫描文档,一边扫描,一边解析。所以那些只需要单遍读取内容的应用程序就可以从SAX解析中受益,这对大型文档的解析是个巨大优势。另外,SAX “推" 模型可用于广播环境,能够同时注册多个ContentHandler,并行接收事件,而不是在一个管道中一个接一个地进行处理。一些支持 SAX 的语法分析器包括 Xerces,Apache parser(以前的 IBM 语法分析器)、MSXML(Microsoft 语法分析器)和 XDK(Oracle 语法分析器)。这些语法分析器是最灵活的,因为它们还支持 DOM。

3. POI以SAX解析excel2007文件

所需jar包:poi-3.10-FINAL-20140208.jar,poi-ooxml-3.10-FINAL-20140208.jar, poi-ooxml-schemas-3.10-FINAL-20140208.jar

xercesImpl.jar xml-apis-2.0.2.jar xmlbeans-2.6.0.jar sax2.jar

package com.boguan.bte.util.excel;

import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.apache.poi.openxml4j.exceptions.OpenXML4JException;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.ss.usermodel.BuiltinFormats;
import org.apache.poi.ss.usermodel.DataFormatter;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.apache.poi.xssf.model.StylesTable;
import org.apache.poi.xssf.usermodel.XSSFCellStyle;
import org.apache.poi.xssf.usermodel.XSSFRichTextString;
import org.xml.sax.Attributes;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;

import com.boguan.bte.service.common.IExcelRowReader;
import com.boguan.bte.service.common.impl.ExcelRowReader;

/**
 * 名称: ExcelXlsxReader.java<br>
 * 描述: <br>
 * 类型: JAVA<br>
 * 最近修改时间:2016年7月5日 上午10:00:52<br>
 * 
 * @since 2016年7月5日
 * @author “”
 */
public class ExcelXlsxReader extends DefaultHandler {

    private IExcelRowReader rowReader;

    public void setRowReader(IExcelRowReader rowReader) {
        this.rowReader = rowReader;
    }

    /**
     * 共享字符串表
     */
    private SharedStringsTable sst;

    /**
     * 上一次的内容
     */
    private String lastContents;

    /**
     * 字符串标识
     */
    private boolean nextIsString;

    /**
     * 工作表索引
     */
    private int sheetIndex = -1;

    /**
     * 行集合
     */
    private List<String> rowlist = new ArrayList<String>;

    /**
     * 当前行
     */
    private int curRow = 0;

    /**
     * 当前列
     */
    private int curCol = 0;

    /**
     * T元素标识
     */
    private boolean isTElement;

    /**
     * 异常信息,如果为空则表示没有异常
     */
    private String exceptionMessage;

    /**
     * 单元格数据类型,默认为字符串类型
     */
    private CellDataType nextDataType = CellDataType.SSTINDEX;

    private final DataFormatter formatter = new DataFormatter;

    private short formatIndex;

    private String formatString;

    // 定义前一个元素和当前元素的位置,用来计算其中空的单元格数量,如A6和A8等
    private String preRef = null, ref = null;

    // 定义该文档一行最大的单元格数,用来补全一行最后可能缺失的单元格
    private String maxRef = null;

    /**
     * 单元格
     */
    private StylesTable stylesTable;

    /**
     * 遍历工作簿中所有的电子表格
     * 
     * @param filename
     * @throws IOException
     * @throws OpenXML4JException
     * @throws SAXException
     * @throws Exception
     */
    public void process(String filename) throws IOException, OpenXML4JException, SAXException {
        OPCPackage pkg = OPCPackage.open(filename);
        XSSFReader xssfReader = new XSSFReader(pkg);
        stylesTable = xssfReader.getStylesTable;
        SharedStringsTable sst = xssfReader.getSharedStringsTable;
        XMLReader parser = this.fetchSheetParser(sst);
        Iterator<InputStream> sheets = xssfReader.getSheetsData;
        while (sheets.hasNext) {
 curRow = 0;
 sheetIndex++;
 InputStream sheet = sheets.next;
 InputSource sheetSource = new InputSource(sheet);
 parser.parse(sheetSource);
 sheet.close;
        }
    }

    public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {
        XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
        this.sst = sst;
        parser.setContentHandler(this);
        return parser;
    }

    public void startElement(String uri, String localName, String name, Attributes attributes) throws SAXException {
        // c => 单元格
        if ("c".equals(name)) {
 // 前一个单元格的位置
 if (preRef == null) {
 preRef = attributes.getValue("r");
 } else {
 preRef = ref;
 }
 // 当前单元格的位置
 ref = attributes.getValue("r");
 // 设定单元格类型
 this.setNextDataType(attributes);
 // Figure out if the value is an index in the SST
 String cellType = attributes.getValue("t");
 if (cellType != null && cellType.equals("s")) {
 nextIsString = true;
 } else {
 nextIsString = false;
 }
        }

        // 当元素为t时
        if ("t".equals(name)) {
 isTElement = true;
        } else {
 isTElement = false;
        }

        // 置空
        lastContents = "";
    }

    /**
     * 单元格中的数据可能的数据类型
     */
    enum CellDataType {
        BOOL, ERROR, FORMULA, INLINESTR, SSTINDEX, NUMBER, DATE, NULL
    }

    /**
     * 处理数据类型
     * 
     * @param attributes
     */
    public void setNextDataType(Attributes attributes) {
        nextDataType = CellDataType.NUMBER;
        formatIndex = -1;
        formatString = null;
        String cellType = attributes.getValue("t");
        String cellStyleStr = attributes.getValue("s");
        String columData = attributes.getValue("r");

        if ("b".equals(cellType)) {
 nextDataType = CellDataType.BOOL;
        } else if ("e".equals(cellType)) {
 nextDataType = CellDataType.ERROR;
        } else if ("inlineStr".equals(cellType)) {
 nextDataType = CellDataType.INLINESTR;
        } else if ("s".equals(cellType)) {
 nextDataType = CellDataType.SSTINDEX;
        } else if ("str".equals(cellType)) {
 nextDataType = CellDataType.FORMULA;
        }

        if (cellStyleStr != null) {
 int styleIndex = Integer.parseInt(cellStyleStr);
 XSSFCellStyle style = stylesTable.getStyleAt(styleIndex);
 formatIndex = style.getDataFormat;
 formatString = style.getDataFormatString;

 if ("m/d/yy" == formatString) {
 nextDataType = CellDataType.DATE;
 formatString = "yyyy-MM-dd hh:mm:ss.SSS";
 }

 if (formatString == null) {
 nextDataType = CellDataType.NULL;
 formatString = BuiltinFormats.getBuiltinFormat(formatIndex);
 }
        }
    }

    /**
     * 对解析出来的数据进行类型处理
     * 
     * @param value
     * 单元格的值(这时候是一串数字)
     * @param thisStr
     * 一个空字符串
     * @return
     */
    @SuppressWarnings("deprecation")
    public String getDataValue(String value, String thisStr) {
        switch (nextDataType) {
        // 这几个的顺序不能随便交换,交换了很可能会导致数据错误
        case BOOL:
 char first = value.charAt(0);
 thisStr = first == '0' ? "FALSE" : "TRUE";
 break;
        case ERROR:
 thisStr = "\"ERROR:" + value.toString + '"';
 break;
        case FORMULA:
 thisStr = '"' + value.toString + '"';
 break;
        case INLINESTR:
 XSSFRichTextString rtsi = new XSSFRichTextString(value.toString);

 thisStr = rtsi.toString;
 rtsi = null;
 break;
        case SSTINDEX:
 String sstIndex = value.toString;
 try {
 int idx = Integer.parseInt(sstIndex);
 XSSFRichTextString rtss = new XSSFRichTextString(sst.getEntryAt(idx));
 thisStr = rtss.toString;
 rtss = null;
 } catch (NumberFormatException ex) {
 thisStr = value.toString;
 }
 break;
        case NUMBER:
 if (formatString != null) {
 thisStr = formatter.formatRawCellContents(Double.parseDouble(value), formatIndex, formatString).trim;
 } else {
 thisStr = value;
 }

 thisStr = thisStr.replace("_", "").trim;
 break;
        case DATE:
 thisStr = formatter.formatRawCellContents(Double.parseDouble(value), formatIndex, formatString);

 // 对日期字符串作特殊处理
 thisStr = thisStr.replace(" ", "T");
 break;
        default:
 thisStr = " ";

 break;
        }

        return thisStr;
    }

    @Override
    public void endElement(String uri, String localName, String name) throws SAXException {
        // 根据SST的索引值的到单元格的真正要存储的字符串
        // 这时characters方法可能会被调用多次
        if (nextIsString) {
 int idx = Integer.parseInt(lastContents);
 lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString;
        }

        // t元素也包含字符串
        if (isTElement) {
 // 将单元格内容加入rowlist中,在这之前先去掉字符串前后的空白符
 String value = lastContents.trim;
 rowlist.add(curCol, value);
 curCol++;
 isTElement = false;
        } else if ("v".equals(name)) {
 // v => 单元格的值,如果单元格是字符串则v标签的值为该字符串在SST中的索引
 String value = this.getDataValue(lastContents.trim, "");
 // 补全单元格之间的空单元格
 if (!ref.equals(preRef)) {
 int len = countNullCell(ref, preRef);
 for (int i = 0; i < len; i++) {
 rowlist.add(curCol, "");
 curCol++;
 }
 }
 rowlist.add(curCol, value);
 curCol++;
        } else {
 // 如果标签名称为 row ,这说明已到行尾,调用 optRows 方法
 if (name.equals("row")) {
 // 默认第一行为表头,以该行单元格数目为最大数目
 if (curRow == 0) {
 maxRef = ref;
 }
 // 补全一行尾部可能缺失的单元格
 if (maxRef != null) {
 int len = countNullCell(maxRef, ref);
 for (int i = 0; i <= len; i++) {
 rowlist.add(curCol, "");
 curCol++;
 }
 }
 rowReader.getRows(sheetIndex, curRow, rowlist);

 rowlist.clear;
 curRow++;
 curCol = 0;
 preRef = null;
 ref = null;
 }
        }
    }

    /**
     * 计算两个单元格之间的单元格数目(同一行)
     * 
     * @param ref
     * @param preRef
     * @return
     */
    public int countNullCell(String ref, String preRef) {
        // excel2007最大行数是1048576,最大列数是16384,最后一列列名是XFD
        String xfd = ref.replaceAll("\\d+", "");
        String xfd_1 = preRef.replaceAll("\\d+", "");

        xfd = fillChar(xfd, 3, '@', true);
        xfd_1 = fillChar(xfd_1, 3, '@', true);

        char letter = xfd.toCharArray;
        char letter_1 = xfd_1.toCharArray;
        int res = (letter[0] - letter_1[0]) * 26 * 26 + (letter[1] - letter_1[1]) * 26 + (letter[2] - letter_1[2]);
        return res - 1;
    }

    /**
     * 字符串的填充
     * 
     * @param str
     * @param len
     * @param let
     * @param isPre
     * @return
     */
    String fillChar(String str, int len, char let, boolean isPre) {
        int len_1 = str.length;
        if (len_1 < len) {
 if (isPre) {
 for (int i = 0; i < (len - len_1); i++) {
 str = let + str;
 }
 } else {
 for (int i = 0; i < (len - len_1); i++) {
 str = str + let;
 }
 }
        }
        return str;
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        // 得到单元格内容的值
        lastContents += new String(ch, start, length);
    }

    /**
     * @return the exceptionMessage
     */
    public String getExceptionMessage {
        return exceptionMessage;
    }

    public static void main(String[] args) {
        IExcelRowReader rowReader = new ExcelRowReader;
        try {
 // ExcelReaderUtil.readExcel(rowReader,
 // "E://2016-07-04-011940a.xls");
 System.out.println("**********************************************");
 ExcelReaderUtil.readExcel(rowReader, "E://test.xlsx");
        } catch (Exception e) {
 e.printStackTrace;
        }
    }
}

相关推荐

十分钟让你学会LNMP架构负载均衡(impala负载均衡)

业务架构、应用架构、数据架构和技术架构一、几个基本概念1、pv值pv值(pageviews):页面的浏览量概念:一个网站的所有页面,在一天内,被浏览的总次数。(大型网站通常是上千万的级别)2、u...

AGV仓储机器人调度系统架构(agv物流机器人)

系统架构层次划分采用分层模块化设计,分为以下五层:1.1用户接口层功能:提供人机交互界面(Web/桌面端),支持任务下发、实时监控、数据可视化和报警管理。模块:任务管理面板:接收订单(如拣货、...

远程热部署在美团的落地实践(远程热点是什么意思)

Sonic是美团内部研发设计的一款用于热部署的IDEA插件,本文其实现原理及落地的一些技术细节。在阅读本文之前,建议大家先熟悉一下Spring源码、SpringMVC源码、SpringBoot...

springboot搭建xxl-job(分布式任务调度系统)

一、部署xxl-job服务端下载xxl-job源码:https://gitee.com/xuxueli0323/xxl-job二、导入项目、创建xxl_job数据库、修改配置文件为自己的数据库三、启动...

大模型:使用vLLM和Ray分布式部署推理应用

一、vLLM:面向大模型的高效推理框架1.核心特点专为推理优化:专注于大模型(如GPT-3、LLaMA)的高吞吐量、低延迟推理。关键技术:PagedAttention:类似操作系统内存分页管理,将K...

国产开源之光【分布式工作流调度系统】:DolphinScheduler

DolphinScheduler是一个开源的分布式工作流调度系统,旨在帮助用户以可靠、高效和可扩展的方式管理和调度大规模的数据处理工作流。它支持以图形化方式定义和管理工作流,提供了丰富的调度功能和监控...

简单可靠高效的分布式任务队列系统

#记录我的2024#大家好,又见面了,我是GitHub精选君!背景介绍在系统访问量逐渐增大,高并发、分布式系统成为了企业技术架构升级的必由之路。在这样的背景下,异步任务队列扮演着至关重要的角色,...

虚拟服务器之间如何分布式运行?(虚拟服务器部署)

  在云计算和虚拟化技术快速发展的今天,传统“单机单任务”的服务器架构早已难以满足现代业务对高并发、高可用、弹性伸缩和容错容灾的严苛要求。分布式系统应运而生,并成为支撑各类互联网平台、企业信息系统和A...

一文掌握 XXL-Job 的 6 大核心组件

XXL-Job是一个分布式任务调度平台,其核心组件主要包括以下部分,各组件相互协作实现高效的任务调度与管理:1.调度注册中心(RegistryCenter)作用:负责管理调度器(Schedule...

京东大佬问我,SpringBoot中如何做延迟队列?单机与分布式如何做?

京东大佬问我,SpringBoot中如何做延迟队列?单机如何做?分布式如何做呢?并给出案例与代码分析。嗯,用户问的是在SpringBoot中如何实现延迟队列,单机和分布式环境下分别怎么做。这个问题其实...

企业级项目组件选型(一)分布式任务调度平台

官网地址:https://www.xuxueli.com/xxl-job/能力介绍架构图安全性为提升系统安全性,调度中心和执行器进行安全性校验,双方AccessToken匹配才允许通讯;调度中心和执...

python多进程的分布式任务调度应用场景及示例

多进程的分布式任务调度可以应用于以下场景:分布式爬虫:importmultiprocessingimportrequestsdefcrawl(url):response=re...

SpringBoot整合ElasticJob实现分布式任务调度

介绍ElasticJob是面向互联网生态和海量任务的分布式调度解决方案,由两个相互独立的子项目ElasticJob-Lite和ElasticJob-Cloud组成。它通过弹性调度、资源管控、...

分布式可视化 DAG 任务调度系统 Taier 的整体流程分析

Taier作为袋鼠云的开源项目之一,是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本,提高大数据平台稳定性,让大数据开发人员可以在Taier直接进行业务逻辑的开发,而不用关...

SpringBoot任务调度:@Scheduled与TaskExecutor全面解析

一、任务调度基础概念1.1什么是任务调度任务调度是指按照预定的时间计划或特定条件自动执行任务的过程。在现代应用开发中,任务调度扮演着至关重要的角色,它使得开发者能够自动化处理周期性任务、定时任务和异...

取消回复欢迎 发表评论: