百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

POI Sax 事件驱动解析Excel2007文件

ccwgpt 2024-12-17 13:00 87 浏览 0 评论

Excel2007版本的代码如下,本文主要是用于POI解析大文件Excel容易出现内存溢出的现象而提出解决方案,故此解决了大数据量的Excel文件解析的难度,在此拿出来贡献给大家,谢谢!

1. Office2007与Office Open XML

在Office 2007之前,Office一直都是以二进制位的方式存储,但这种格式不易被其它软件拿来使用,在各界的压力下,MicroSoft于2005年发布了基于XML的ooxml开放文档标准。ooxml的xml schema强调减少load time,增快parsing speed,将child elements分开存储,而不是multiple attributes一起存,这有点类似于HTML的结构。ooxml 使用XML和ZIP技术结合进行文件存储,因为XML是一个基于文本的格式,而且ZIP容器支持内容的压缩,所以其一大优势就是可以大大减小文件的尺寸。其它特点这里不再叙述。

2. SAX方式解析XML

SAX全称Simple API for XML,它是一个接口,也是一个软件包。它是一种XML解析的替代方法,不同于DOM解析XML文档时把所有内容一次性加载到内存中的方式,它逐行扫描文档,一边扫描,一边解析。所以那些只需要单遍读取内容的应用程序就可以从SAX解析中受益,这对大型文档的解析是个巨大优势。另外,SAX “推" 模型可用于广播环境,能够同时注册多个ContentHandler,并行接收事件,而不是在一个管道中一个接一个地进行处理。一些支持 SAX 的语法分析器包括 Xerces,Apache parser(以前的 IBM 语法分析器)、MSXML(Microsoft 语法分析器)和 XDK(Oracle 语法分析器)。这些语法分析器是最灵活的,因为它们还支持 DOM。

3. POI以SAX解析excel2007文件

所需jar包:poi-3.10-FINAL-20140208.jar,poi-ooxml-3.10-FINAL-20140208.jar, poi-ooxml-schemas-3.10-FINAL-20140208.jar

xercesImpl.jar xml-apis-2.0.2.jar xmlbeans-2.6.0.jar sax2.jar

package com.boguan.bte.util.excel;

import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.apache.poi.openxml4j.exceptions.OpenXML4JException;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.ss.usermodel.BuiltinFormats;
import org.apache.poi.ss.usermodel.DataFormatter;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.apache.poi.xssf.model.StylesTable;
import org.apache.poi.xssf.usermodel.XSSFCellStyle;
import org.apache.poi.xssf.usermodel.XSSFRichTextString;
import org.xml.sax.Attributes;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;

import com.boguan.bte.service.common.IExcelRowReader;
import com.boguan.bte.service.common.impl.ExcelRowReader;

/**
 * 名称: ExcelXlsxReader.java<br>
 * 描述: <br>
 * 类型: JAVA<br>
 * 最近修改时间:2016年7月5日 上午10:00:52<br>
 * 
 * @since 2016年7月5日
 * @author “”
 */
public class ExcelXlsxReader extends DefaultHandler {

    private IExcelRowReader rowReader;

    public void setRowReader(IExcelRowReader rowReader) {
        this.rowReader = rowReader;
    }

    /**
     * 共享字符串表
     */
    private SharedStringsTable sst;

    /**
     * 上一次的内容
     */
    private String lastContents;

    /**
     * 字符串标识
     */
    private boolean nextIsString;

    /**
     * 工作表索引
     */
    private int sheetIndex = -1;

    /**
     * 行集合
     */
    private List<String> rowlist = new ArrayList<String>;

    /**
     * 当前行
     */
    private int curRow = 0;

    /**
     * 当前列
     */
    private int curCol = 0;

    /**
     * T元素标识
     */
    private boolean isTElement;

    /**
     * 异常信息,如果为空则表示没有异常
     */
    private String exceptionMessage;

    /**
     * 单元格数据类型,默认为字符串类型
     */
    private CellDataType nextDataType = CellDataType.SSTINDEX;

    private final DataFormatter formatter = new DataFormatter;

    private short formatIndex;

    private String formatString;

    // 定义前一个元素和当前元素的位置,用来计算其中空的单元格数量,如A6和A8等
    private String preRef = null, ref = null;

    // 定义该文档一行最大的单元格数,用来补全一行最后可能缺失的单元格
    private String maxRef = null;

    /**
     * 单元格
     */
    private StylesTable stylesTable;

    /**
     * 遍历工作簿中所有的电子表格
     * 
     * @param filename
     * @throws IOException
     * @throws OpenXML4JException
     * @throws SAXException
     * @throws Exception
     */
    public void process(String filename) throws IOException, OpenXML4JException, SAXException {
        OPCPackage pkg = OPCPackage.open(filename);
        XSSFReader xssfReader = new XSSFReader(pkg);
        stylesTable = xssfReader.getStylesTable;
        SharedStringsTable sst = xssfReader.getSharedStringsTable;
        XMLReader parser = this.fetchSheetParser(sst);
        Iterator<InputStream> sheets = xssfReader.getSheetsData;
        while (sheets.hasNext) {
 curRow = 0;
 sheetIndex++;
 InputStream sheet = sheets.next;
 InputSource sheetSource = new InputSource(sheet);
 parser.parse(sheetSource);
 sheet.close;
        }
    }

    public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {
        XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
        this.sst = sst;
        parser.setContentHandler(this);
        return parser;
    }

    public void startElement(String uri, String localName, String name, Attributes attributes) throws SAXException {
        // c => 单元格
        if ("c".equals(name)) {
 // 前一个单元格的位置
 if (preRef == null) {
 preRef = attributes.getValue("r");
 } else {
 preRef = ref;
 }
 // 当前单元格的位置
 ref = attributes.getValue("r");
 // 设定单元格类型
 this.setNextDataType(attributes);
 // Figure out if the value is an index in the SST
 String cellType = attributes.getValue("t");
 if (cellType != null && cellType.equals("s")) {
 nextIsString = true;
 } else {
 nextIsString = false;
 }
        }

        // 当元素为t时
        if ("t".equals(name)) {
 isTElement = true;
        } else {
 isTElement = false;
        }

        // 置空
        lastContents = "";
    }

    /**
     * 单元格中的数据可能的数据类型
     */
    enum CellDataType {
        BOOL, ERROR, FORMULA, INLINESTR, SSTINDEX, NUMBER, DATE, NULL
    }

    /**
     * 处理数据类型
     * 
     * @param attributes
     */
    public void setNextDataType(Attributes attributes) {
        nextDataType = CellDataType.NUMBER;
        formatIndex = -1;
        formatString = null;
        String cellType = attributes.getValue("t");
        String cellStyleStr = attributes.getValue("s");
        String columData = attributes.getValue("r");

        if ("b".equals(cellType)) {
 nextDataType = CellDataType.BOOL;
        } else if ("e".equals(cellType)) {
 nextDataType = CellDataType.ERROR;
        } else if ("inlineStr".equals(cellType)) {
 nextDataType = CellDataType.INLINESTR;
        } else if ("s".equals(cellType)) {
 nextDataType = CellDataType.SSTINDEX;
        } else if ("str".equals(cellType)) {
 nextDataType = CellDataType.FORMULA;
        }

        if (cellStyleStr != null) {
 int styleIndex = Integer.parseInt(cellStyleStr);
 XSSFCellStyle style = stylesTable.getStyleAt(styleIndex);
 formatIndex = style.getDataFormat;
 formatString = style.getDataFormatString;

 if ("m/d/yy" == formatString) {
 nextDataType = CellDataType.DATE;
 formatString = "yyyy-MM-dd hh:mm:ss.SSS";
 }

 if (formatString == null) {
 nextDataType = CellDataType.NULL;
 formatString = BuiltinFormats.getBuiltinFormat(formatIndex);
 }
        }
    }

    /**
     * 对解析出来的数据进行类型处理
     * 
     * @param value
     * 单元格的值(这时候是一串数字)
     * @param thisStr
     * 一个空字符串
     * @return
     */
    @SuppressWarnings("deprecation")
    public String getDataValue(String value, String thisStr) {
        switch (nextDataType) {
        // 这几个的顺序不能随便交换,交换了很可能会导致数据错误
        case BOOL:
 char first = value.charAt(0);
 thisStr = first == '0' ? "FALSE" : "TRUE";
 break;
        case ERROR:
 thisStr = "\"ERROR:" + value.toString + '"';
 break;
        case FORMULA:
 thisStr = '"' + value.toString + '"';
 break;
        case INLINESTR:
 XSSFRichTextString rtsi = new XSSFRichTextString(value.toString);

 thisStr = rtsi.toString;
 rtsi = null;
 break;
        case SSTINDEX:
 String sstIndex = value.toString;
 try {
 int idx = Integer.parseInt(sstIndex);
 XSSFRichTextString rtss = new XSSFRichTextString(sst.getEntryAt(idx));
 thisStr = rtss.toString;
 rtss = null;
 } catch (NumberFormatException ex) {
 thisStr = value.toString;
 }
 break;
        case NUMBER:
 if (formatString != null) {
 thisStr = formatter.formatRawCellContents(Double.parseDouble(value), formatIndex, formatString).trim;
 } else {
 thisStr = value;
 }

 thisStr = thisStr.replace("_", "").trim;
 break;
        case DATE:
 thisStr = formatter.formatRawCellContents(Double.parseDouble(value), formatIndex, formatString);

 // 对日期字符串作特殊处理
 thisStr = thisStr.replace(" ", "T");
 break;
        default:
 thisStr = " ";

 break;
        }

        return thisStr;
    }

    @Override
    public void endElement(String uri, String localName, String name) throws SAXException {
        // 根据SST的索引值的到单元格的真正要存储的字符串
        // 这时characters方法可能会被调用多次
        if (nextIsString) {
 int idx = Integer.parseInt(lastContents);
 lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString;
        }

        // t元素也包含字符串
        if (isTElement) {
 // 将单元格内容加入rowlist中,在这之前先去掉字符串前后的空白符
 String value = lastContents.trim;
 rowlist.add(curCol, value);
 curCol++;
 isTElement = false;
        } else if ("v".equals(name)) {
 // v => 单元格的值,如果单元格是字符串则v标签的值为该字符串在SST中的索引
 String value = this.getDataValue(lastContents.trim, "");
 // 补全单元格之间的空单元格
 if (!ref.equals(preRef)) {
 int len = countNullCell(ref, preRef);
 for (int i = 0; i < len; i++) {
 rowlist.add(curCol, "");
 curCol++;
 }
 }
 rowlist.add(curCol, value);
 curCol++;
        } else {
 // 如果标签名称为 row ,这说明已到行尾,调用 optRows 方法
 if (name.equals("row")) {
 // 默认第一行为表头,以该行单元格数目为最大数目
 if (curRow == 0) {
 maxRef = ref;
 }
 // 补全一行尾部可能缺失的单元格
 if (maxRef != null) {
 int len = countNullCell(maxRef, ref);
 for (int i = 0; i <= len; i++) {
 rowlist.add(curCol, "");
 curCol++;
 }
 }
 rowReader.getRows(sheetIndex, curRow, rowlist);

 rowlist.clear;
 curRow++;
 curCol = 0;
 preRef = null;
 ref = null;
 }
        }
    }

    /**
     * 计算两个单元格之间的单元格数目(同一行)
     * 
     * @param ref
     * @param preRef
     * @return
     */
    public int countNullCell(String ref, String preRef) {
        // excel2007最大行数是1048576,最大列数是16384,最后一列列名是XFD
        String xfd = ref.replaceAll("\\d+", "");
        String xfd_1 = preRef.replaceAll("\\d+", "");

        xfd = fillChar(xfd, 3, '@', true);
        xfd_1 = fillChar(xfd_1, 3, '@', true);

        char letter = xfd.toCharArray;
        char letter_1 = xfd_1.toCharArray;
        int res = (letter[0] - letter_1[0]) * 26 * 26 + (letter[1] - letter_1[1]) * 26 + (letter[2] - letter_1[2]);
        return res - 1;
    }

    /**
     * 字符串的填充
     * 
     * @param str
     * @param len
     * @param let
     * @param isPre
     * @return
     */
    String fillChar(String str, int len, char let, boolean isPre) {
        int len_1 = str.length;
        if (len_1 < len) {
 if (isPre) {
 for (int i = 0; i < (len - len_1); i++) {
 str = let + str;
 }
 } else {
 for (int i = 0; i < (len - len_1); i++) {
 str = str + let;
 }
 }
        }
        return str;
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        // 得到单元格内容的值
        lastContents += new String(ch, start, length);
    }

    /**
     * @return the exceptionMessage
     */
    public String getExceptionMessage {
        return exceptionMessage;
    }

    public static void main(String[] args) {
        IExcelRowReader rowReader = new ExcelRowReader;
        try {
 // ExcelReaderUtil.readExcel(rowReader,
 // "E://2016-07-04-011940a.xls");
 System.out.println("**********************************************");
 ExcelReaderUtil.readExcel(rowReader, "E://test.xlsx");
        } catch (Exception e) {
 e.printStackTrace;
        }
    }
}

相关推荐

团队管理“布阵术”:3招让你的团队战斗力爆表!

为何古代军队能够以一当十?为何现代企业有的团队高效似“特种部队”,有的却松散若“游击队”?**答案正隐匿于“布阵术”之中!**今时今日,让我们从古代兵法里萃取3个核心要义,助您塑造一支战斗力爆棚的...

知情人士回应字节大模型团队架构调整

【知情人士回应字节大模型团队架构调整】财联社2月21日电,针对原谷歌DeepMind副总裁吴永辉加入字节跳动后引发的团队调整问题,知情人士回应称:吴永辉博士主要负责AI基础研究探索工作,偏基础研究;A...

豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍

强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。近日,字节跳动豆包大模型团队与香港大学联合提出HybridFlow。这是一个灵活高效的RL/RL...

创业团队如何设计股权架构及分配(创业团队如何设计股权架构及分配方案)

创业团队的股权架构设计,决定了公司在随后发展中呈现出的股权布局。如果最初的股权架构就存在先天不足,公司就很难顺利、稳定地成长起来。因此,创业之初,对股权设计应慎之又慎,避免留下巨大隐患和风险。两个人如...

消息称吴永辉入职后引发字节大模型团队架构大调整

2月21日,有消息称前谷歌大佬吴永辉加入字节跳动,并担任大模型团队Seed基础研究负责人后,引发了字节跳动大模型团队架构大调整。多名原本向朱文佳汇报的算法和技术负责人开始转向吴永辉汇报。简单来说,就是...

31页组织效能提升模型,经营管理团队搭建框架与权责定位

分享职场干货,提升能力!为职场精英打造个人知识体系,升职加薪!31页组织效能提升模型如何拿到分享的源文件:请您关注本头条号,然后私信本头条号“文米”2个字,按照操作流程,专人负责发送源文件给您。...

异形柱结构(异形柱结构技术规程)

下列关于混凝土异形柱结构设计的说法,其中何项正确?(A)混凝土异形柱框架结构可用于所有非抗震和抗震设防地区的一般居住建筑。(B)抗震设防烈度为6度时,对标准设防类(丙类)采用异形柱结构的建筑可不进行地...

职场干货:金字塔原理(金字塔原理实战篇)

金字塔原理的适用范围:金字塔原理适用于所有需要构建清晰逻辑框架的文章。第一篇:表达的逻辑。如何利用金字塔原理构建基本的金字塔结构受众(包括读者、听众、观众或学员)最容易理解的顺序:先了解主要的、抽象的...

底部剪力法(底部剪力法的基本原理)

某四层钢筋混凝土框架结构,计算简图如图1所示。抗震设防类别为丙类,抗震设防烈度为8度(0.2g),Ⅱ类场地,设计地震分组为第一组,第一自振周期T1=0.55s。一至四层的楼层侧向刚度依次为:K1=1...

结构等效重力荷载代表值(等效重力荷载系数)

某五层钢筋混凝土框架结构办公楼,房屋高度25.45m。抗震设防烈度8度,设防类别丙类,设计基本地震加速度0.2g,设计地震分组第二组,场地类别为Ⅱ类,混凝土强度等级C30。该结构平面和竖向均规则。假定...

体系结构已成昭告后世善莫大焉(体系构架是什么意思)

实践先行也理论已初步完成框架结构留余后人后世子孙俗话说前人栽树后人乘凉在夏商周大明大清民国共和前人栽树下吾之辈已完成结构体系又俗话说青出于蓝而胜于蓝各个时期任务不同吾辈探索框架结构体系经历有限肯定发展...

框架柱抗震构造要求(框架柱抗震设计)

某现浇钢筋混凝土框架-剪力墙结构高层办公楼,抗震设防烈度为8度(0.2g),场地类别为Ⅱ类,抗震等级:框架二级,剪力墙一级,混凝土强度等级:框架柱及剪力墙C50,框架梁及楼板C35,纵向钢筋及箍筋均采...

梁的刚度、挠度控制(钢梁挠度过大会引起什么原因)

某办公楼为现浇钢筋混凝土框架结构,r0=1.0,混凝土强度等级C35,纵向钢筋采用HRB400,箍筋采用HPB300。其二层(中间楼层)的局部平面图和次梁L-1的计算简图如图1~3(Z)所示,其中,K...

死要面子!有钱做大玻璃窗,却没有钱做“柱和梁”,不怕房塌吗?

活久见,有钱做2层落地大玻璃窗,却没有钱做“柱子和圈梁”,这样的农村自建房,安全吗?最近刷到个魔幻施工现场,如下图,这栋5开间的农村自建房,居然做了2个全景落地窗仔细观察,这2个落地窗还是飘窗,为了追...

不是承重墙,物业也不让拆?话说装修就一定要拆墙才行么

最近发现好多朋友装修时总想拆墙“爆改”空间,别以为只要避开承重墙就能随便砸!我家楼上邻居去年装修,拆了阳台矮墙想扩客厅,结果物业直接上门叫停。后来才知道,这种配重墙拆了会让阳台承重失衡,整栋楼都可能变...

取消回复欢迎 发表评论: