【文档说明】第八章java对XML的解析课件.ppt,共(45)页,263.814 KB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-45203.html
以下为本文档部分文字说明:
第八章java对XML的解析课件XML是扩展性标识语言的简写特点:自定义标签作用:一种通用数据交换格式,系统配置文件一般采用XML格式书写,用来记录应用程序的配置信息。优点:◦结构严谨规范性强◦标准的数据交换文件,已用于通用的配置信息文件◦结构简单,清晰,便于书写,增强阅读性
◦将数据结构化,让数据间具有明确的层次关系语言标记◦html标记是固定标记集合◦xml提供的是一个定义标记的标准,其中的标记是可以自由定义代码的书写◦html语言编写相对随意,要求松散。◦xml语言编写有非常严格的规范
描述内容◦html将数据和显示结合在一起◦xml将数据和显示相分离,记录数据和数据间关系,只对数据进行描述,不考虑显示效果。<?xmlversion="1.0"encoding="gb2312"?><persons><personid=“001”><nam
e>张三</name><age>20</age></person><personid=“002”><name>李四</name><age>23</age></person></persons>XML声明(declaration)DOCTYPE声明处
理指令(processingInstruction)注释(comment)元素(element)CDATA并不是每一个XML都需要所有的组成部分。文档声明(xml文档首行):◦格式:<?xmlversion
=“1.0”?>◦encoding定义文档字符编码集合,“gb2312”◦Standalone定义文档是否独立,“yes””no”文档类型定义:◦<!DOCTYPE文档类型名称SYSTEM“dtd的URL”>◦指定xml文档定义文档类型所用
的dtd来源处理指令◦为处理XML文档的应用程序提供提示信息,◦<?xml-stylesheettype="text/css"href="students.css"?>文档注释◦<!--注释内容-->◦注释不可以嵌套文档
主体内容——自定义标记对数据进行结构描述,通过树形结构体现文档结构◦文档中只能有一个顶层元素(根元素)◦顶层元素中包含:元素属性元素文本内容CDATA(characterdata字符数据区)各种子元素1.所有XML标记都严格区分大小写2.XML只能有一个顶层元素
,其他元素都包含在顶层元素中3.所有的标记都必须要要有开始和结束标签,如果没有单独的结束标签,则在开始标签的内部直接添加结束“/”4.所有标记的属性值必须用“”或’’括起来5.名字中可以包含字母、数字及一些可见字符和中文6.名字不以数字
和下划线开头,不以“xml”开头,7.名称中不可以包含空格,冒号(:)8.命名尽量简短,一个文件中大小写尽量统一标准9.所有的XML标记都必须合理嵌套,不允许出现交叉嵌套存放不想被解析的原始数据格式:<!
[CDATA[数据]]>中示例:<code><![CDATA[if(2<3)System.out.println(“”);]]></code>在元素的文本中有些符号不可以直接出现,因为会出现解析错误。比如:“<”对于这些符号可以使用转义字符来标识特殊字符转义字符&&<
<>>“"‘'什么是约束模式?◦定义:定义XML文档中允许出现的元素名,元素中的属性,元素中的内容类型及元素间的嵌套关系和出现顺序,为文档指定XML约束模式后,就必须遵循该约束模式。
XML约束模式语言:◦用作XML约束模式的内容也需要遵循一定的语法规则,这些规则形成XML约束模式语言,像这种创造XML标记语言的语言称为元语言。模式文档:定义约束模式的文档实例文档:根据模式文档编写
的文档常见的约束模式文件:DTD、XMLSchema文档类型定义(DTD)可定义合法的XML文档构建模块。它使用一系列合法的元素来定义文档的结构。DTD文件的好处:◦让每一个XML文件都可以具备单独的格式
描述。◦也可以让一个组织都使用同一种格式描述。◦还可以直接引用一个权威机构指定的格式描述。<!ELEMENTstudents(student+)><!ELEMENTstudent(name,age,address)><!ELEMENTname(#PCDATA)><!
ELEMENTage(#PCDATA)><!ELEMENTaddress(#PCDATA)>定义一个元素<!ELEMENT…>◦格式:<!ELEMENT元素名称使用规则>◦PCDATA(ParsedCharacterDATA)(被解析的字符数据)如何给XML文档加上约束呢?◦将DTD约束直接
嵌套在xml文档中。格式:<!DOCTYPE文档类型名称[DTD文件内容]>◦引入外部的DTD文件到XML文档中<!DOCTYPE文档类型名称SYSTEM“DTD文件URL”><!DOCTYPE文档类型名称PUBLIC“DTD名称”
“DTD文件绝对url”><?xmlversion="1.0"?><!DOCTYPEstudents[<!ELEMENTstudents(student+)><!ELEMENTstudent(name,age,address)><!ELEMENTname(#PCDATA)><!EL
EMENTage(#PCDATA)><!ELEMENTaddress(#PCDATA)>]><students><student><name>mike</name><age>29</age><address>bj</address></student></students><!DOCTYPE文档
类型名称SYSTEM“DTD文件”>◦文档类型名称:可以自定义,通常使用根节点名称◦SYSTEM:表明XML遵循的是一个组织内部的约束。◦示例:<!DOCTYPEstudentsSYSTEM“demo.dtd”><!DOCTYPE文档类型名称PUBLIC“DTD名称”“DTD文件”>◦PUBL
IC:表示XML遵循的是权威机构或特定行业提供的DTD文件。◦DTD名称:用于标识该DTD文件,只有在PUBLIC声明时才用到。元素是XML文档的基本组成部分,在XML文档中使用的每个元素及其属性都要在DTD
文件中进行定义语法格式:<!ELEMENT元素名称使用规则>示例:<!ELEMENT书架(书名,作者,售价)><!ELEMENT书名(#PCDATA)>元素的使用规则定义了:◦元素中包含的组成部分◦每种组
成部分出现的次数◦各组成部分间的次序(#PCDATA)表示元素中嵌套的内容是普通文本字符串。EMPTY:元素中不包含任何子元素和普通文本字符串,这种情况用于定义XML文件中的空元素:例如,<!ELEMENTHREMPTY>定义的元素形式为<HR/>+一次或多次(书+)?0次或一次(书?)*0
次或多次(书*)不使用规则只一次(书)每条元素定义语句的顺序是无关紧要的具有不同用途的元素不能使用相同的元素名在元素的使用规则中可以通过正则表达式定义子元素出现的次数:圆括号可将括在其中的内容组合成一个可统一操作的分组,分组
中可以嵌套更小的分组。<!ELEMENTMYFILE((TITLE*,AUTHOR?,EMAIL)*|COMMENT)>元素的各个组成成份的特点◦元素的使用规则中的各个组成成分用空白符分隔,他们的出现顺序没有严格要求:???<!ELEMENTMYFILE(TITLEAUTHOREMAIL)
>◦用逗号分隔,出现顺序必须与排列顺序一致:<!ELEMENTMYFILE(TITLE,AUTHOR,EMAIL)>◦用竖杠|分隔,它们在XML文档中只能出现它们之中的任何一个:<!ELEMENTMYFILE(TITLE|AUTHOR|EMAIL)>语法格式:<!ATTLIS
T元素名属性名1属性类型设置说明属性名2属性类型设置说明>示例:<!ATTLISTstudentidCDATA#REQUIREDbjCDATA#IMPLIED>◦#REQUIRED:必须设置该属性◦#IMPLIED:可以设置也可以不设置◦#FIXED:说明该属性的
取值固定为一个默认值,属性类型◦CDATA:指的是纯文本,即由字符、符号组成的字符串Enumerated:属性也可以被描述为一组可接受的取值的列表,XML文件中对属性的赋值将从这个列表中选取一个值。这类属性属于枚举类型E
NUMERATED,不过关键字ENUMERATED是不出现在Dtd定义中的。ID:是用属性值的方式为文件中的某个元素定义唯一标识的方法,由处理文件的程序或脚本语言使用。ENTITY:将多内容文本或者一个文件用一个简称来标识。<?xmlversion="1.0"encodi
ng="GB2312"standalone="yes"?><!DOCTYPEstudents[<!ELEMENTstudent(name)><!ATTLISTstudentsex(male|female)"male“>]><students><student><
name>lisi</name></student></students>预览结果:学生元素的id属性会自动加载male值。XML解析器是读取XML文档并分析其结构的代码。一般而言使用解析器需要以下步骤:◦创
建一个解析器对象◦使解析器指向您的XML文档◦处理结果常见的解析模式◦DOM(DocumentObjectModel)文档对象模型,w3c的标准,DOM处理XML文档是基于将XML文档解析成树状模型,放入内存进行处理SAX(SimpleApiforXml)
◦SAX则是采用基于事件驱动的处理模式,它将XML文档转化成一系列的事件,由单独的事件处理器来决定如何处理JDOM——基于Java语言的解析工具。◦JAXP(JavaAPIforXMLProcessi
ng)◦SUN推出的一套处理XML文档的工具包。DOM4J◦基于Java语言的优秀的XML文档解析工具,也应用在JAXM(JavaAPIforXMLMessaging)中。DOM:Java读入XML文档并分析其结构,将其转化为内存中的对象
如果XML看成一颗数据树,那么DOM就是对这颗树的一个对象描叙,是为XML文档在逻辑上建立一个树,树的节点是一个个对象,通过存取这些对象就能够存取XML文档的内容。解析的过程:节点:XML文档中的所有节点组成了一个节点树。XML文档中的每个元素、属性、文本等都代表着树中的
一个节点。树起始于文档节点,并由此继续伸出枝条,直到处于这棵树最低级别的所有文本节点为止。常用节点类型如下表所示:节点类型附加说明实例元素节点(Element)XML标记元素<students>…</students>属性节
点(Attribute)XML标记元素的属性name=”ntcsoft”文本节点(Text)XML标记中的文本段jim文档类型节点文档类型声明(DocumentType)﹤!DOCTYPE…﹥注释节点CommentXm注释节点<!—文档注释→节点关系:下面我们从一个X
ML文档实例中了解一下各个节点之间的关系:<companyname="ntcsoft"><department><employeeposition="developer">工程师A</employee></department><depa
rtmentname="education"></department></company>文档根元素节点<company>元素节点<department>元素节点<department>元素节点<em
ployee>属性节点name文本节点工程师A属性节点position属性节点name根节点父到子子到父下一节点上一节点firstChildlastChild通过上面的XML文档,我们构建出如下树状文档对象模型,如下图所示属性描述nodeNa
me结点名称nodeValue结点内部值,通常只应用于文本结点nodeType节点类型对应的数字parentNode如果存在,指向当前结点的父亲结点childNodes子结点列表firstChild如果存在,指向当前元素的第一个子结点lastChild如果存在,指向当前
元素的最后一个子结点previousSibling指向当前结点的前一个兄弟结点nextSibling指向当前结点的后一个兄弟结点attributes元素的属性列表节点编号:节点名称:1Element2
Attribute3Text4CDATASection5EntityReference6Entity7ProcessingInstrucion8Comment9Document10DocumentType11Docum
entFragment12Notation注释XML文件只有载入内存才能被操作,对于xml文件,载入内存之后成为Document对象载入文档的过程如下:◦实例化javax.xml.parsers.DocumentBuilderFactory,并通过DocumentB
uilderFactory实例化javax.xml.parsers.DocumentBuilder对象:◦DocumentBuilderFactorydbf=DocumentBuilderFactory.newInstance();◦DocumentBuil
derdb=dbf.newDocumentBuilder();通过DocumentBuilder的parse(String)方法传入文件路径,载入文档,并返回由文档在内存生成的文件树Document对象:Documentdoc=db.parse(流);使用Document对象
获取XML文档的根节点rootElementel=doc.getDocumentElement();org.w3c.dom.Document:表示整个XML文档;同时也是Node的子接口,除了拥有Node的功能以外,还提供了面向整个
文档一些特殊操作,如创建节点、获取某个名称的节点等Document常见方法:◦ElementgetDocumentElement():获取文档根节点;实际上,该方法的应用等价于:◦NodeDocum
ent.getFirstChild()◦返回类型不同,不过可以将返回的Node强制转换为Element类型(Element是Node的子接口)利用Node读取数据◦org.w3c.dom.Node:是XML中所有API的父接口,Element,text等都是它的子类,提供了对节点的基本
操作,如获取节点信息、获取子节点、添加节点等,这些操作可以通过Node对象的各个API来实现常见的方法:◦NodeListgetChildNodes():以NodeList形式存放当前节点的子节点,若无,则返回空集合◦NodegetFirstChild():以N
ode形式返回当前节点的第一个子节点,若无,则返回null◦NodegetLastChild():以Node形式返回当前节点的最后一个子节点,若无,则返回null◦NodegetNextSibling():以Node形式返回当前节点的下一个兄弟节点,若无,则返回null◦NodegetPrev
iousSibling:以Node形式返回当前节点的下一个兄弟节点,若无,则返回null◦NodegetParentNode():以Node形式返回当前节点的父节点,若无,则返回null◦StringgetNodeName():得到节点名称◦StringgetTextCo
ntent():得到节点中的文本内容◦booleanhasChildNodes():返回当前节点是否存在子节点◦shortnodeType:获取节点类型,节点类型见前图◦NodeListgetElementsByTagName(Stringname)
:输入标签名称,以NodeList形式返回指定标记的元素,若无,则返回空集合;该方法适用于文档中的所有元素,不需确定该元素的位置org.w3c.dom.Element:在DOM中,使用最多的不是普通文本,也不是注释,而是一些标签,它们含有属
性,可能含有子标签Element特有的API:◦StringgetAttribute(Stringname):通过属性名称获得属性值◦NodeListgetElementsByTagName(Stringname):输入标签名称,以NodeList形式返回◦StringgetTagName(
):得到元素的名称◦booleanhasAttribute(Stringname):判断该元素是否存在某个名称的属性建立xml文件文件,在其中放置数据库连接需要的数据,然后建立JSP文件和servl
et文件,对xml文件中的数据进行解析及显示。最常见的API包括以下几个:◦voidsetTextContent(StringtextContent):设置此节点的文本内容◦NoderemoveChild(NodeoldChild):从子节点列表中移除oldChi
ld所指示的子节点并将其返回◦NodeinsertBefore(Nodenew,Noderef):在现有子节点ref之前插入节点new◦NodereplaceChild(Nodenew,Nodeold):将子节点列表中的子节点oldChild替换为newChild,并返回ol
dChild节点◦NodeappendChild(NodenewChild):将节点newChild添加到此节点的子节点列表的末尾XML文件保存,利用javax.xml.transform包中的类来进行文档的保存,过程如下:◦实例化TransformerFacto
ry,◦并通过该工厂类实例化Transformer,◦利用Transformer的transform方法将源输出到目标:transformer.transform(source,result);通过javax.xml.transform.dom.DO
MSource将Document对象封装为DOM源:◦DOMSourcesource=newDOMSource(doc);通过javax.xml.transform.stream.StreamResult包装java.io.File对象,确定输出的目标:◦Filefile=newFile(
"newFile.xml");◦StreamResultresult=newStreamResult(file);感谢聆听