XML原理與應(yīng)用
- 期刊名字:哈爾濱商業(yè)大學(xué)學(xué)報
- 文件大?。?92kb
- 論文作者:胡師彥
- 作者單位:北京中關(guān)村東辰科學(xué)技術(shù)研究所
- 更新時間:2020-06-12
- 下載次數(shù):次
第17卷第4期哈爾濱商業(yè)大學(xué)學(xué)報2001年12月Journal of Harbin University of Commerce Natural Sciences EditionDec.2001文章編號:1004-184(2001)4-0055-03XML原理與應(yīng)用胡師彥北京中關(guān)村東辰科學(xué)技術(shù)研究所北京100080)摘要介紹了XML的定義特點(diǎn)。結(jié)合搜索引擎討論了XML的應(yīng)用。最后分析了XML的未來發(fā)展。關(guān)鍵詞ⅹML搜索引擎HTML中圖分類號IP311文獻(xiàn)標(biāo)識碼Principle and application of XML(Beijing Dongchen Institute of Science and Technology, Beijing 100080, ChiAbstract: The definition and characteristics of XML are described. The application of XMLKey words: XML; search engine; HIM c development trend of XMl is analyzedin search engine is discussed. In the end, the1XML的定義及原理了比傳統(tǒng)的SGML和HTML環(huán)境強(qiáng)得多的對文檔過程和設(shè)計(jì)的控制能力XMI( Extensible Markup Language可擴(kuò)展標(biāo)簽HTML是Web史上最成功的文檔格式它具語言是SGML的一個子集。其目標(biāo)是能夠以目前有易學(xué)性和通用性,語法簡單精練,如果你只希望的HIML可能實(shí)現(xiàn)的方式在Web上使用、接受和顯示一些文本信息HML就足夠了。但是很多處理通用 SGML XML的設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)簡便并比較特殊或?qū)iT格式的文件采用現(xiàn)有的HTML語且能與SGML和HTML共同操作。XML將使網(wǎng)言是無法處理的如數(shù)學(xué)公式、化學(xué)方程式及工程上的信息查詢、數(shù)據(jù)交換更加便利幫助人們獲得應(yīng)用等等。HIML的語法過于簡單,它使用的是需要信息發(fā)掘Web上的財富。套固定的標(biāo)簽集用戶不能改動這使得HTML越SGMI( Standard Generalized Markup Language)來越不堪重負(fù)是一種標(biāo)準(zhǔn)的通用標(biāo)簽語言用于描述文件及其格HTML和XML都是用一對相互匹配的起始式。1986年國際標(biāo)準(zhǔn)化組織(ISO)發(fā)布了SGML和結(jié)束標(biāo)記符來標(biāo)記信息。它們之間的顯著差別在標(biāo)準(zhǔn)正式正式文本 SGML ISO8897:1986,使于HTML描述的是數(shù)據(jù)處理顯示方式,而XMLSGML成為通用的描述各種電子文件的結(jié)構(gòu)及內(nèi)描述的是數(shù)據(jù)的本身,它突破了HTML固定標(biāo)記容際標(biāo)準(zhǔn)。HTML是從SGML衍生出來的一種簡集合的約束用戶可以根據(jù)需要定義任何一種標(biāo)簽單的標(biāo)簽語言,在 Internet和wwW迅猛發(fā)展的來描述文檔中的數(shù)據(jù)元素。XML將改變?yōu)g覽器顯推動下 HTML成為Web頁面制作的標(biāo)準(zhǔn)。與示、組織、搜尋信息的方式而且克服了HTML鏈HIML相似XML也是SGML的一個子集,它免接容易斷開的缺點(diǎn)。除了SGML繁雜并保持了SGML的優(yōu)秀特性,可ⅹML最重要的特征是:被標(biāo)記的各個數(shù)據(jù)是以方便地運(yùn)用到web開發(fā)上給web制作者提供保持其含義的因此系統(tǒng)間交換數(shù)據(jù)的可能性極大收稿日期2001-09-10作者簡介胡師彥(1979-)男工程師主要研究方向軟件工程人工智能。中國煤化工CNMHG哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版)2001年提高。XML最基本的概念是措結(jié)構(gòu)化標(biāo)記數(shù)據(jù)吲4)定義調(diào)用外部處理器的API。由于XML文實(shí)現(xiàn)”文檔結(jié)構(gòu)化″的語言規(guī)范,即采用DID檔是結(jié)構(gòu)化的如果使用ⅹML外部處理器也可Document Type Definition,文檔格式定義)文檔正確地取岀所需要的數(shù)據(jù)。但在使用ⅹML文檔全類型定義的語方標(biāo)準(zhǔn)。部應(yīng)用中用來組成XML處理器的難點(diǎn)在于代價1.1XML的結(jié)構(gòu)化文檔技術(shù)過高。因此對從應(yīng)用程序調(diào)用ⅹML處理器的接口我們知道HIML語言中文檔標(biāo)記Tag”<"或做了規(guī)定。這種API應(yīng)用程接囗稱為DOM文檔所包容的內(nèi)容和普通的文本是混在一起的,對象模型方法,在用DOM方法確定API的標(biāo)記HTML文檔中的標(biāo)記所表示的內(nèi)容是預(yù)先由標(biāo)準(zhǔn)中,可以采用對象管理組OMG規(guī)定的 CORBA確定的,標(biāo)準(zhǔn)以外的標(biāo)記內(nèi)容不能使用。但對于(公用對象需求代理體系所確定的IL接口定義XML來說,標(biāo)記Tag可以根據(jù)用戶要求來定義標(biāo)語言記的含義。1.2強(qiáng)化的WwW表現(xiàn)能力2ML的特點(diǎn)ⅹML能夠超過HTML的表現(xiàn)能力文檔顯示XML具有以下四個主要特點(diǎn)的方式可根據(jù)用戶要求而改變具有變換顯示”1)簡單性XML為程序員和文檔作者提供了的能力。個友好的環(huán)境。XML的嚴(yán)格定義和規(guī)則集使人1)采用XSL確定顯示方式。ⅩML文檔和類和機(jī)器都能更容易地閱讀文檔。XML文檔語法DTD文件中沒有標(biāo)記顯示方式的信息,當(dāng)要在包含一個非常小的規(guī)則集使開發(fā)者能立刻開始工ⅹML文檔元素內(nèi)容中表示顯示方式時,采用ⅹSL作。根據(jù)文檔的結(jié)構(gòu)DTD既可以通過一個標(biāo)準(zhǔn)過( XML Style Language)語言描述的XSL文體表程創(chuàng)建也可以由專家創(chuàng)建。( XSL Style Sheet)實(shí)現(xiàn)。在XSL中定義了二種方ⅩML文檔建立在基本嵌套結(jié)構(gòu)的一個核心集式:一種是把原來ⅹML文檔的樹結(jié)構(gòu)變換為其它的基礎(chǔ)之上。當(dāng)一層又一層的細(xì)節(jié)被增加使結(jié)構(gòu)樹結(jié)構(gòu)的規(guī)則,從而使文檔的顯示變?yōu)橛脩羲枳兊迷絹碓綇?fù)雜時作者或開發(fā)者只需要為內(nèi)部結(jié)要的內(nèi)容;另一種方法是使變換后的樹結(jié)構(gòu)具有構(gòu)的復(fù)雜化付岀非常少的努力。這些基本結(jié)構(gòu)可以詞典用語的含義。變換后的樹結(jié)構(gòu)用 HTML形式被用來代表復(fù)雜的信息集合而不需要改變結(jié)構(gòu)自定義時用詞典指定HTML標(biāo)記。使用ⅹSL方法身。XML的語法分析器也非常容易創(chuàng)建。時同一文檔可完成多種表達(dá)變換能實(shí)現(xiàn)各種顯2)可擴(kuò)展性XML在兩個意義上是可擴(kuò)展示內(nèi)容。由于同一文檔可表現(xiàn)不同的XSL文體表,的。首先,它允許開發(fā)者創(chuàng)建他們自己的DTD有因此在WwW頁面中可顯示由表或圖形圖片等效地創(chuàng)建可被用于多種應(yīng)用的可擴(kuò)展的”標(biāo)志集。構(gòu)成的畫面。其次使用幾個附加的標(biāo)準(zhǔn)您可以對XML進(jìn)行2)變換為HTML方式以適應(yīng)當(dāng)前主流。一般擴(kuò)展這些附加標(biāo)準(zhǔn)可以向核心的ⅹML功能集增有兩種顯示XML文檔的方法:一種方法是由加樣式、鏈接、和參照能力。作為一個核心標(biāo)準(zhǔn)XML文檔和XSL文體表生成顯示畫面的布局并XML為可能產(chǎn)生的別的標(biāo)準(zhǔn)提供了一個堅(jiān)實(shí)的基裝入客戶端機(jī)器;另一種方法是裝入服務(wù)器端。礎(chǔ)3)用ⅩIink來定義靈活的連接。通過XML3)互操作性ⅹML可以在多種平臺上使用進(jìn)行的連接可具有HIML所沒有的功能。在而且可以用多種工具進(jìn)行解釋。因?yàn)槲臋n的結(jié)構(gòu)是HIML文檔中可使用URL唯一資源定位器來連相容的所以解釋它們的語法分析器就可以以較低接。連接的目的地采用由HIML標(biāo)準(zhǔn)確定的目的的費(fèi)用建立。XML支持用于字符編碼的許多主要標(biāo)記錨”作為指定URL的目標(biāo)( Target)在瀏覽標(biāo)準(zhǔn),允許它在全世界許多不同的計(jì)算環(huán)境中使器中用鼠標(biāo)點(diǎn)擊后,則作為目標(biāo)所指定的HTML用。XML對Jaa進(jìn)行了很好的補(bǔ)充,許多早期的文檔內(nèi)容而顯示在瀏覽器中。ⅩML文檔具有的連XML開發(fā)是用Java進(jìn)行的。一個用于語法分析器接功能稱為”ⅹLink”,它可實(shí)現(xiàn)更高級的連接設(shè)的普通的應(yīng)用程序接口一XML的簡單API置,如作為目標(biāo)使用則可以指定ⅩML文檔元素。(SAX),可以免費(fèi)獲得。也可獲得用C++、CXLink對指定目標(biāo)的顯示方法由XSL文體形式來 Java Script.、Tdl和 Python等編寫的語法分析器。目規(guī)定。前XML語法TH中國煤化工費(fèi)的插件CNMHG第4期胡師彥XML原理與應(yīng)用plug-i)上這些插件為ⅹML應(yīng)用提供了語法分的有效手段。如果說HIML提供了顯示全球數(shù)據(jù)析能力極大地降低了使用XML的費(fèi)用。的通用方法那么XML進(jìn)一步提供了處理全球數(shù)4)開放性盡管還有一些關(guān)于ⅹML的疑問,據(jù)通用方法。XML繼承了SGML的強(qiáng)大功能又但標(biāo)準(zhǔn)自身在Web上卻是完全開放的,可以免費(fèi)充分采取了HTML的易用"原則。它使工業(yè)界能獲得。W3C組織的成員已經(jīng)較早地得到了這些標(biāo)夠定義平臺無關(guān)的數(shù)據(jù)交換協(xié)議特別是電子商務(wù)準(zhǔn)不過一旦此標(biāo)準(zhǔn)完成了結(jié)結(jié)果就是大家都可獲中數(shù)據(jù)交換協(xié)議。資源標(biāo)注、編目和描述是信息查找基礎(chǔ)結(jié)構(gòu)化的資源(XML廂和資源的描述框架XML文檔自身也較為開放,任何人都可以對(RDF冱互相配合將大大提高信息查找效率。XML結(jié)構(gòu)良好的ⅹML文檔進(jìn)行語法分析如何提供簡化元數(shù)據(jù)的提取工作,從而協(xié)助人們尋找信息,了DTD還可以校驗(yàn)這個文檔。雖然開發(fā)者可以建并協(xié)助信息生產(chǎn)者和信息消費(fèi)才的相互發(fā)現(xiàn)。如果立語意模糊的DTD或以自己的方式加密數(shù)據(jù)但說在網(wǎng)絡(luò)的支持下HTML語言解決了在異構(gòu)平他們將會失去使用XML的許多好處。XML并不臺間傳送數(shù)據(jù)和文檔那么基于XML的VRML禁止創(chuàng)建私有格式但它的開放性是它最大的優(yōu)點(diǎn)和SMIL解決了在異構(gòu)平臺間傳送感受的可能性問題。使用XML人們可以利用設(shè)備的智能去訪問3ⅹML與搜索引擎不同的網(wǎng)站并對信息進(jìn)行集中。ⅹML使我們將控制信息的權(quán)利交給那引起需要信息的人們。由于所隨著 Internet規(guī)模的迅速增長網(wǎng)絡(luò)上的信息有文件都以XML格式存在所有的用戶都可以方資源也隨之迅速膨脹。WWW資源的膨脹固然得便地査找和使用其中的信息仼何規(guī)模的文化機(jī)構(gòu)益于其內(nèi)的分布性、開放性和異構(gòu)性但也正是這都可以使用相同的工具與資源。內(nèi)容供應(yīng)者、合作點(diǎn)使得用戶在網(wǎng)上迅速、準(zhǔn)確地獲取所需信息伙伴和信息內(nèi)容消費(fèi)者可以高效地溝通和共享信變得越來越困難。從總體上說WwW網(wǎng)是繁雜無息這樣就創(chuàng)造出了一種全新的協(xié)同工作模式。序的。其上的信息缺乏統(tǒng)一的組織與管理沒有定的層次目錄結(jié)構(gòu)或索引機(jī)制所有信息均分款在4XML的未來各個WWW服務(wù)器上。如果沒有特定的信息搜索XML設(shè)計(jì)的初衷是作為一種廣泛應(yīng)用于In-技術(shù)和工具的支持,僅靠用戶手工去查找所需信 ternet的標(biāo)簽語言,但這并不意味著XML將會對息無異于海底撈針。搜索引擎正是為了解決這個Web進(jìn)行革命或者ⅩML就只能在Web上應(yīng)用。問題而出現(xiàn)的技術(shù)。它以一定的策略在WWW網(wǎng)最終XML可以成為一條把許多應(yīng)用聯(lián)系在一起中搜集、發(fā)現(xiàn)信息對信息進(jìn)行理解、提取、組織和的紐帶通過分布式應(yīng)用來處理數(shù)據(jù)。處理并為用戶提供檢索服務(wù)從而起到信息導(dǎo)航Web將成為XML的起點(diǎn)。XML將和CSs的作用起為開發(fā)者提供一種方便、有效的方法來標(biāo)志XML將使Web的搜索非常方便。ⅹML可擴(kuò)Web頁面。作為一個Web開發(fā)系統(tǒng)無論是從使展標(biāo)記語言是Web數(shù)據(jù)使用的通用語方,具有結(jié)的方便性來講還是從創(chuàng)建一個大站點(diǎn)所需的時構(gòu)化、規(guī)范性、可擴(kuò)展性及簡潔的特點(diǎn)。ⅩML能讓間上來講ⅩML和CSS就已經(jīng)比HTML優(yōu)越很開發(fā)人員將來自各種應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù)傳送多了。因?yàn)镃SS允許設(shè)計(jì)者把精力集中在一個被給桌面以在本地計(jì)算和表示。XML允許為特定應(yīng)任意數(shù)目的文檔所共享的樣式表中的格式信息上用程序創(chuàng)建獨(dú)特旳數(shù)據(jù)格式,它還是結(jié)構(gòu)化數(shù)據(jù)從所以設(shè)計(jì)乾毎次就只需要從樣式表中選取可重復(fù)服務(wù)器到服務(wù)器傳輸?shù)睦硐敫袷健ML是在超級使用的格式信息。在樣式表中的格式信息將鏈接分布式系統(tǒng)之間實(shí)現(xiàn)多數(shù)據(jù)集傳輸?shù)囊环N手段。它文檔中的ⅹML標(biāo)簽這就使編輯者不需要了解精同時可以使開發(fā)人員以更具價值的新型方式聚集確的格式,只需要以內(nèi)容為基礎(chǔ)就可以標(biāo)記文檔和組合各種來源的數(shù)據(jù)。了。復(fù)雜的頁面如象許多站點(diǎn)的首頁往往需要花XML通過DTD定義了文檔的詞法、語法和費(fèi)較多的功夫而很多頁面只需要較少的花費(fèi)就可部分語義ⅹML規(guī)定了文檔的表現(xiàn)形式而ⅩLink創(chuàng)建。而且因?yàn)闃邮奖砟芗薪⒁粋€站點(diǎn)所需和 XPointer定義了文檔之間的關(guān)系,從而為基于的所有格式信息因此XML站點(diǎn)實(shí)際上比早先的Wcb的名種應(yīng)用提供了一個描述數(shù)據(jù)和交換數(shù)據(jù)HTM站點(diǎn)使H中國煤化工轉(zhuǎn)60頁)CNMHG哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版)2001年拆除。由于目的地址被封裝過因此只能采用放手幀格式及其協(xié)議的差異程度。不同類型的網(wǎng)絡(luò)有著幀形式發(fā)送幀,這無疑會降低網(wǎng)絡(luò)帶寬的使用率。不同的參數(shù)其差錯校驗(yàn)的箅法、最大報文分組生如果互聯(lián)網(wǎng)的規(guī)模很大,包含旳網(wǎng)橋和局域網(wǎng)很存周期也不盡相同。例如FDI網(wǎng)絡(luò)中允許的最多那么廣播幀的數(shù)目也將增加這樣勢必會造成大幀長度為4500字節(jié),而在IEEE802.3以太網(wǎng)中不必要的擁擠最大幀長度為1518字節(jié)。這樣網(wǎng)橋在FDDI向封裝式網(wǎng)橋不能通過轉(zhuǎn)換網(wǎng)橋發(fā)送數(shù)據(jù)只有 Ethernet轉(zhuǎn)發(fā)數(shù)據(jù)幀時就必須將FDDI長達(dá)4500同一供貨商提供的同一種封裝式網(wǎng)橋才能一起工字節(jié)的幀分割成幾個1518字節(jié)長度的IEEE8023作也不通過其他供貨商提供的封裝式網(wǎng)橋傳輸數(shù)協(xié)議以太網(wǎng)幀然后再轉(zhuǎn)發(fā)到以太網(wǎng)上去這就是據(jù)除非其他供貨商提供的封裝式網(wǎng)橋也同樣使用分幀技術(shù)。一些通用的通信協(xié)議都定義了類似的控這種專用協(xié)議。制幀大小差異的方法(稱為包分割方法)反之在2)轉(zhuǎn)換式網(wǎng)橋轉(zhuǎn)換式網(wǎng)橋克服了封裝式網(wǎng) Ethernet向FDDI轉(zhuǎn)發(fā)數(shù)據(jù)幀時必須將只有1518橋的弊病將需要傳輸?shù)膸D(zhuǎn)換成目的網(wǎng)絡(luò)的幀格字節(jié)的以太幀組合成FD)DⅠ格式的幀并以FDDⅠ式然后再上網(wǎng)傳輸?shù)母袷絺鬏斶@就是幀的重組。還是以 FDDI Ethernet網(wǎng)橋?yàn)槔?以太網(wǎng)工作對于使用較長報文格式的協(xié)議和應(yīng)用幀的分站要使用連在FDDI上的高性能服務(wù)器必須先將割和重組是非常重要的。如果FDDI網(wǎng)橋中沒有分Ethernet幀格式轉(zhuǎn)換成FDDⅠ格式幀,然后通過幀和重組功能那么通過網(wǎng)橋互聯(lián)就無法實(shí)現(xiàn)。但FDDI上傳輸至目的服務(wù)器此時服務(wù)器接收到的是在協(xié)議轉(zhuǎn)換過程中分幀和重組工作必須快速是FDD格式的幀,故不需做仼何改變就可使用。完成否則會降低網(wǎng)橋的性能可見轉(zhuǎn)換式網(wǎng)橋是通用的。任何轉(zhuǎn)換式網(wǎng)橋都能與「參考文獻(xiàn)]其他網(wǎng)橋互相通信。蔡昌均.局域網(wǎng)的原理域架構(gòu)技術(shù)[]北京浹民郵電出版社25分幀和重組網(wǎng)際互聯(lián)的復(fù)雜程度取決于互聯(lián)網(wǎng)絡(luò)的報文、凹朱元軍局域網(wǎng)的組建和維護(hù)M北京機(jī)械工業(yè)出版社201(上接57頁)HIML的格式化頁面非常有用,許多使用者能自由地閱讀XML文檔,但瀏覽器還僅僅是開開始意識到Web站點(diǎn),只不過是比打印的或傳真始。XML為應(yīng)用程序甚至是基于極為不同的系統(tǒng)的資料有用罷了。盡管可以從一個Web瀏覽器剪之上的應(yīng)用程序之間的交流打開了方便之門。只要tcut)粘貼pste)信息XML卻向我們展應(yīng)用程序能(通過HTTP文件共享或別的機(jī)制)幅前景——可重復(fù)使用的頁面內(nèi)容。使用適當(dāng)?shù)闹Ч蚕頂?shù)據(jù),并擁有一個XML語法分析器它們就持應(yīng)用程序,一個用戶可以從一個文檔提取XML可以共享很容易處理的結(jié)構(gòu)信息。數(shù)據(jù)庫之間可以數(shù)據(jù),把它們放在他們自己的私有數(shù)據(jù)存儲處使交換表格,商業(yè)應(yīng)用程序之間可以交換更新信息得以后操作這些信息更為容易。這些信息可以包含文檔系統(tǒng)之間可以共享信息,站點(diǎn)地圖價格清單產(chǎn)品信息或是要以被表示為參考文獻(xiàn)]文本的仼何數(shù)據(jù)?;趦?nèi)容的XML標(biāo)志還增強(qiáng)了Ellille Rusty hard.XML實(shí)用技術(shù)M.北京機(jī)械工業(yè)出版社搜索能力使得代理商和搜索引擎能把數(shù)據(jù)分?jǐn)?shù)不1999,103-263勝數(shù)而不會把精力浪費(fèi)在基于內(nèi)容的全文本搜索2w3c. Extensible Markup Language(XML.hp/ww3og/同時ML的使用不僅僅限于Web頁面。|3W3XMLActivity.nttp://www.\3rg/XML/Activity.hXML具有作為一種通用變換格式的潛力,使得不[41 Tim Bary, Beiond HTML: XML and Automated Web Processing,同種類的應(yīng)用程序之間也能方便地交換數(shù)據(jù)。scape. com/vinewsource/bray xml. htmlXML瀏覽器是XML的主要入口,它允許使用者中國煤化工CNMHG
-
C4烯烴制丙烯催化劑 2020-06-12
-
煤基聚乙醇酸技術(shù)進(jìn)展 2020-06-12
-
生物質(zhì)能的應(yīng)用工程 2020-06-12
-
我國甲醇工業(yè)現(xiàn)狀 2020-06-12
-
石油化工設(shè)備腐蝕與防護(hù)參考書十本免費(fèi)下載,絕版珍藏 2020-06-12
-
四噴嘴水煤漿氣化爐工業(yè)應(yīng)用情況簡介 2020-06-12
-
Lurgi和ICI低壓甲醇合成工藝比較 2020-06-12
-
甲醇制芳烴研究進(jìn)展 2020-06-12
-
精甲醇及MTO級甲醇精餾工藝技術(shù)進(jìn)展 2020-06-12
