事件信息結(jié)構(gòu)分析
- 期刊名字:中文信息學(xué)報(bào)
- 文件大?。?78kb
- 論文作者:楊爾弘,曾青青,李婷婷
- 作者單位:北京語言大學(xué)國(guó)家語言資源監(jiān)測(cè)與研究中心平面媒體語言分中心,首都體育學(xué)院國(guó)際教育學(xué)院
- 更新時(shí)間:2020-09-25
- 下載次數(shù):次
第26卷第3期中文信息學(xué)報(bào)Vol. 26, No.32012年5月JOURNAL OF CHINESE INFORMATION PROCESSINGMay, 2012文章編號(hào): 1003-0077(2012)03-0092-06事件信息結(jié)構(gòu)分析楊爾弘”,曾青青',李婷婷2(1.北京語言大學(xué)國(guó)家語言資源監(jiān)測(cè)與研究中心平面媒體語言分中心,北京100083 ;2.首都體育學(xué)院國(guó)際教育學(xué)院,北京100191)摘要:該文通過考察事件詞在文本篇章結(jié)構(gòu)中的分布方式,指出突發(fā)事件新聞報(bào)道文本中包含主線信息鏈和副線信息鏈。主線信息鏈中包含了文本的事件信息,是事件信息提取重點(diǎn)考慮的文本內(nèi)容部分;副線信息鏈則由文本結(jié)構(gòu)中的“評(píng)價(jià)”、“背景”以及“情節(jié)”部分的細(xì)節(jié)信息等組成,是事件信息提取時(shí)可以忽略的文本內(nèi)容部分。事件信息的.結(jié)構(gòu)可以進(jìn)一步分解為前核心事件鏈、核心事件鏈、次生事件鏈和后次生事件鏈。該文通過定義事件詞,以其為觸發(fā).探索了事件信息結(jié)構(gòu)的識(shí)別與獲取,并借助《知網(wǎng)》(HowNet)提高了事件詞對(duì)信息劉畫的有效性和區(qū)分度。關(guān)鍵詞:事件詞;事件信息結(jié)構(gòu);主線信息鏈;剮線信息鏈中圈分類號(hào): TP391文獻(xiàn)標(biāo)識(shí)碼: AAnalysis of Event Information Structure in TextYANG Erhong' , ZENG Qingqing' ,LI Tingting'(1. National Language Resources Monitoring and Research Center Print Media Language Branch,Beiing Language and Culture University, Beijing 100083, China;2. International Education School, Capital University of Physical Education and Sports, Beijing 100191. China)Abstract: The distribution of event word in text reveals the event information structure, Through observation on thereal News texts of the sudden event, our research indicates that the news text is composed of two elements. themain information chain and the second information chain. The main information chain is just the texrs event informa-tion structure including the preceding-core event information chain, the core event information chain, the secondaryevent information chain and the post generation event information one. Also, we study the event informetion struc-ture detection with the event word as a trigger, adopting the HowNet to improve the event word based event infor-mation structure detection.Key words: event word; event information structure; the main information chain; the second information chain件抽取研究,大多以這樣的定義為基礎(chǔ):以若干特1引言定的事件類型為目標(biāo),研究事件模板的獲取以及事件的論元識(shí)別6-10。事件模板主要依靠經(jīng)驗(yàn)給出種隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,準(zhǔn)確地從海量.無序、子模板或聚類的方式獲(取0101];論元角色多以計(jì)雜亂無結(jié)構(gòu)的網(wǎng)頁文本中提取用戶感興趣的事件算事件模板論元的語義約束與詞語的相關(guān)屬性之間信息是信息抽取領(lǐng)域的重要研究課題川。在美國(guó),的對(duì)應(yīng)關(guān)系進(jìn)行填充6.12。DARPA.NIST組織的MUC、ACEL24J等評(píng)測(cè)任務(wù)目前,從整個(gè)語篇的角度探索事件信息的分布.中,對(duì)事件信息抽取給出了明確的定義。當(dāng)前的事與事件抽取技術(shù)的研究還較少。文獻(xiàn)[7]嘗試了從收稿日期: 2011-09-11定稿日期: 2012-01-31中國(guó)煤化工基金資助:國(guó)家社科基金資助項(xiàng)目(06YY047)作者簡(jiǎn)介:楊爾弘(1965- ),女 ,教授,主要研究方向?yàn)檎Z言信息處.MHCNMHG研究方向?yàn)檎Z言信息處理;李婷婷(1983- ),女 ,碩士,主要研究方向?yàn)檎Z言信息處理。3期楊爾弘等:事件信息結(jié)構(gòu)分析93語篇中過濾非事件句子,文獻(xiàn)[13]探索了語篇中事篇章中的分布,具有表達(dá)簡(jiǎn)潔、目標(biāo)明確、可操作性件與事件的關(guān)系,研究事件之間的推理。強(qiáng)的特點(diǎn)。人工標(biāo)注文本中出現(xiàn)的事件詞,得到每本文針對(duì)突發(fā)事件新聞報(bào)道,從可操作的角度,類文本的事件詞集合0,事件信息的分布可以通過將“事件”定義簡(jiǎn)單化一與突 發(fā)事件相關(guān)的動(dòng)作、集合中事件詞的分布情況獲得。狀態(tài)改變都定義為一個(gè)事件,事件以事件詞為標(biāo)示,標(biāo)注過程中發(fā)現(xiàn):“情節(jié)”部分基本上囊括了事事件詞可以是動(dòng)詞、名詞化(Nominalizations)、形容件的信息,是事件信息抽取的重要部分;但此外,“情詞等。在此基礎(chǔ)上,研究事件信息在報(bào)道文本中的節(jié)"還包括了一些描述事件特別細(xì)節(jié)的句子和一些分布,從而確定文本中事件信息的組織方式,尋找到事件詞缺省的句子。由此,在戴伊克新聞圖式結(jié)構(gòu)篇章結(jié)構(gòu)和事件信息結(jié)構(gòu)之間存在的聯(lián)系,為事件的基礎(chǔ)上,進(jìn)一步對(duì)突發(fā)事件新聞報(bào)道文本定義“主信息的形式化描述和準(zhǔn)確定位服務(wù)。線信息鏈”、“副線信息鏈”,將報(bào)道文本的篇章結(jié)構(gòu)與事件信息對(duì)應(yīng)。2突發(fā)事件文本的篇 章結(jié)構(gòu)和事件信息結(jié)構(gòu)(1)主線信息鏈。主線信息鏈?zhǔn)侵笀?bào)道“情節(jié)”部分中除去細(xì)節(jié)信息所在句子和事件詞缺省的事件2.1事件信息在篇章結(jié)構(gòu)中的分布調(diào)查信息所在句子之后,由事件詞關(guān)聯(lián)起來的信息鏈。戴伊克(VanDijk)在《作為話語的新聞y18]_此信息鏈?zhǔn)且允录~為顯性標(biāo)記,將報(bào)道中的突發(fā)書中概括了新聞文本的假設(shè)性話語結(jié)構(gòu)圖式,如.事件、核心事件及與該核心事件相關(guān)的各類事件關(guān)聯(lián)在一起,是文本的中心內(nèi)容部分,是篇章結(jié)構(gòu)中的圖1所示。.主體部分,是讀者進(jìn)行篇章閱讀和理解的最重要的新聞報(bào)遭部分。(2)副線信息鏈。副線信息鏈?zhǔn)怯伞霸u(píng)價(jià)”部概述故事分、“背景”部分以及“情節(jié)”部分中的細(xì)節(jié)信息和事件詞缺省的事件信息所在的句子構(gòu)成。從信息抽取標(biāo)題導(dǎo)語情景評(píng)價(jià)的角度來說,副線信息鏈的信息不作為信息抽取的關(guān)注對(duì)象。副線信息鏈的作用在于使讀者加深對(duì)新情節(jié)背錄口頭反應(yīng)結(jié)論聞報(bào)道的認(rèn)識(shí)和理解,深化新聞的主題。突發(fā)事件新聞報(bào)道中的主副線信息鏈與新聞圖主要事件后果式結(jié)構(gòu)成分的對(duì)應(yīng)關(guān)系如圖2所示。語境歷史預(yù)測(cè)評(píng)細(xì)|背景環(huán)境以前事件節(jié)t圖1假設(shè)性新 聞圖式結(jié)構(gòu)高p言|以戴伊克闡釋的假設(shè)性新聞圖式結(jié)構(gòu)為基礎(chǔ),連|了解文本描述的事件信息,需要閱讀“主要事件”和圖2主副線信息鏈和新聞圖式結(jié)構(gòu)成分的對(duì)應(yīng)關(guān)系“后果”組成的“情節(jié)”部分,可以忽略圖式中的“背景”及“評(píng)價(jià)”信息。換言之,可以假定“情節(jié)”部分是由此,在戴伊克的話語宏觀結(jié)構(gòu)理論下,突發(fā)事突發(fā)事件的主體,也是事件信息抽取的主要部分。件新聞報(bào)道的篇章結(jié)構(gòu)進(jìn)一步由主線信息鏈和副線本文選取了關(guān)于火災(zāi).地震.食物中毒等方面的新聞信息鏈兩個(gè)下位的結(jié)構(gòu)組成。通過考察發(fā)現(xiàn),突發(fā)報(bào)道文本各200篇以及關(guān)于恐怖襲擊的新聞報(bào)道80事件文本中構(gòu)成主線信息鏈的句子和副線信息鏈的篇,以此作為語料,調(diào)查報(bào)道的篇章結(jié)構(gòu)以及報(bào)道的句子沒有明確的界限,它們總是交織在一起。如主體內(nèi)容---事件 信息在文本中的分布,以期發(fā)現(xiàn)新圖3中國(guó)煤化工聞的圖式結(jié)構(gòu)和事件信息結(jié)構(gòu)之間的關(guān)系規(guī)律。.HCNM H G_事件詞是文本中體現(xiàn)事件信息的重要元素,以①地晨尖文本事懺阿個(gè)數(shù)為1Z.大夾類文本事件詞個(gè)敷為164,食物中毒類文本事件詞個(gè)數(shù)為202.恐怖襲擊類類文本事件詞事件詞作為事件信息的核心表達(dá),調(diào)查事件信息在個(gè)數(shù)為115.94中文信息學(xué)報(bào)2012年背景信息....( 副線信息鏈?zhǔn)聕事主線信息鏈件L-t件牛主觀信息細(xì)節(jié)信息圖3突發(fā)事件文本信息鏈燃、短路、使用不當(dāng)、操作不當(dāng)、縱火、閃電、雷擊、釋2.2事件信 息結(jié)構(gòu)放煙花、燃放煙花炮竹、取暖、泄露、拆除、熏制、焊前文定義的主線信息鏈即為突發(fā)事件文本的信接超負(fù)荷、故障、爭(zhēng)執(zhí)]息結(jié)構(gòu),主線信息鏈上關(guān)聯(lián)了事件詞和事件論元,這(3)次生事件信息鏈。次生事件是由核心事件些是事件信息抽取的對(duì)象。通過對(duì)四類突發(fā)事件,直接造成的不可抗拒的事件,是事故造成的直接影.共計(jì)680篇新聞報(bào)道文本的主線信息鏈進(jìn)行意義分響。次生事件詞在文本中標(biāo)示所發(fā)生的次生事件。析,同時(shí)對(duì)以事件詞為標(biāo)志的事件和事件之間的關(guān)包含次生事件詞的事件小句構(gòu)成次生事件信息鏈。系進(jìn)行分析,可以發(fā)現(xiàn)主線信息鏈代表的事件信息例如,火災(zāi)文本的次生事件詞集合如下:結(jié)構(gòu)通常是由四個(gè)部分組成的事件描述,即核心事Secondary Event Words of Fire = [傷亡、死件、前核心事件、次生事件以及后次生事件。在此信亡、死、喪生、失蹤、遇難.傷亡、傷、受傷、重傷輕傷、息結(jié)構(gòu)中,核心事件是主體,其余三部分事件信息都燒傷、燒燙傷、燙傷、傷勢(shì)、輕微傷、灼傷、熏暈、熏黑、是圍繞核心事件而產(chǎn)生、存在的。組成事件信息的熏暈、熏得萎靡、熏傷、熏死、昏迷不醒、嚇壞、損失、四個(gè)部分對(duì)應(yīng)的事件詞有明顯的差別。由此,可以被困、昏迷蔓延、損害、身體不適、砸暈、骨折、撤離、事件詞為驅(qū)動(dòng),識(shí)別、區(qū)分事件的信息結(jié)構(gòu)。以火災(zāi)撇退、逃出、逃生、逃散、逃離、踩踏、呼救、自敫、跳類突發(fā)事件為例,以事件詞集合為事件的基本表示,窗、碎裂、損毀、破損、燒毀、燒焦.燒穿、被燒.被炸對(duì)應(yīng)的事件信息鏈?zhǔn)纠缦?爆、炸裂、燒盡、爆炸、坍塌、砸、影響](1)核心事件信息鏈。核心事件是事件信息結(jié)(4)后次生事件信息鏈。后次生事件是指由核構(gòu)中的重要構(gòu)成成分,它是突發(fā)事件文本報(bào)道的焦點(diǎn)心事件造成的間接影響,主要是描述人在面對(duì)突發(fā)事件。標(biāo)志核心事件發(fā)生的事件詞即為核心事件詞。性的災(zāi)難時(shí)采取的各種應(yīng)對(duì)措施。后次生事件詞表包含核心事件詞的事件小句是核心事件信息鏈上的示文本中描述的后次生事件。包含后次生事件詞的基本元素。例如,火災(zāi)文本的核心事件詞集合如下:事件小句組成后次生事件信息鏈。例如,火災(zāi)文本Core Event Words of Fire= [火災(zāi)、火災(zāi)事故、的后次生事件詞集合如下:火勢(shì)、火海、大火.火、余火、火苗、明火殘火、火情、Regeneration Events Words of Fire= [啟動(dòng)(應(yīng)火場(chǎng)、火魔、火光、火警、起火點(diǎn)、著火點(diǎn)、火源,過火.急預(yù)案)報(bào)警、警戒、封閉、關(guān)閉、調(diào)集、安置、增援、出面積、著火、著起火來、起火、失火、燃燒、胃煙、滾滾動(dòng).趕到、趕赴、奔赴處理、指揮、部署、清理撤離、搬冒出、煙霧、黑煙.焦煙、煙柱.濃煙、濃煙滾滾、濃煙出、轉(zhuǎn)移、撲滅、救火、滅火、撲救、救援、控制、疏散,善彌漫、濃煙籠罩、濃煙刺鼻、火光沖天、火光四射、火后噴水、接水、潑水搶險(xiǎn)、搶救、急救救出、搜救、救治、治療、觀察、就醫(yī)、檢查、核查、檢測(cè)、檢查.調(diào)查.隔猛炳大](2)前核心事件信息鏈。前核心事件指先于核離、呼吁、逮捕、運(yùn)抵宜判.判、通知]心事件而發(fā)生的事件,通常前核心事件是造成核心3事件詞擴(kuò) 充和副線信息鏈過濾事件發(fā)生的原因。前核心事件詞在文中標(biāo)示前核心事件的發(fā)生。包含前核心事件詞的事件小旬構(gòu)成前核心事件信息鏈。例如,火災(zāi)類文本的前核心事件3.中國(guó)煤化工詞集合如下:YH. CNMHG性.獲得了每一類Former-Core Event Words of Fire =[爆炸、點(diǎn)突發(fā)事件對(duì)應(yīng)的事件詞集合,進(jìn)一步將事件詞區(qū)分,3期楊爾弘等:事件信息結(jié)構(gòu)分析95可以使事件詞集合中的不同元素,表達(dá)事件的信息的副線信息進(jìn)行過濾,可以消除文本中影響事件抽結(jié)構(gòu),也就是可以利用事件詞區(qū)分前核心、核心、次取的干擾信息,并提高事件詞對(duì)事件信息表達(dá)的區(qū)生和后次生事件信息鏈,不同的事件信息鏈對(duì)應(yīng)不分度。同的事件詞。為過濾副線信息鏈,必須在文本中找到區(qū)分如果每- -類突發(fā)事件的事件詞是一個(gè)相對(duì)穩(wěn)定主線信息鏈和副線信息鏈的特征。- -般來說,細(xì)的詞語集合,這對(duì)事件信息結(jié)構(gòu)的發(fā)現(xiàn)與識(shí)別將有節(jié)信息屬于客觀信息的一部分,但是因?yàn)槠溥^于很大幫助。為驗(yàn)證從標(biāo)注文本中標(biāo)注得到的事件詞瑣碎,往往句子中不會(huì)包含有標(biāo)注和擴(kuò)充得到的集合對(duì)新的文本事件信息表示的有效性,本文做了事件詞,所以對(duì)于細(xì)節(jié)信息可以暫不考慮。例如,-一個(gè)簡(jiǎn)單的實(shí)驗(yàn),將標(biāo)注得到的事件詞作為種子事以下兩個(gè)例句都屬于火災(zāi)事件的細(xì)節(jié)信息,均未件詞,對(duì)新的測(cè)試語料文本進(jìn)行事件詞覆蓋測(cè)試。包含事件詞。以地震文本為例,重新選擇50篇新的文本。覆蓋結(jié)(1)羅周忠因外出不在家,逃過一劫,羅還有一果表明從200篇地震文本中獲得的種子事件詞不能個(gè)女兒在外地讀書。完全覆蓋新文本中事件信息,即新文本中出現(xiàn)了新(2)這家店的店主說:“我們的所有財(cái)物都被的事件詞。這說明所獲得的事件詞對(duì)同類事件新聞燒毀了,徹底被毀了。我們失去了曾擁有的一切,現(xiàn)報(bào)道文本信息表達(dá)的有效性不夠。在可算是徹底完了。要知道,我們把所有的錢都投如何擴(kuò)大事件詞集合?解決這個(gè)問題的方法可資到這個(gè)店上了?!币允?增加標(biāo)注量,直到事件詞達(dá)到一個(gè)比較穩(wěn)定另外,有一些背景信息也不包含事件詞,不會(huì)對(duì)的狀態(tài),即隨著新文本的加人,不再出現(xiàn)新的事件事件抽取造成千擾,例如:詞。此方法的問題是:究竟多大的標(biāo)注量就夠了?(1)呼困壁縣位于新疆中北部,距離新疆首府如何選擇需進(jìn)行標(biāo)注的文本?這兩個(gè)問題解決起來烏魯木齊約六十公里。都比較閑難。擴(kuò)大事件詞集合的另- -種方法是利用(2)巴達(dá)赫尚省是阿富汗最偏遠(yuǎn)的地區(qū),交通已有的詞典、知識(shí)資源。在此我們利用常識(shí)知識(shí)庫不便、通信落后、人口密度很低。《知網(wǎng)》( HowNet)b5J對(duì)已有的種子事件詞進(jìn)行擴(kuò)因此副線信息鏈中過濾的重點(diǎn)是包含事件詞的充,從《知網(wǎng)》中獲得種子詞的相關(guān)詞,再利用詞性等評(píng)價(jià)信息和背景信息。對(duì)這部分內(nèi)容的過濾方法,限制篩選相關(guān)詞,得到擴(kuò)充詞集合。以地震文本為本文主要采取詞語的顯性標(biāo)記作為特征。例如,在例.核心事件詞經(jīng)擴(kuò)充后由原來的17個(gè)擴(kuò)展為21標(biāo)注過程中發(fā)現(xiàn),地震文本的背景信息有比較明顯個(gè)0;次生事件詞由原來的64個(gè)擴(kuò)展為1 146個(gè);后的詞語特征。通過對(duì)200篇地震文本考察,發(fā)現(xiàn)很次生事件詞由原來的51個(gè)擴(kuò)展為548個(gè)四。多背景信息表達(dá)方式如下:在對(duì)四類突發(fā)事件文本的事件詞進(jìn)行擴(kuò)充時(shí),(1)日本地震頻發(fā),每年發(fā)生有感地震1000多擴(kuò)充原則一樣,但是四類文本的前核心、次生、后次次,是世界上地震最頻繁的國(guó)家之一。生事件詞之間有很多交集詞語,因此對(duì)組成事件信(2)墨西哥處于環(huán)太平洋地震帶東部,屬地震息結(jié)構(gòu)的不同部分,事件詞的擴(kuò)充可以采用不同的多發(fā)國(guó)家。策略獲得:突發(fā)事件的核心事件詞需要根據(jù)突發(fā)事(3)地處太平洋板塊和加勒比板塊交界處的尼件類型各自進(jìn)行擴(kuò)充,即分別對(duì)地震、火災(zāi)、食物中加拉瓜境內(nèi)地殼運(yùn)動(dòng)頻繁,歷史上曾多次發(fā)生地震。毒恐怖襲擊文本的核心種子事件詞進(jìn)行擴(kuò)充;對(duì)于(4)去年8月,秘魯發(fā)生里氏8級(jí)地震,至少造突發(fā)事件的前核心、次生和后次生事件詞,可以不考成500人死亡,4萬座房屋被毀。慮突發(fā)事件類型,按各個(gè)部分?jǐn)U充。在這些包含知識(shí).歷史、環(huán)境以及以前事件在內(nèi)的背景信息中,諸如“(頻繁)|(頻發(fā))|(多發(fā)國(guó)家)|3.2副線信 息鏈過濾(多發(fā)區(qū))|(多發(fā)帶)(多發(fā)地帶)|(強(qiáng)地震帶)|(最人工標(biāo)注過程中,已經(jīng)發(fā)現(xiàn)副線信息鏈中很多易發(fā)生)|《經(jīng)常發(fā)生)(活躍)|(曾發(fā)生)|(曾多次發(fā)句子包含事件詞,諸如背景信息、評(píng)價(jià)信息等。因此中國(guó)煤化工從事件信息提取的角度來看,以事件詞作為驅(qū)動(dòng)來識(shí)別、提取事件信息,文本中的副線信息鏈將會(huì)產(chǎn)生YHCN M H G人工標(biāo)注地震類文本的時(shí)候,表不地震事作的事件同大事數(shù)匕經(jīng)懷出了.較大噪音。為此,根據(jù)篇章結(jié)構(gòu),對(duì)新聞報(bào)道文本中0地震類突發(fā)事件沒 有明顯的前核心事件.96中文信息學(xué)報(bào)2012年生)(曾遭遇)|(發(fā)生過)|(上次發(fā)生)|(上一次發(fā)惡性恐怖襲擊事件。生)(去年....”這樣的詞語是副線信息的顯性標(biāo)(3)估計(jì)在未來24小時(shí)內(nèi),景泰原震區(qū)發(fā)生更記。將從文本中提出的明顯標(biāo)示背景信息的詞語作大級(jí)別地震的可能性不大。為顯性標(biāo)記,可以識(shí)別副線信息。在選取的200篇(4)伊朗駐聯(lián)合國(guó)官員的一系列可疑行為已引地震文本中,人工標(biāo)記有59個(gè)句子是背景信息,用發(fā)了 紐約警局官員有關(guān)伊朗特工可能主使發(fā)動(dòng)恐怖程序根據(jù)顯性標(biāo)記在文本中自動(dòng)識(shí)別背景信息,得襲擊的擔(dān)心.到45個(gè)句子。由此提取表達(dá)副線信息的顯性詞3.3實(shí)驗(yàn)語,可以作為過濾副線信息的特征。副線信息鏈中的不同內(nèi)容對(duì)應(yīng)的詞語特征是不為驗(yàn)證事件詞擴(kuò)充和副線信息鏈過濾的效果,一樣的。以下示例了評(píng)價(jià)信息部分對(duì)應(yīng)的特征設(shè)計(jì)如下實(shí)驗(yàn):詞語。以已經(jīng)標(biāo)注的200篇地震文本為基礎(chǔ),提取事(1)分析人士認(rèn)為,不管調(diào)查結(jié)果如何,巴基斯件詞,標(biāo)記副線信息鏈。隨機(jī)選擇50篇新的地震類坦的國(guó)際形象因這次襲擊事件而再次遭受嚴(yán)重影事件報(bào)道文本進(jìn)行測(cè)試。分別測(cè)試事件詞擴(kuò)充前后響,使外界對(duì)巴基斯坦的安全形勢(shì)感到進(jìn)一步擔(dān)憂。和副線信息過濾前后,事件詞對(duì)文本中事件信息結(jié)(2)警方初步判斷是泰南武裝分子制造了這起構(gòu)的識(shí)別與區(qū)分結(jié)果。測(cè)試的指標(biāo)定義如下:Precision=(識(shí)別正確的核心事件詞個(gè)數(shù)+識(shí)別正確的前核心事件詞個(gè)數(shù)識(shí)別的核心事 件詞個(gè)數(shù)識(shí)別的 前核心事件詞個(gè)數(shù)+識(shí)別正確的次生事件詞個(gè)數(shù)+識(shí)別正確的后次生事件詞個(gè)數(shù)/4x100% .識(shí)別的次生事件詞個(gè)數(shù)識(shí)別的后次生事件詞個(gè)數(shù)Recall=人工標(biāo)注的核心事件詞個(gè)數(shù) 入工標(biāo)注的前核心事件同個(gè)數(shù)。識(shí)別正確的次生事件詞個(gè)數(shù)」識(shí)別正確的后次生事件詞個(gè)數(shù)\! 4X100%人工標(biāo)注的次生事件詞個(gè)數(shù)十人工標(biāo)注的后次生事件詞個(gè)數(shù))F- Score=. 2X PrecisionX RecallPrecision+ Recal表1給出了未進(jìn)行事件詞擴(kuò)充和副線信息過濾表2地震類文本事件詞擴(kuò) 充后封閉及開放測(cè)試實(shí)驗(yàn)時(shí)的情況。封閉測(cè)試的測(cè)試對(duì)象只包含200篇人工(且過濾副線信息)標(biāo)注過的突發(fā)事件報(bào)道文本,開放測(cè)試的測(cè)試對(duì)象事件信息結(jié)構(gòu)識(shí)別PrecisionRecallF-Score是新選擇的50篇突發(fā)事件報(bào)道文本。封閉測(cè)試95. 57%表1地震類文本事件詞擴(kuò) 充前封閉及開放測(cè)試實(shí)驗(yàn)開放測(cè)試92.24%| 99. 15%(未過濾副線信息)表2的實(shí)驗(yàn)數(shù)據(jù)表明,通過過濾副線信息鏈和事件信息結(jié)構(gòu)識(shí)別Precision事件詞擴(kuò)充兩個(gè)步驟,- - 方面減少了錯(cuò)誤識(shí)別結(jié)果,封閉測(cè)試(人工標(biāo)注)| 89. 68%提高了識(shí)別的準(zhǔn)確率;另一方面,因?yàn)閿U(kuò)充后的事件90. 02%97. 60%93. 66%詞集擴(kuò)大,使得更多的事件詞能夠被機(jī)器識(shí)別出來,封閉測(cè)試的準(zhǔn)確率較低是由于副線信息鏈中的召回率也得到了提高。噪聲數(shù)據(jù)引起的。隨著文本量的增加,副線信息鏈4結(jié)語的數(shù)量增加,噪聲會(huì)增大,這也是開放測(cè)試的準(zhǔn)確率比封閉測(cè)試的要高的原因。本文結(jié)合戴伊克新聞文本的話語圖式,通過考表2給出了擴(kuò)充事件詞并過濾副線信息鏈之察事件詞在篇章中的分布情況,提出了突發(fā)事件新后,對(duì)事件信息結(jié)構(gòu)的識(shí)別結(jié)果。實(shí)驗(yàn)的步驟是:聞捆中國(guó)煤化士線信息鏈和副線信(1)利用顯性標(biāo)記規(guī)則過濾副線信息鏈; (2)利用擴(kuò)息THE突發(fā)事件新聞報(bào)道充后的所有事件詞對(duì)文本中的事件信息結(jié)構(gòu)進(jìn)行的主CN M H2在主線信息鏈中識(shí)別。以事件信息的層級(jí)結(jié)構(gòu)形式體現(xiàn)出來,即事件信息3期楊爾弘等:事件信息結(jié)構(gòu)分析97由前核心事件鏈、核心事件鏈、次生事件鏈和后次生edu/Projects/ ACE/ docs/Chinese Entities-Guidelines.事件鏈構(gòu)成,事件信息結(jié)構(gòu)可以簡(jiǎn)單地以事件詞的v5. 5. pd.2005a.分布來區(qū)分,這為事件信息提取提供了幫助。副線[3] ACE Chinese Annotation Guidelines for Relations(Version 5. 5.1) [EB/OL]. http://www. ldc. upenn.信息鏈則是由“評(píng)價(jià)”部分、“背景”部分以及“情節(jié)”edru/Priects/ ACE/docs/Chinese -Relations -Guidelines部分中的細(xì)節(jié)信息和事件詞缺省的事件信息所在的_v5. 5. 1. pdl. 2005b.句子等構(gòu)成,不作為事件信息抽取時(shí)考慮的內(nèi)容。4] ACE Chinese Annotation Guidelines for Events [ EB/在此調(diào)查的基礎(chǔ)上,實(shí)驗(yàn)了利用《知網(wǎng)》(HowNet)OL] http://www. ldc. upenn. edu/Prijects/ ACE/擴(kuò)充事件詞、利用顯式詞語規(guī)則過濾副線信息鏈,從docs/Chinese Events-Guidelines. v5. 5. 1. pdf.2005c.而盡可能準(zhǔn)確地識(shí)別、區(qū)分事件信息結(jié)構(gòu)。目前,本[5]姜吉發(fā).一種事件信息抽取模式獲取方法[J].計(jì)算機(jī)工程.2005, 31(15): 96-98.文的研究只考察了地震、火災(zāi)、食物中毒.恐怖襲擊[6]趙妍妍,秦兵,車萬翔,等. 中文事件抽取技術(shù)研究[J].這四類突發(fā)事件新聞報(bào)道文本,實(shí)驗(yàn)結(jié)果表明方法中文信息學(xué)報(bào)。2008,22(1): 3-8.是有效的。許紅磊.陳錦秀,等.自動(dòng)識(shí)別事件類別的中文事件抽核心事件詞需要根據(jù)突發(fā)事件的類別分別獲取技術(shù)研究[J]心智與計(jì)算,2010,4(1): 34-44.取,且相對(duì)穩(wěn)定。事件信息結(jié)構(gòu)中其他事件信息鏈[8] 吳平博,陳群秀,馬亮.基于事件框架的事件相關(guān)文檔的智能檢索研究[].中文信息學(xué)報(bào),2003, 17(6): 25-對(duì)應(yīng)的事件詞有些具有共性,可以根據(jù)性質(zhì)獲取,并被不同的突發(fā)事件共享。本文的研究只是從文本結(jié)[9] 粱晗 ,陳群秀,吳平博.基于事件框架的信息抽取系統(tǒng)構(gòu)的角度,初步探索了以事件詞為區(qū)分特征的事件[J].中文信息學(xué)報(bào),2006, 20(2): 40-46.信息結(jié)構(gòu)識(shí)別。當(dāng)新聞報(bào)道的事件類型不斷增加[10]楊爾弘 突發(fā)事件信息提取研究[D].北京語言大學(xué),時(shí),還需要分類分析文本的特點(diǎn),以獲得其相應(yīng)的事2005.件信息結(jié)構(gòu)。[11]馮禮,李芳,盛煥燁.基于詞對(duì)特征的事件新側(cè)面探測(cè)[].計(jì)算機(jī)工程,2009 ,35(3): 45-47.[12] 螞札基于事件框架的突發(fā)事件信息抽取[D].上海參考文獻(xiàn).交通大學(xué),2008.[13] 仲兆滿,劉宗田,周文,等.事件關(guān)系表示模型[J].中[1] Ralph Grishman. Information Extraction: Techniques文信息學(xué)報(bào),2009.23(6): 56-60.and Callenges [M]. Information Extracion.ed. Ma- [14] Van Dijk(著),曾慶香(譯).作為話語的新聞[M].華ria Teresa Pazienza, Spring Notes in Artificial Inteli-夏出版社,2003.gences, Spring-Vealag. 1997.[15]董振東,董 強(qiáng).《知網(wǎng)>(HowNet)[EB/OL]. http://[2] ACE. ACE Chinese Annotation Guidelines for Entitieswww. keenage. com.(Version 5. 5) [ EB/OL]. http://www. lde. upenn.中國(guó)煤化工MHCNMHG
-
C4烯烴制丙烯催化劑 2020-09-25
-
煤基聚乙醇酸技術(shù)進(jìn)展 2020-09-25
-
生物質(zhì)能的應(yīng)用工程 2020-09-25
-
我國(guó)甲醇工業(yè)現(xiàn)狀 2020-09-25
-
石油化工設(shè)備腐蝕與防護(hù)參考書十本免費(fèi)下載,絕版珍藏 2020-09-25
-
四噴嘴水煤漿氣化爐工業(yè)應(yīng)用情況簡(jiǎn)介 2020-09-25
-
Lurgi和ICI低壓甲醇合成工藝比較 2020-09-25
-
甲醇制芳烴研究進(jìn)展 2020-09-25
-
精甲醇及MTO級(jí)甲醇精餾工藝技術(shù)進(jìn)展 2020-09-25






