資源描述:
《《中文助手》說明書》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、1文獻(xiàn)自動(dòng)標(biāo)引解決方案21.1方案概述21.2模塊組成21.2.1文獻(xiàn)自動(dòng)標(biāo)引模塊21.2.1.1文本分類21.2.1.2主題詞標(biāo)引31.2.1.3自動(dòng)文摘41.3性能指標(biāo)41.3.1準(zhǔn)確率和速度41.3.2擴(kuò)展性與通用性51.4效果演示52智能詞語技術(shù)62.1方案概述62.2模塊組成62.2.1新詞語識(shí)別62.2.2詞語分類聚類62.2.3智能分詞系統(tǒng)72.3效果演示83行業(yè)知識(shí)門戶83.1方案概述84聯(lián)系方式991文獻(xiàn)自動(dòng)標(biāo)引解決方案1.1方案概述基于自主研發(fā)的中文信息處理技術(shù),以文本內(nèi)容語義計(jì)算、文本內(nèi)容自動(dòng)標(biāo)引為核心,“文獻(xiàn)
2、自動(dòng)標(biāo)引解決方案”集成文本分類、主題詞標(biāo)引和自動(dòng)文摘三個(gè)子模塊,將文獻(xiàn)內(nèi)容以精練準(zhǔn)確的形式,如類目、主題詞、摘要自動(dòng)標(biāo)引出來。1.2模塊組成1.2.1文獻(xiàn)自動(dòng)標(biāo)引模塊應(yīng)用國際領(lǐng)先的文本挖掘、自然語言處理等核心技術(shù),以自主研發(fā)的中文信息處理技術(shù)為基礎(chǔ),提供對海量數(shù)據(jù)進(jìn)行智能自動(dòng)分類、主題詞自動(dòng)標(biāo)引、自動(dòng)文摘等實(shí)用功能。以其為基礎(chǔ)可方便地開發(fā)應(yīng)用系統(tǒng),快速地實(shí)現(xiàn)智能信息挖掘,有效地進(jìn)行知識(shí)管理與檢索。1.2.1.1文本分類“基于關(guān)鍵短語的立體文本分類模型”:A、立足于影響文本分類最底層、最根本的因素:文本表示中的特征項(xiàng),利用表義完整的關(guān)
3、鍵短語,提高特征項(xiàng)的完整獨(dú)立程度,有效克服了傳統(tǒng)分類算法中向量空間模型和貝葉斯假設(shè)(特征之間被假定為是相互條件獨(dú)立的)的缺點(diǎn),在3萬篇測試集上(15大類,4級244小類),大類微平均提高了3.1%,小類微平均提高了15%。B、立體模型是一個(gè)交叉多層級的系統(tǒng)。在縱的方面,是一個(gè)層級的系統(tǒng),采用雙向?qū)蛹壭☆愋U惴ǚ诸悾患壖壏值剿膶幼宇?。在橫的方面,采用兼類多標(biāo)簽分類策略,智能判斷文檔是否兼類,兼哪幾類。大類微平均和宏平均F1值比扁平模型分別提高了1.8和2.7個(gè)百分點(diǎn)。9C、擴(kuò)展性強(qiáng),用戶可以根據(jù)自身需要,動(dòng)態(tài)增刪或調(diào)整分類體系。支
4、持自動(dòng)訓(xùn)練,提供新分類體系和相對應(yīng)的已分類文檔之后能夠?qū)崿F(xiàn)新分類體系的文檔的自動(dòng)分類。交叉多層級立體分類,如,一篇微軟新品軟件發(fā)布的文檔既可歸為“科技_電腦_軟件_操作系統(tǒng)”,也可歸為“經(jīng)濟(jì)_產(chǎn)經(jīng)_產(chǎn)業(yè)新聞”??娠@示類別間相似度,以分析了解分類體系是否設(shè)計(jì)合理。分類方法支持領(lǐng)域知識(shí)、統(tǒng)計(jì)等多種方法。1.1.1.1主題詞標(biāo)引針對主題詞的領(lǐng)域不均勻性和鄰界域兩個(gè)特征,首創(chuàng)并模擬計(jì)算了主題詞表征文本主題特征程度的主題度。結(jié)合方差和TFIDF原理,設(shè)計(jì)了形式化的主題詞計(jì)算模型。以主題詞及其主題度為領(lǐng)域知識(shí),結(jié)合統(tǒng)計(jì)方法,形成了一個(gè)知識(shí)與統(tǒng)計(jì)
5、相結(jié)合的主題詞自動(dòng)標(biāo)引系統(tǒng)。主要特點(diǎn):◆?支持?jǐn)⒃~漢字標(biāo)引(詞表選詞標(biāo)引)、輔助標(biāo)引(自由詞標(biāo)引)、關(guān)鍵詞標(biāo)引(提取文章關(guān)鍵詞標(biāo)引)?!?支持基于專家知識(shí)的規(guī)則標(biāo)引或純粹詞語計(jì)算的統(tǒng)計(jì)標(biāo)引,用戶可選,或者二者相結(jié)合。◆?標(biāo)引詞的數(shù)量可用戶自定義,支持定量(3-5個(gè))或根據(jù)文章長度動(dòng)態(tài)確定標(biāo)引詞數(shù)?!?能夠以多級體系的形式生成并管理標(biāo)引詞庫,可動(dòng)態(tài)編輯、修改、維護(hù)標(biāo)引詞?!?支持自動(dòng)訓(xùn)練,無需提供訓(xùn)練文檔集即可實(shí)現(xiàn)新文檔的自動(dòng)標(biāo)引。9◆?支持文檔多級標(biāo)引。自動(dòng)文摘1.1.1.1自動(dòng)文摘文摘系統(tǒng)基于詞語的主題度計(jì)算,自動(dòng)抽取文獻(xiàn)關(guān)鍵性句
6、子形成摘要(原文中約25%的文字,可自定義)?;咎攸c(diǎn):◆?能夠以多級體系的形式生成并管理標(biāo)引詞庫,可動(dòng)態(tài)編輯、修改、維護(hù)標(biāo)引詞?!?能夠利用專業(yè)文檔語料庫進(jìn)行訓(xùn)練。◆?同時(shí)支持自動(dòng)訓(xùn)練,無需提供新摘要文檔語料庫,即能實(shí)現(xiàn)新文檔的自動(dòng)摘要?!?摘要比例可由用戶自定義?!?摘要可讀性強(qiáng),能覆蓋原文獻(xiàn)主題。1.2性能指標(biāo)1.2.1準(zhǔn)確率和速度A、文本分類:在4級、244個(gè)類目的分類體系,3萬篇文獻(xiàn)的開放測試中,準(zhǔn)確率達(dá)94%;分類速度10萬字/秒B、主題詞標(biāo)引:500篇文獻(xiàn)的測試時(shí)間約為5秒,綜合平均得分為8.08(共10分)。C、自動(dòng)
7、文摘:1000篇文獻(xiàn)的測試時(shí)間約為10秒,綜合平均得分為7.76(共10分)。91.1.1擴(kuò)展性與通用性完整的應(yīng)用開發(fā)接口:提供.Net組件、COM組件、Java組件接口,并且針對有較高底層開發(fā)要求的用戶提供完整的二次開發(fā)接口。支持多種編碼:提供對?GB2312、BIG5、GBK、GK18030、UNICODE等多種編碼的直接支持。擴(kuò)展性強(qiáng):底層詞表和概念術(shù)語可以自由增加或刪除,導(dǎo)入導(dǎo)出;可以根據(jù)自身需要,動(dòng)態(tài)增刪或調(diào)整分類體系;可以根據(jù)需要,自由設(shè)定主題詞抽取個(gè)數(shù),自由設(shè)定文摘抽取比例。1.2效果演示網(wǎng)絡(luò)版在線演示地址:http:
8、//www.languagetech.cn/class_demo.aspx單機(jī)版詳細(xì)說明參見《幫助文檔》。圖1:網(wǎng)絡(luò)演示版(http://www.languagetech.cn/class_demo.aspx)91智能詞語技術(shù)1.1方