《中文助手》說(shuō)明書

《中文助手》說(shuō)明書

ID:23821874

大?。?01.50 KB

頁(yè)數(shù):9頁(yè)

時(shí)間:2018-11-11

《中文助手》說(shuō)明書_第1頁(yè)
《中文助手》說(shuō)明書_第2頁(yè)
《中文助手》說(shuō)明書_第3頁(yè)
《中文助手》說(shuō)明書_第4頁(yè)
《中文助手》說(shuō)明書_第5頁(yè)
資源描述:

《《中文助手》說(shuō)明書》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、1文獻(xiàn)自動(dòng)標(biāo)引解決方案21.1方案概述21.2模塊組成21.2.1文獻(xiàn)自動(dòng)標(biāo)引模塊21.2.1.1文本分類21.2.1.2主題詞標(biāo)引31.2.1.3自動(dòng)文摘41.3性能指標(biāo)41.3.1準(zhǔn)確率和速度41.3.2擴(kuò)展性與通用性51.4效果演示52智能詞語(yǔ)技術(shù)62.1方案概述62.2模塊組成62.2.1新詞語(yǔ)識(shí)別62.2.2詞語(yǔ)分類聚類62.2.3智能分詞系統(tǒng)72.3效果演示83行業(yè)知識(shí)門戶83.1方案概述84聯(lián)系方式991文獻(xiàn)自動(dòng)標(biāo)引解決方案1.1方案概述基于自主研發(fā)的中文信息處理技術(shù),以文本內(nèi)容語(yǔ)義計(jì)算、文本內(nèi)容自動(dòng)標(biāo)引為核心,“文獻(xiàn)

2、自動(dòng)標(biāo)引解決方案”集成文本分類、主題詞標(biāo)引和自動(dòng)文摘三個(gè)子模塊,將文獻(xiàn)內(nèi)容以精練準(zhǔn)確的形式,如類目、主題詞、摘要自動(dòng)標(biāo)引出來(lái)。1.2模塊組成1.2.1文獻(xiàn)自動(dòng)標(biāo)引模塊應(yīng)用國(guó)際領(lǐng)先的文本挖掘、自然語(yǔ)言處理等核心技術(shù),以自主研發(fā)的中文信息處理技術(shù)為基礎(chǔ),提供對(duì)海量數(shù)據(jù)進(jìn)行智能自動(dòng)分類、主題詞自動(dòng)標(biāo)引、自動(dòng)文摘等實(shí)用功能。以其為基礎(chǔ)可方便地開發(fā)應(yīng)用系統(tǒng),快速地實(shí)現(xiàn)智能信息挖掘,有效地進(jìn)行知識(shí)管理與檢索。1.2.1.1文本分類“基于關(guān)鍵短語(yǔ)的立體文本分類模型”:A、立足于影響文本分類最底層、最根本的因素:文本表示中的特征項(xiàng),利用表義完整的關(guān)

3、鍵短語(yǔ),提高特征項(xiàng)的完整獨(dú)立程度,有效克服了傳統(tǒng)分類算法中向量空間模型和貝葉斯假設(shè)(特征之間被假定為是相互條件獨(dú)立的)的缺點(diǎn),在3萬(wàn)篇測(cè)試集上(15大類,4級(jí)244小類),大類微平均提高了3.1%,小類微平均提高了15%。B、立體模型是一個(gè)交叉多層級(jí)的系統(tǒng)。在縱的方面,是一個(gè)層級(jí)的系統(tǒng),采用雙向?qū)蛹?jí)小類校正算法分類,一級(jí)級(jí)分到四層子類。在橫的方面,采用兼類多標(biāo)簽分類策略,智能判斷文檔是否兼類,兼哪幾類。大類微平均和宏平均F1值比扁平模型分別提高了1.8和2.7個(gè)百分點(diǎn)。9C、擴(kuò)展性強(qiáng),用戶可以根據(jù)自身需要,動(dòng)態(tài)增刪或調(diào)整分類體系。支

4、持自動(dòng)訓(xùn)練,提供新分類體系和相對(duì)應(yīng)的已分類文檔之后能夠?qū)崿F(xiàn)新分類體系的文檔的自動(dòng)分類。交叉多層級(jí)立體分類,如,一篇微軟新品軟件發(fā)布的文檔既可歸為“科技_電腦_軟件_操作系統(tǒng)”,也可歸為“經(jīng)濟(jì)_產(chǎn)經(jīng)_產(chǎn)業(yè)新聞”。可顯示類別間相似度,以分析了解分類體系是否設(shè)計(jì)合理。分類方法支持領(lǐng)域知識(shí)、統(tǒng)計(jì)等多種方法。1.1.1.1主題詞標(biāo)引針對(duì)主題詞的領(lǐng)域不均勻性和鄰界域兩個(gè)特征,首創(chuàng)并模擬計(jì)算了主題詞表征文本主題特征程度的主題度。結(jié)合方差和TFIDF原理,設(shè)計(jì)了形式化的主題詞計(jì)算模型。以主題詞及其主題度為領(lǐng)域知識(shí),結(jié)合統(tǒng)計(jì)方法,形成了一個(gè)知識(shí)與統(tǒng)計(jì)

5、相結(jié)合的主題詞自動(dòng)標(biāo)引系統(tǒng)。主要特點(diǎn):◆?支持?jǐn)⒃~漢字標(biāo)引(詞表選詞標(biāo)引)、輔助標(biāo)引(自由詞標(biāo)引)、關(guān)鍵詞標(biāo)引(提取文章關(guān)鍵詞標(biāo)引)?!?支持基于專家知識(shí)的規(guī)則標(biāo)引或純粹詞語(yǔ)計(jì)算的統(tǒng)計(jì)標(biāo)引,用戶可選,或者二者相結(jié)合。◆?標(biāo)引詞的數(shù)量可用戶自定義,支持定量(3-5個(gè))或根據(jù)文章長(zhǎng)度動(dòng)態(tài)確定標(biāo)引詞數(shù)?!?能夠以多級(jí)體系的形式生成并管理標(biāo)引詞庫(kù),可動(dòng)態(tài)編輯、修改、維護(hù)標(biāo)引詞?!?支持自動(dòng)訓(xùn)練,無(wú)需提供訓(xùn)練文檔集即可實(shí)現(xiàn)新文檔的自動(dòng)標(biāo)引。9◆?支持文檔多級(jí)標(biāo)引。自動(dòng)文摘1.1.1.1自動(dòng)文摘文摘系統(tǒng)基于詞語(yǔ)的主題度計(jì)算,自動(dòng)抽取文獻(xiàn)關(guān)鍵性句

6、子形成摘要(原文中約25%的文字,可自定義)?;咎攸c(diǎn):◆?能夠以多級(jí)體系的形式生成并管理標(biāo)引詞庫(kù),可動(dòng)態(tài)編輯、修改、維護(hù)標(biāo)引詞?!?能夠利用專業(yè)文檔語(yǔ)料庫(kù)進(jìn)行訓(xùn)練?!?同時(shí)支持自動(dòng)訓(xùn)練,無(wú)需提供新摘要文檔語(yǔ)料庫(kù),即能實(shí)現(xiàn)新文檔的自動(dòng)摘要?!?摘要比例可由用戶自定義。◆?摘要可讀性強(qiáng),能覆蓋原文獻(xiàn)主題。1.2性能指標(biāo)1.2.1準(zhǔn)確率和速度A、文本分類:在4級(jí)、244個(gè)類目的分類體系,3萬(wàn)篇文獻(xiàn)的開放測(cè)試中,準(zhǔn)確率達(dá)94%;分類速度10萬(wàn)字/秒B、主題詞標(biāo)引:500篇文獻(xiàn)的測(cè)試時(shí)間約為5秒,綜合平均得分為8.08(共10分)。C、自動(dòng)

7、文摘:1000篇文獻(xiàn)的測(cè)試時(shí)間約為10秒,綜合平均得分為7.76(共10分)。91.1.1擴(kuò)展性與通用性完整的應(yīng)用開發(fā)接口:提供.Net組件、COM組件、Java組件接口,并且針對(duì)有較高底層開發(fā)要求的用戶提供完整的二次開發(fā)接口。支持多種編碼:提供對(duì)?GB2312、BIG5、GBK、GK18030、UNICODE等多種編碼的直接支持。擴(kuò)展性強(qiáng):底層詞表和概念術(shù)語(yǔ)可以自由增加或刪除,導(dǎo)入導(dǎo)出;可以根據(jù)自身需要,動(dòng)態(tài)增刪或調(diào)整分類體系;可以根據(jù)需要,自由設(shè)定主題詞抽取個(gè)數(shù),自由設(shè)定文摘抽取比例。1.2效果演示網(wǎng)絡(luò)版在線演示地址:http:

8、//www.languagetech.cn/class_demo.aspx單機(jī)版詳細(xì)說(shuō)明參見《幫助文檔》。圖1:網(wǎng)絡(luò)演示版(http://www.languagetech.cn/class_demo.aspx)91智能詞語(yǔ)技術(shù)1.1方

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。