語言系統(tǒng)國內(nèi)外發(fā)展概況

ID：6081676

大?。?8.00 KB

頁數(shù)：5頁

時間：2018-01-02

資源描述：

《語言系統(tǒng)國內(nèi)外發(fā)展概況》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、語言系統(tǒng)國內(nèi)外發(fā)展概況△國家科技部中藥基礎(chǔ)數(shù)據(jù)庫項目課題組尹愛寧張汝恩隨著信息技術(shù)的發(fā)展，21世紀將逐步形成了全球范圍內(nèi)數(shù)字化系統(tǒng)。信息專業(yè)性領(lǐng)域限定的弱化，促使各行業(yè)信息專業(yè)化程度有明顯上升趨勢。由此，各行業(yè)對于信息技術(shù)的需求與依賴更加突出。為滿足行業(yè)信息化的發(fā)展，信息標準化與信息基礎(chǔ)性研究成為行業(yè)的焦點。如何用智能化的手段處理海量信息（包括文字、圖像、語音等）已成為一個十分緊迫的問題。將信息轉(zhuǎn)變?yōu)橹R、將信息基礎(chǔ)設(shè)施發(fā)展為知識基礎(chǔ)設(shè)施是21世紀的重要科研方向。重點解決：數(shù)據(jù)發(fā)掘、文本挖掘、知識發(fā)現(xiàn)、Internet網(wǎng)上海量信息的智能化檢索和網(wǎng)上軟件機器人等。為了實現(xiàn)數(shù)據(jù)挖掘與知識的發(fā)現(xiàn)，信

2、息技術(shù)的普及化與自然化是必備的。如何建立自然人機界面與和諧的人機環(huán)境，對于計算機技術(shù)與自然語言的處理和專家支持系統(tǒng)都提出了更高的要求。因而建立語言系統(tǒng)，搭建語言系統(tǒng)支撐平臺，是完成自然語言處理的關(guān)鍵。目前，在信息技術(shù)競爭中，已將自然語言處理與本體論語言系統(tǒng)作為重點。1.自然語言系統(tǒng)：自然語言是指人們?nèi)粘Ｉ钪兴褂玫恼Z言，如漢語、英語等，它是千百年來在社會生活中自然形成的語言。計算機的程序設(shè)計語言如PASCAL、C等則是由人工設(shè)計而成的語言，故稱為"形式語言"。自然語言處理（naturallanguageprocessing，簡稱NLP）也稱為自然語言理解，是語言信息處理的一個重要分支。所謂語

3、言信息處理，在我國就是中文信息處理。它是指用計算機對包括漢語（字）的形、音、義等信息及詞、句子。篇章的輸入、輸出、存儲和識別、分析。理解、生成等多方面的加工處理。其中，自然語言處理側(cè)重于研究計算機對于句子、篇章的處理。計算機要理解和處理自然語言，必須像人一樣具有詞法、句法、語義和語用等6個層次的知識。它們是：①語音學層次，是關(guān)于對聲音的識別、理解與合成；②形態(tài)學層次，涉及對各種詞形和詞的可識別部分的處理，如前、后綴、復合詞等；③詞匯學層次，其重點是對全詞操作和詞匯系統(tǒng)的控制；④句法層次，它與語言結(jié)構(gòu)單元的鑒別有關(guān)，具體而言就是對輸入的單詞序列進行分析，看它們能否構(gòu)成合法句子，如果能給出相應的合

4、法句子結(jié)構(gòu)；⑤語義層次，相對自然語言文本意義的識別、理解和表示，它涉及各級語言單位（單詞、詞組、句子、句群）所包含的意義及其在語言使用過程中所產(chǎn)生的意義；⑥語用學層次，這是△國家科技部科技基礎(chǔ)性工作專項資金項目（2001DEA30039）5對涉及上下文和語言交際環(huán)境以及背景意義和聯(lián)想意義的語義分析。由于自然語言處理側(cè)重于句子、篇章，因而句法分析、語義分析、語用分析3方面便構(gòu)成了自然語言處理研究內(nèi)容的基礎(chǔ)部分。自然語言處理研究在電子計算機問世之初就開始了，并于50年代初開展了機器翻譯試驗。到了60年代喬姆斯基的轉(zhuǎn)換生成語法得到廣泛的認可，生成語法的核心是短語結(jié)構(gòu)規(guī)則，分析句子結(jié)構(gòu)的過程就是利用規(guī)

5、則自頂向下或自底向上的句法樹生成過程國外在1963年就建成了早期的自然語言理解系統(tǒng)，而我國直到1980年才建成了兩個漢語自然語言理解模型，比國外起步晚了17年。八十年代中期，在國際新一代計算機激烈競爭的影響下，自然語言理解的研究在國內(nèi)得到了更多的重視，"自然語言理解和人機接口"列入了新一代計算機的研制規(guī)劃，研究單位增多了，研究隊伍也壯大了。中國科學院聲學研究所、清華大學等單位成立了自然語言理解處理實驗室。由于漢字系統(tǒng)的特殊性，因而對自然語言處理的國內(nèi)處有著很大的差異。英語有26個字母；中文44908個漢字(根據(jù)《中華大字典》)。英語起源于5世紀，有一千五百年歷史，《牛津英語詞典》，收詞四十萬多

6、條。漢語六千多年歷史，《中山大詞典》，收詞六十多萬條，比英語多50%。因此實現(xiàn)自然語言的處理需求支撐條件之一是語言系統(tǒng)建設(shè)。2.語言系統(tǒng)：語言系統(tǒng)被認為是知識工程的一種技術(shù)。以往構(gòu)造知識庫的技術(shù)是局限性的。直到最近，一個新的基本知識模型的技術(shù)出現(xiàn)了。例如歐州的KADS項目(wielinga，1983)、美國的ＰＲＯＴＥＧＥ項目，日本的ＭＵＬＴＩＳ項目，都來源于（clancey1985）最新的知識工程化技巧，來自于任務(wù)本體(taskontology)的想法。任務(wù)本體(taskontology)是作為使用詞匯和概念構(gòu)造知識工程系統(tǒng)單元的理論。因而語言系統(tǒng)建立被稱為本體論。On本體論是一個哲學上的概

7、念，用于描述事物的本質(zhì)。在近一、二十年來，本體論已被計算機領(lǐng)域所采用，用于知識表達、知識共享及重用。許多學科和研究都在使用“本體”這個術(shù)語，但存在不同的定義。在工程研究中，從知識共享的角度來說，Ontology作為一種概念化的說明，采用框架系統(tǒng)對客觀存在的概念和關(guān)系的描述。它是通用意義上的“概念定義集”，是關(guān)于“種類”(kind)和“關(guān)系”的詞匯表。這種詞匯表，是在各種事務(wù)代理人之間交換意見時所用

當前文檔最多預覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

語言系統(tǒng)國內(nèi)外發(fā)展概況

語言系統(tǒng)國內(nèi)外發(fā)展概況

相關(guān)文章

相關(guān)標簽