資源描述:
《語言系統(tǒng)國內(nèi)外發(fā)展概況》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、語言系統(tǒng)國內(nèi)外發(fā)展概況△國家科技部中藥基礎(chǔ)數(shù)據(jù)庫項目課題組尹愛寧張汝恩隨著信息技術(shù)的發(fā)展,21世紀將逐步形成了全球范圍內(nèi)數(shù)字化系統(tǒng)。信息專業(yè)性領(lǐng)域限定的弱化,促使各行業(yè)信息專業(yè)化程度有明顯上升趨勢。由此,各行業(yè)對于信息技術(shù)的需求與依賴更加突出。為滿足行業(yè)信息化的發(fā)展,信息標準化與信息基礎(chǔ)性研究成為行業(yè)的焦點。如何用智能化的手段處理海量信息(包括文字、圖像、語音等)已成為一個十分緊迫的問題。將信息轉(zhuǎn)變?yōu)橹R、將信息基礎(chǔ)設(shè)施發(fā)展為知識基礎(chǔ)設(shè)施是21世紀的重要科研方向。重點解決:數(shù)據(jù)發(fā)掘、文本挖掘、知識發(fā)現(xiàn)、Internet網(wǎng)上海量信息的智能化檢索和網(wǎng)上軟件機器人等。為了實現(xiàn)數(shù)據(jù)挖掘與知識的發(fā)現(xiàn),信
2、息技術(shù)的普及化與自然化是必備的。如何建立自然人機界面與和諧的人機環(huán)境,對于計算機技術(shù)與自然語言的處理和專家支持系統(tǒng)都提出了更高的要求。因而建立語言系統(tǒng),搭建語言系統(tǒng)支撐平臺,是完成自然語言處理的關(guān)鍵。目前,在信息技術(shù)競爭中,已將自然語言處理與本體論語言系統(tǒng)作為重點。1.自然語言系統(tǒng):自然語言是指人們?nèi)粘I钪兴褂玫恼Z言,如漢語、英語等,它是千百年來在社會生活中自然形成的語言。計算機的程序設(shè)計語言如PASCAL、C等則是由人工設(shè)計而成的語言,故稱為"形式語言"。自然語言處理(naturallanguageprocessing,簡稱NLP)也稱為自然語言理解,是語言信息處理的一個重要分支。所謂語
3、言信息處理,在我國就是中文信息處理。它是指用計算機對包括漢語(字)的形、音、義等信息及詞、句子。篇章的輸入、輸出、存儲和識別、分析。理解、生成等多方面的加工處理。其中,自然語言處理側(cè)重于研究計算機對于句子、篇章的處理。計算機要理解和處理自然語言,必須像人一樣具有詞法、句法、語義和語用等6個層次的知識。它們是:①語音學層次,是關(guān)于對聲音的識別、理解與合成;②形態(tài)學層次,涉及對各種詞形和詞的可識別部分的處理,如前、后綴、復合詞等;③詞匯學層次,其重點是對全詞操作和詞匯系統(tǒng)的控制;④句法層次,它與語言結(jié)構(gòu)單元的鑒別有關(guān),具體而言就是對輸入的單詞序列進行分析,看它們能否構(gòu)成合法句子,如果能給出相應的合
4、法句子結(jié)構(gòu);⑤語義層次,相對自然語言文本意義的識別、理解和表示,它涉及各級語言單位(單詞、詞組、句子、句群)所包含的意義及其在語言使用過程中所產(chǎn)生的意義;⑥語用學層次,這是△國家科技部科技基礎(chǔ)性工作專項資金項目(2001DEA30039)5對涉及上下文和語言交際環(huán)境以及背景意義和聯(lián)想意義的語義分析。由于自然語言處理側(cè)重于句子、篇章,因而句法分析、語義分析、語用分析3方面便構(gòu)成了自然語言處理研究內(nèi)容的基礎(chǔ)部分。自然語言處理研究在電子計算機問世之初就開始了,并于50年代初開展了機器翻譯試驗。到了60年代喬姆斯基的轉(zhuǎn)換生成語法得到廣泛的認可,生成語法的核心是短語結(jié)構(gòu)規(guī)則,分析句子結(jié)構(gòu)的過程就是利用規(guī)
5、則自頂向下或自底向上的句法樹生成過程國外在1963年就建成了早期的自然語言理解系統(tǒng),而我國直到1980年才建成了兩個漢語自然語言理解模型,比國外起步晚了17年。八十年代中期,在國際新一代計算機激烈競爭的影響下,自然語言理解的研究在國內(nèi)得到了更多的重視,"自然語言理解和人機接口"列入了新一代計算機的研制規(guī)劃,研究單位增多了,研究隊伍也壯大了。中國科學院聲學研究所、清華大學等單位成立了自然語言理解處理實驗室。由于漢字系統(tǒng)的特殊性,因而對自然語言處理的國內(nèi)處有著很大的差異。英語有26個字母;中文44908個漢字(根據(jù)《中華大字典》)。英語起源于5世紀,有一千五百年歷史,《牛津英語詞典》,收詞四十萬多
6、條。漢語六千多年歷史,《中山大詞典》,收詞六十多萬條,比英語多50%。因此實現(xiàn)自然語言的處理需求支撐條件之一是語言系統(tǒng)建設(shè)。2.語言系統(tǒng):語言系統(tǒng)被認為是知識工程的一種技術(shù)。以往構(gòu)造知識庫的技術(shù)是局限性的。直到最近,一個新的基本知識模型的技術(shù)出現(xiàn)了。例如歐州的KADS項目(wielinga,1983)、美國的PROTEGE項目,日本的MULTIS項目,都來源于(clancey1985)最新的知識工程化技巧,來自于任務(wù)本體(taskontology)的想法。任務(wù)本體(taskontology)是作為使用詞匯和概念構(gòu)造知識工程系統(tǒng)單元的理論。因而語言系統(tǒng)建立被稱為本體論。On本體論是一個哲學上的概
7、念,用于描述事物的本質(zhì)。在近一、二十年來,本體論已被計算機領(lǐng)域所采用,用于知識表達、知識共享及重用。許多學科和研究都在使用“本體”這個術(shù)語,但存在不同的定義。在工程研究中,從知識共享的角度來說,Ontology作為一種概念化的說明,采用框架系統(tǒng)對客觀存在的概念和關(guān)系的描述。它是通用意義上的“概念定義集”,是關(guān)于“種類”(kind)和“關(guān)系”的詞匯表。這種詞匯表,是在各種事務(wù)代理人之間交換意見時所用