由於理解(understanding)自然說話,需要關於外在世界的普遍常識和運用操作這些知識的能力,天然語言認知,同時也被視為一小我工聰明完整(AI-complete)的問題。
同時,在自然說話處理中,"理解"的界說也變成一個首要的問題。
第三,淺層處理與深層處置並重,統計與劃定規矩方式並重,構成混合式的系統。
任務和限制[編纂]
統計天然說話處理應用了料到學、機率、統計的方法來解決上述,尤其是針對容易高度恍惚的長串句子,當套用現實文法進行剖析產生出成千上萬筆可能性時所引發之困難。
處置懲罰這些高度模糊句子所採用消歧的方法每每應用到語料庫和馬可夫模型(Markov models)。統計天然說話處置的手藝主要由同樣自人工聰明下與進修行為相關的子範疇:機械學習及資料採掘所演進而成。
第二,統計數學方式愈來愈受到正視,天然說話處置懲罰中愈來愈多地利用機械自動學習的方法來獲得說話知識翻譯
但是代詞「它們」在第一句中指的是「猴子」,在第二句中指的是「香蕉」。詞義的消歧[編纂]
- 許多字詞不單只有一個意思,因此我們必需選出使句意最為通順的诠釋翻譯
句法的模糊性[編輯]
- 天然說話的文法平常是模稜兩可的,針對一個句子通常可能會分解(Parse)出多棵理會樹(Parse Tree),而我們必需要仰賴語意及前後文的資訊才能在個中選擇一棵最為合適的理會樹。再者,假如一門課程客歲沒開設,對於發問「這門課程客歲有幾何學生沒通過?」回覆「客歲沒開這門課」要比回覆「沒人沒經由過程」好。若是不領會山公和香蕉的屬性,沒法區分。 典型問題有特定謎底 (像是加拿大的首都叫什麼?),但也斟酌些開放式問句(像是人生的意義是是甚麼?)
- 將某種人類說話主動翻譯至另外一種說話
- 產生一段文字的大意,平日用於供應已知範疇的文章摘要,例如產生報紙上某篇文章之摘要
天然說話處置懲罰研究的難點[編輯]
單詞的界限界定[編纂]
- 在口語中,詞與詞之間平常是聯貫的,而界定字詞界限平常使用的舉措是取用能讓給定的上下文最為通順且在文法上無誤的一種最好組合翻譯在書寫上,漢語也沒有詞與詞之間的界限。
當前天然語言處置懲罰研究的成長趨向[編輯]
- 句子「天成翻譯社們把香蕉給猴子,因為(牠們)餓了」和「我們把香蕉給山公,因為(它們)熟透了」有同樣的佈局。
有瑕疵的或不規範的輸入[編纂]
- 例如語音處置時遇到外國口音或處所口音,或在文本的處理中處理拼寫,語法或光學字元辨認(OCR)的錯誤翻譯
說話行為與企圖[編纂]
天然語言處置懲罰的首要範圍[編纂]
- 文本朗讀(Text to speech)/語音合成(Speech synthesis)
- 語音識別(Speech recognition)
- 中文主動分詞(Chinese word segmentation)
- 詞性標註(Part-of-speech tagging)
- 句法闡發(Parsing)
- 自然語言生成(Natural language generation)
- 文天職類(Text categorization)
- 信息檢索(Information retrieval)
- 信息抽取(Information extraction)
- 文字校訂(Text-proofing)
- 問答系統(Question answering)
- 給一句人類說話的問定,決議其謎底。
[1] 第一,傳統的基於句法-語義規則的理性主義方式遭到質疑,跟著語料庫扶植和語料庫說話學的崛起,大範圍真實文本的處置懲罰成為天然語言處置的首要計謀目標。
一些NLP面對的問題實例:
天然說話生成系統把計較機數據轉化為天然說話翻譯天然說話理解系統把自然語言轉化為計算機程序更易於處理的形式翻譯
第四,天然說話處置中愈來愈正視辭彙的感化,泛起了強烈的「辭彙主義」的偏向。
辭彙知識庫的建造成為了遍及存眷的問題。 自然說話處置懲罰(英語:Natural Language Processing,簡稱NLP)是人工聰明和說話學範疇的分支學科翻譯在這此領域中切磋若何處置及應用天然語言;天然說話認知則是指讓電腦「懂」人類的說話。
目錄
- 1 任務和限制
- 2 實際問題
- 3 自然說話處置懲罰的首要領域
- 4 天然語言處置懲罰研究的難點
- 4.1 單詞的界限界定
- 4.2 詞義的消歧
- 4.3 句法的恍惚性
- 4.4 有瑕疵的或不規範的輸入
- 4.5 語言行為與規劃
- 5 當前自然說話處理研究的成長趨向
- 6 統計天然說話處理
- 6.1 相幹實例
- 7 參見
- 8 延長閱讀
- 9 外部貫穿連接
統計天然說話處置懲罰[編輯]
現實問題[編纂]
理論上,NLP是一種很吸惹人的人機交互體例。
初期的語言處置懲罰系統如SHRDLU,當它們處於一個有限的「積木世界」,應用有限的詞彙表會話時,工作得相當好翻譯這使得研究員們對此系統相當樂觀,但是,當把這個系統拓展到佈滿了實際世界的模糊與不肯定性的情況中時,他們很快喪失了決心信念。
相關實例[編輯]
- GATE: a Java Library for Text Engineering
- LTP:語言技術平台(簡體中文)
- MARF
- Python編程說話的天然說話處置東西包教程
- FudanNLP開源中文自然說話處置工具包
拜見[編輯]
延長閱讀[編輯]
- Bates翻譯社 M. Models of natural language understanding. Proceedings of the National Academy of Sciences of the United States of America. 1995翻譯社 92 (22): 9977–9982. doi:10.1073/pnas.92.22.9977.
- Steven Bird, Ewan Klein翻譯社 and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
- Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
- Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
- Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
- David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
外部貫穿連接[編纂]
- 人類說話技術當前成長環境概覽
- 哥倫比亞大學天然說話處理研究組
- 卡內基梅隆大學語言手藝研究院
- 斯坦福大學天然語言處置懲罰研究小組
- 中文自然說話處理開放平臺
- ACL(美國電腦說話學協會)供給的相幹雜誌和鑽研會的論文
|
|
文章來自: https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AA%9E%E8%A8%80%E8%99%95%E7%90%86有關翻譯的問題歡迎諮詢天成翻譯社