大學本科畢業(yè)論文(設計)開題報告
學院:計算機科學與技術學院 專業(yè)班級:2008級計算機科學與技術1班
課題名稱 基于百度百科的中文文本分類
1、 本課題的研究目的和意義:
網(wǎng)絡上存在海量的中文文本資源,其稀疏性與不規(guī)范性令以詞組統(tǒng)計方式來進行訓練和分類的傳統(tǒng)分類方法效果不佳.為克服這些難題我們提出了基于百度百科的中文文本分類。
百度百科是一個豐富的與社會熱點、網(wǎng)絡流行緊密相關的動態(tài)中文知識庫,基于百度百科本文提出一種網(wǎng)絡文本分類方法,通過百科知識關系將文本從外延詞條集合映射到能體現(xiàn)其內涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計規(guī)律性來計算相似度,進而完成文本分類. 有效地避開窮舉詞條的統(tǒng)計方式,解決現(xiàn)有文本分類算法需要大量訓練數(shù)據(jù)和無法應對網(wǎng)絡詞匯和新生詞匯的這兩大難題。
2、 文獻綜述(國內外研究情況及其發(fā)展):
到目前為止,文本自動分類在國外大致經(jīng)歷了三個發(fā)展階段:第一階段(1958-1964)主要進行自動分類的可行性研究。第二階段(1965-1974)進行自動分類的試驗研究。第三階段(1975-至今)進行實用化階段,并在郵件分類、電子會議、信息過濾等方面取得較為廣泛的應用。
我國文本分類的研究工作始于20世紀80年代,大體經(jīng)歷了可行性探討、輔助分類系統(tǒng)、自動分類系統(tǒng)三個階段
……(新文秘網(wǎng)http://m.jey722.cn省略915字,正式會員可完整閱讀)……
文本分類;郭玉琴等改進了傳統(tǒng)關聯(lián)文本方法,提出一種基于模糊分類規(guī)則樹的文本分類方法。
這些方法對表達規(guī)范的文本都能取得較好的效果。但是如前所述中文網(wǎng)絡上存在大量稀疏與不規(guī)范文本,這些文本組織靈活,表達隨意.上述的這些方法說大多是在對詞組的識別統(tǒng)計的基礎上來完成訓練與分類,因而在面對表述不規(guī)范的網(wǎng)絡文本數(shù)據(jù)時,其效果就不甚理想。
3、 本課題的主要研究內容(提綱)和成果形式:
1、 主題抽取
對于一段網(wǎng)絡文本,可以找出一段網(wǎng)絡文本所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本的語義主題侯選項,對每一個侯選語義主題都進行統(tǒng)計記。
我們可以把所有的候選語義主題看作是一張有向圖的頂點。對于頂點e來說Te是它的權重。頂點e1與頂點e2之間是否有通路以及頂點之間的距離,由m步主題關系決定。如果e1到e2在m步主題關系矩陣中有對應的值q,則兩個頂點這間有通路,相關度為q。我們把這種圖稱之為文本T的主題語義圖ADTopicG(T)。
對于無向圖ADTopicG(T)來說,按圖的連通性原理,可以將其切分成若干連通區(qū)域Reg1Reg2…Regn,同一個區(qū)域的兩個頂點有通路,不同區(qū)域的頂點之間則無通路。我們認為同一個區(qū)域內的所有頂點在語義上有相關性,不同的區(qū)域之間語義上相關性差,或者沒有相關性。因而本文把一個連通區(qū)域作為一個整體來對文本T做語義抽取,將該區(qū)域內頻率最高的前幾個頂點作為該區(qū)域的主題,因為這些頂點可以看成是該區(qū)域內的語義匯聚中心點。
對于ADTopicG(T)中的任意一個連通區(qū)域,把其當作一個整體統(tǒng)計它在整個圖中的權重,某個區(qū)域的權重越大說明它對文本的語義貢獻越大。
2、 分類
為進行有效的語義主題發(fā)現(xiàn),本文按以下步驟來實現(xiàn):
首先,令E={e1,e2…en }為網(wǎng)絡文本的語義主題空間,其中,ei表示第i 個主題,即第i個開放類;
第二步,找出一段網(wǎng)絡文本所有的候選詞條ts,把所有候選詞條的開放分類全部作為這段文本的語義主題侯選項;
第三步,對于一個侯選語義主題e而言,用其在短文本T中的統(tǒng)計量來表示e成為T的語義主題可能性,記為p(e|T);
第四步,按本文分類思想的觀點,含義表達相似的網(wǎng)絡短文本,其語義主題具有相似的統(tǒng)計性。所以,本文找出同屬一類的網(wǎng)絡文本集合,再對這個集合中所有文本進行訓練,統(tǒng)計出這類文本的所有侯選語義主題出現(xiàn)次數(shù)。
相似度計算按統(tǒng)計主題數(shù)據(jù)采用余弦法進行計算。
分類選取:那么對于一個未知分類文本T,本文取與其語義相似度最大的類別作為其分類。
3、成果形式
以java應用程序的形式,實現(xiàn)基于百度百科的文本分類。
4、擬解決的關鍵問題:
文本類別之間相關性較大時,基于百度百科的文本分類的表現(xiàn)不是太好,可以通過類別主題權重向量的正交化來改善.另外,百科詞條的質量和網(wǎng)絡文本的簡寫方式對該方法的影響也較大,這些困難還一時難于克服。
5、研究思路、方法和步驟:
我們認為可以利用百度百科知識關系來把一段文本從外延詞條集合映射到能體現(xiàn)其內涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計規(guī)律性來計算文本與文本、文本與類別之間的相似度,進而完成文本分類.這可以有效地避開窮舉詞條的統(tǒng)計方式,解決傳統(tǒng)文本分類算法需要大量訓練數(shù)據(jù)和無法應對網(wǎng)絡詞匯和新生詞匯的難題,從而可以用來對表述不規(guī)范的網(wǎng)絡文本做分類。
因而,本文提出基于百度百科的網(wǎng)絡文本分類方法,該方法不需要大量的訓練數(shù)據(jù),不僅對表述不規(guī)范的短文本有效,而且在表述規(guī)范的長文本上的也達到很好的分類效果.其主要過程有以下幾步:
(1)建立一個百科詞庫前綴關系;
(2)對于一段未知文本T,利用百科詞庫前綴關系,進行快速詞條發(fā)現(xiàn),找出所有可能涉及的詞條;
(3)統(tǒng)計所有發(fā)現(xiàn)的百科詞條的開放分類,用來作為文本的侯選語義主題,并形成主題權重向量;
(4)對訓練數(shù)據(jù)中的每一個類別,分別計算該類別的主題權重向量并正交化,以避免類別之間相互交叉
影響;
(5)按向量相似度算法計算T 與已知類別的相似度和T 的語義離散度,根據(jù)語義離散度值選取相似度最高的前N 個分類作為T 的分類。
6、本課題的進度安排:
(1) 數(shù)據(jù)收集:
分別從網(wǎng)易上下載有關:足球、音樂、電影、政治、軍事、股票、手機、汽車。各類2000篇以上
以足球數(shù)據(jù)為例:下載所有 西甲 英超 意甲 滾動新聞,將html內容轉換成t*t,所有文件以該新聞標題命名。并各自形成一個目錄。下載地址:西甲http://sports.163.com/special/00051F1O/more*jnews.html、英超http://sports.163.com/special/m/00051F15 ……(未完,全文共7321字,當前僅顯示2571字,請閱讀下面提示信息。
收藏《論文開題:基于百度百科的中文文本分類》)