大學本科畢業(yè)論文(設計)開題報告
學院:計算機科學與技術 專業(yè)班級:08軟件工程A班
課題名稱 基于百度百科的網(wǎng)絡文本檢索
1、本課題的的研究目的和意義:
網(wǎng)絡上存在海量的中文文本資源,其稀疏性與不規(guī)范性令以詞組統(tǒng)計方式來進行訓練和分類的傳統(tǒng)分類方法效果不佳.百度百科是一個豐富的與社會熱點、網(wǎng)絡流行緊密相關的動態(tài)中文知識庫,基于百度百科本文提出一種網(wǎng)絡文本分類方法,通過百科知識關系將文本從外延詞條集合映射到能體現(xiàn)其內(nèi)涵的語義主題空間中,再通過對文本語義主題的統(tǒng)計規(guī)律性來計算相似度,進而完成文本分類. 有效地避開窮舉詞條的統(tǒng)計方式,解決現(xiàn)有文本分類算法需要大量訓練數(shù)據(jù)和無法應對網(wǎng)絡詞匯和新生詞匯的這兩大難題.
2、 文獻綜述(國內(nèi)外研究情況及其發(fā)展):
在中文領域,很多學者致力于文本分類的研究,并產(chǎn)生了一些應用系統(tǒng),如清華大學的漢語語料自動分類系統(tǒng);上海交大朱的中文科技文獻分類系統(tǒng);東北大學的新聞語料漢語文本自動分類模型.在分類算法方面有:朱靖波等提出一種基于知識的文本分類方,將領域知識引入文本分類,利用領域知識提取文本特征;李榮陸等使用最大熵模型進行中文文本的分類;陳曉云等利用帶詞頻的頻繁模式挖掘分類規(guī)則并應用于文本分類;張博鋒等為了
……(新文秘網(wǎng)http://m.jey722.cn省略887字,正式會員可完整閱讀)……
型,將這個模型應用于未切分的測試集樣本,完成整個自動切分的過程.自2003 年國際中文分詞評測活動Bakeoff開展以來,有了統(tǒng)一的訓練與測試語料,回避了“詞”的定義這樣一個棘手的問題.通過“分詞規(guī)范+詞表+分詞語料庫”的方法,使詞語在真實文本中得到了可計算的定義,這是實現(xiàn)計算機自動分詞和可比評測的基礎.
4、 擬解決的關鍵問題:
[1] 須從百度百科上下載數(shù)量兩百多萬的詞條,會花費不少時間,并且大數(shù)量的詞條,帶來的是處理時間的負擔。所以,必須找到最優(yōu)的處理方法,盡量節(jié)省時間,提高效率。
[2]對于語義主題的判斷必須具備較高的準確度,在處理規(guī)范文本和不規(guī)范文本時要統(tǒng)籌兼顧,盡力提高識別的準確度。
5、研究思路、方法和步驟:
1. 從百度百科上下載所有詞條, 從 http://baike.baidu.com/view/1.html 開始,掃描到最后,對每個頁面抽取出詞條id、詞條名和開放分類。其中開放分類可能有多個,如’百度百科’ 分類有‘百度,百度百科,網(wǎng)絡,百科全書,百科詞典’。
2. 把每個詞條存進數(shù)據(jù)庫(MySQL),建立一個表叫’baikewords’并按名字建立索引,包括id, 詞條名 和開放分類.有些詞條的開放分類之間并非以’,’相隔,存進數(shù)據(jù)庫時需要處理成以英文符號’,’分隔,再存進數(shù)據(jù)庫。
3. 把表’baikewords’中 所有即是詞條,又是開放分類的詞條找出,存進語義主題表‘topics’,字段包括 ‘id 和 topic’ ,topic字段就是詞條名,id為該詞條在百度百科中的id。 把 topic當作語義主題。
4. 寫一段算法,把一段文本中所有潛在詞條,都查找出來。如‘南京市長江大橋在大勝關’,所有潛在詞條有如下:南京 南京市 市長 長江 長江大橋 江大(長江大學) 大橋 大勝關 。
5. 把所有劃分為同一類的文本,如‘電影’類的所有文本當作一個類文本。
6. 找出類文本中所有侯選詞條,并把這些候選詞條的開放分類全部作為該類別的語義主題侯選項,對每一個侯選語義主題都進行統(tǒng)計,并歸一化為語義主題權重:
其中, 取值為1或0,取1時表示第j個詞條和 語義相關, 反之值取0, 表示T的所有侯選詞條總數(shù),k為語義主題總數(shù),即表’topics’中的所有主題個數(shù)。
6、本課題的進度安排:
2月:彩票類型相關新聞數(shù)據(jù)采集與代碼采集,寫腳本下載2000篇彩票類型文章。
3月:百科數(shù)據(jù)收集及代碼,以及百篇計算機主題和百篇股票主題的判斷。
4月:主題提出算法。
5月:
論文撰寫。
7、參考文獻:
[1] Kim H, Howland P, Park H. Dimension reduction in te*t classification with support vector machines. Journal of Machine Learning Research, 2005,6(1):37-53.
[2] Kazama J, Tsujii J. Ma*imum entropy models with inequality constraints: A case study on te*t categorization. Machine Learning,2005,60(1-3):159-194.
[3] Liu WY, Song N. A fuzzy approach to classification of te*t documents. Journal of Computer Science and Technology, 2003,18(5):640-647.
[4] Bigi B. Using Kullback-Leibler distance for te*t categorization. In: Sebastiani F, ed. Proc. of the 25th European Conf. on Information Retrieval (ECIR-03). Pisa: Springer-Verlag, 2003. 305-319.
[5] Nunzio GMD. A bidimensional view of documents for te*t categorisation. In: McDonald S, Tai ……(未完,全文共4933字,當前僅顯示2492字,請閱讀下面提示信息。
收藏《論文開題報告:基于百度百科的網(wǎng)絡文本檢索》)