您好,歡迎您訪問鴻圖出書網!
您以後的地位:主頁 > 舊書出書 >

台灣理工大學出書社強勢出書朱先生學術專著

閱讀次數: 次     宣布日期:2017-04-25
內容提綱(後附三級目次):
本書以文本數據爲研討對象,對文本發掘中的若幹焦點技術停止研討,重要包含文本特點選擇、文天職類、文本聚類、文本聯系關系剖析,其研討內容和立異點以下:
(1)文本特點選擇:起首體系地剖析了經常使用的文本特點選擇辦法,總結了它們的缺乏;然後提出了優化的文檔頻、文本特點鑒別才能、類內集中度等概念;緊接著,在此基本上給出了三種新的文本特點選擇辦法:①基于綜合啟示式的文本特點選擇辦法;②基于差異對象對集的文本特點選擇辦法;③基于二進制可辨矩陣的文本特點選擇辦法。試驗成果註解:在微均勻F1和宏均勻F1方面,這三種辦法比三種經典的文本特點選擇辦法“互信息”和“統計量”和“信息增益”都要好,而且前一個辦法優于後兩個辦法。
(2)文天職類:起首對文天職類所觸及的各項技術停止了論述;然後把粗拙集用于文天職類;緊接著提出了基于辨識集的屬性約簡算法和基于規矩綜合質量的屬性值約簡算法,並將其運用到文天職類規矩的提取中。試驗成果註解,其生成的規矩屬性較少,分類精確率和召回率都較高。
針對傳統ID3算法偏向于選擇取值較多的屬性的缺陷,起首引進屬性主要性來改良ID3算法,然後又進一步依據ID3算法中信息增益的盤算特色,應用凸函數的性質來簡化ID3算法,從而削減了信息增益的盤算量,進而進步ID3 算法中信息增益的盤算效力。試驗證實,優化的ID3 算法與原ID3 算法比擬,在結構決議計劃樹時具有較高的精確率和更快的盤算速度,而且結構的決議計劃樹還具有較少的均勻葉子數。
(3)文本聚類:經由過程對K-Means算法細心剖析,發明該算法會因初始聚類中心的隨機性而發生動搖較大的聚類成果。爲處理這個成績,本書改良了模仿退火算法並用它來優選初始聚類中心,從而獲得一種合適于文本數據的聚類算法。該算法把改良的模仿退火算法和K-Means算法聯合在壹路,從而到達既能施展模仿退火算法的全局尋優才能,又可以統籌K-Means的部分尋優才能,較好地戰勝了K-Means算法對初始聚類中心敏感、輕易墮入部分最優的缺陷。試驗註解該算法不只生成的聚類成果質量較高,並且其動搖性還較小。
因為缺少類信息,使得無監視文本特點選擇成績壹向很難較好地被加以處理。爲此,本書對該成績停止了研討並提出了兩種新的無監視文本特點選擇辦法:①聯合文檔頻和K-Means的無監視文本特點選擇辦法。該辦法重要是把有監視文本特點選擇的思惟引入到無監視文本特點選擇當中,戰勝了聚類時缺少類的先驗常識的缺乏,可以或許較好地處理無監視文本特點選擇的成績;②聯合新型無監視文檔頻和基于論域劃分的無決議計劃屬性的決議計劃表約簡算法的無監視文本特點選擇。該辦法不只在必定水平上可以或許處理無監視文本特點選擇成績,並且還進一步擴大了粗拙集實際的運用規模。
(4)文本聯系關系剖析:最頻仍項集發掘是文本聯系關系剖析中研討的重點和難點,它決議了文本聯系關系剖析算法的機能。本書起首剖析了以後在最頻仍項集發掘方面的缺乏;然後改良了傳統的倒排表;緊接著聯合最小支撐度阈值動態調劑戰略,提出了一個新的基于改良倒排表和聚集實際的Top-N最頻仍項集發掘算法;最初對所提算法停止驗證。別的,還給出了幾個命題和推論並把它們用于所提算法以進步機能。試驗成果註解,所提算法的規矩有用率和時光機能比經常使用的兩個Top-N最頻仍項集發掘算法:NApriori算法,IntvMatrix算法都好。
上一篇:溪客師長教師《在絲綢之路經濟帶焦點區建立中兵團的功效定位研討》新作出書
下一篇:沒有了

壹切材料均源于網上的同享資本及期刊同享,請特殊留意勿做其他不法用處。若有侵占您的版權或其他有損您好處的行動,請聯系指出,鴻圖出書網會實時停止糾正刪除有關內容!

版權壹切:鴻圖出書網 Copyright@2017-2019 ICP立案:豫ICP備7693號-2 技術支撐:興弘海科技

地址:台灣·臺北市華夏區建立西路鑫苑國際廣場二單位7樓 二十四小時征詢電話:153