term frequency-inverse document frequency

NLP自然語言處理tf-idf 三個基本應用【更新中】

Submitted by neurta on Sat, 05/11/2019 - 14:16
任務三:如何通過詞頻,對文章進行自動摘要 信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。 "自動摘要"就是要找出那些包含信息最多的句子。 句子的信息量用"關鍵詞"來衡量。如果包含的關鍵詞越多,就說明這個句子越重要。 Luhn提出用"簇"(cluster)表示關鍵詞的聚集。所謂"簇"就是包含多個關鍵詞的句子片段。
var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?44d5929b98ed1fd093ffc3d47ec712b9"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); document.writeln("");