Skip to content

論文程式存放:對 USPC 2006 年至 2016 年間分類編號 700 類別(軟體相關)的專利文檔,使用 Jieba 進行斷詞、TF-IDF 及 Word2Vec 處理向量,並嘗試用 CNN、XGBoost、隨機森林來建立專利創新度的模型

Igouist/Thesis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

論文相關的程式碼備份

資料:USPC 2006 年至 2016 年間分類編號 700 類別(軟體相關)的專利文檔

實作步驟:

  • 專利擷取
    • 連線至實驗室 MongoDB 取得專利資料特定欄位
  • 預處理
    • 斷詞
    • 去停用詞
    • 詞性還原
    • 短語識別
  • 詞向量計算
    • TF-IDF
    • Word2Vec
    • 嘗試不同作法的詞向量計算
  • 原創性評估
    • 由專利資料中根據前人研究的原創性公式進行分類
    • 機器學習模組
      • CNN
      • XGBoost
      • Random Forest
    • 比較模組成功率

About

論文程式存放:對 USPC 2006 年至 2016 年間分類編號 700 類別(軟體相關)的專利文檔,使用 Jieba 進行斷詞、TF-IDF 及 Word2Vec 處理向量,並嘗試用 CNN、XGBoost、隨機森林來建立專利創新度的模型

Topics

Resources

Stars

Watchers

Forks

Languages