Python爬蟲-從3GPP歷年會議紀錄分析企業標準化策略
- 自動下載excel檔中所有zip檔案並
- 解壓縮,並過濾pdf與excel檔案
- 使用Excel VBA將doc轉換成docx
- 爬取所有整理好的docx檔
- 檢視爬取失敗的檔案
- 新增WIR所屬企業:從WIR name, WIR email整理
- 新增下載狀況:該WI是否有連結、以及是否有下載成功
- 新增專案完成度:以專案是否完成取代專案完成比率
- 新增TSG分類:分成RAN、SA、CT
- 整理爬下來的supporting member表格
- 統一WI表格中WIR與SUP企業名稱
- 統一supporting member表格中WIR與SUP企業名稱
- 合併WI表格到supporting member表格中
- 整理company overview表格:所有企業在不同版本參與WI次數
- 拆分成TSG和RAN兩個版本輸出
- Generate Dyad data (for Ucinet) - supporting member to rapporteur
- 建立Dyad資料-依變數、自變數、控制變數
- 篩選提交至Work plan之specification資料並補上SPR企業
- 整理表格資料
- 設定Tech Across Type: 技術跨越型態
- 整理Primary Resp Grp(C, S, R)至TSG欄位
- 統一企業名稱
- 新增Country: SPR企業所屬國家
- 趨勢圖分析
- 華為在不同技術時代下之資源策略佈局
- Top 10 國家參與程度 (retired)
- 不同技術時代與TSG-企業/國家投入程度
- 企業/國家投入在跨技術程度
- 其他分析
- 各技術時代中,未提交至WP之spec數量
- 企業投入最多之spec與次數
- 各spec所更新之總版本數量
- 爬取parent spec和child spec的連結
- 以企業名稱呈現parent & child之連結
爬取SPR變更紀錄