catar-文献内容探勘工具内容摘要:

213 5 MAYER RE 323 15 TABER KS 196 6 VYGOTSKY LS 259 16 OSBORNE J 195 7 TSAI CC 250 17 BROWN AL 184 8 CHI MTH 249 18 SHULMAN LS 180 9 *AM ASS ADV SCI 246 19 AIKENHEAD GS 178 10 LAVE J 242 20 TOBIN K 176 Data are from the CR field of each record: CR ROTH WM, 1997, SCI EDUC, V6, P373 20 Most Cited Journals Data are from the CR field of each record: CR ROTH WM, 1997, SCI EDUC, V6, P373 rank J9 DF rank J9 DF 1 J RES SCI TEACH 4707 11 COMPUT HUM BEHAV 622 2 SCI EDUC 3368 12 LEARN INSTR 622 3 INT J SCI EDUC 2927 13 EDUC RES 618 4 COMPUT EDUC 1668 14 COGNITION INSTRUCT 581 5 J LEARN SCI 899 15 J EDUC COMPUT RES 562 6 J EDUC PSYCHOL 877 16 EDUC PSYCHOL 523 7 ETRamp。 DEDUC TECH RES 829 17 STUDIES SCI ED 468 8 REV EDUC RES 825 18 RES SCI EDUC 446 9 J COMPUT ASSIST LEAR 737 19 J CHEM EDUC 443 10 BRIT J EDUC TECHNOL 717 20 INSTR SCI 433 21 主題歸類分析 • 索引建立 • 相似度計算 • 文件歸類 建立 主題樹 • 類別標題詞擷取 • 多階段歸類 建立 高階主題樹 • 多維縮放 (MDS) 建立 主題地圖 • 主題與各項資料的交叉分析 22 索引建立 • 書目對分析: –建立書目對強度矩陣 –計數並正規化引用次數 • 共現字 (與任何文字 )分析: –刪除停用詞( the、 of、 for、 on、 and, at, … ) –正規化詞彙(消除單複數、被動、進行式的差異 ) –擷取關鍵片語( 已專利之技術 [Tseng, 2020, JASIST]) –建立詞彙到文件的反向索引資訊檔案 23 相似度之計算 文 件 A 文 件 B 詞彙 1 詞彙 2 詞彙 T 共現字 相似性 文 件 A 文 件 B 文獻 1 文獻 2 文獻 M 書目對 相似性 nnnnnnsssssssss212222111211D1 D2 Dn D1 D2 Dn nnnnnnsssssssss212222111211D1 D2 Dn D1 D2 Dn M=9957 for 318 EEPA papers T=2529 for 318 EEPA papers Sim(A, B) = 2x|S(A)∩S(B)| |S(A)|+|S(B)| 24 主題樹 • 根據相似度 (距離 )矩陣,進行凝聚階層歸類agglomerative hierarchical clustering (AHC) – Complete link criterion – Dendrogram 主題樹 25 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D16 D17 門檻: 結果: 6類 主題樹範例 (電影新聞資料 ) • 1(7): 161 : 7 Docs. : (美國 : ) – 2 : 4 Docs. : (美國 : ) • 13 : 101765 : 20200101:納尼亞傳奇 美國片 • 55 : 113371 : 20200319:V怪客 美國片 • 48 : 109839 : 20200312:北國性騷擾 美國片 • 1 : 98663 : 20200108:惡狼 ID 美國片 – 32 : 3 Docs. : (影迷 : , 美國 : ) • 14 : 2 Docs. : (影迷 : , 絕命終結站 : , 絕命 : , 飛車 : , 雲霄飛車 : ) – 11 : 101543 : 20200115:奪魂鋸 2美國片 – 27 : 104778 : 20200226:絕命終結站 3雲霄飛車驚魂 • 16 : 102575 : 20200108:偷穿高跟鞋 美國片 • 9(3): 28 : 3 Docs. : (傑克 : , 李安 : , 傑克基倫霍 : , 基倫霍 : , 希斯萊傑 : ) – 17 : 2 Docs. : (李安 : , 傑克 : , 斷背山 : , 希斯萊傑 : , 傑克基倫霍 : ) • 3 : 98770 : 20200122:李安靠 斷背山重拾熱情 • 7 : 100886 : 20200122:斷背山 美國片 – 21 : 104156 : 20200226:鍋蓋頭 美國片 • 12(3): 74 : 3 Docs. : (奶油 : , 絕配 : , 料理 : , 凱特 : , 尼克 : ) – 58 : 2 Docs. : (番紅花 : , 凱特 : , 番紅花醬汁 : , 尼克 : , 鮮奶 : ) • 68 : 397612 : 20200825:料理絕配 跟著男主角做義國菜 • 71 : 403973 : 20200825:料理絕配 跟著女主角做法國菜 – 69 : 398615 : 20200825:料理絕配 看電影學用餐禮儀 26 類別 序號 與篇數 類別 編號 (下一階使用 ) 與篇數 相似度 類別標題詞 類別標題詞自動擷取 • 歸類後,自動擷取類別特徵詞,作為類別標題 – 結合「相關係數」及「詞頻」排序詞彙,可獲顯著成效 YuenHsien Tseng, Generic Title Labeling for Clustered Documents, Expert Systems With Applications, Vol. 37, No. 3, 15 March 2020, pp. 22472254 . T N )+F P )(F N+T N )(T P+F N )(F P+(T P)FP F NT N TP(),( CTCo Te r m T Y e s No Y e s TP FN Ca te g o r y C No FP TN 27 多階段歸類示意圖 Docs. Concepts Topics Outliers:低於門檻,無法歸入類別者 第一階段 第二階段 每一階段 均為 獨立的 凝聚階層歸類 (AHC) 28 主題地圖 • MDS (MultiDimensional Scaling,多維縮放 ) –將 n個物件,總共 n(n1)/2個相似度關係,投影到 2或 3維空間上,以便於視覺化其關係 29 6. Biomedicine 5. Material 3. Generality 2. Electronics and Semiconductors 4. Communication and puters NSC美國專利文獻主題地圖 2 5 d o cs. : 0 . 2 2 8 0 5 4 ( em is s io n : 1 8 0 . 1 , f ield :1 7 7 . 2 , em it ter :1 5 7 . 1 , ca th o d e:1 0 8 . 4 , f ield em i s s i o n : 8 8 . 0 ) + 2 3 d o cs. : 0 . 4 2 4 7 8 7 ( em it ter :1 8 7 . 0 , em i s s io n :1 4 1 . 9 , f ield :1 4 1 . 4 , ca th o d e:1 2 9 . 0 , f ield e m is s io n :1 0 4 . 7 ) + 19 d o cs . : 0 .6 9 3 7 7 0 (e m i t t er: 1 3 9 .7 , f ield e m is s io n :1 3 2 . 0 , ca th o d e: 9 6 . 0 , elec tr o n : 6 7 . 1 , d is p lay : 6 1 . 9 ) + I D= 2 :。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。