資訊檢索之策略與技巧邱子恒ppt download - SlidePlayer

文章推薦指數: 80 %
投票人數:10人

利用引用文獻滾雪球法所得到最終的結果與利用分區組合檢索、主題層面配對檢索和主題層面連續檢索的結果相同嗎?其間所產生的詞彙和你自己分析的詞彙有什麼異同? 上传 请登录 Mypresentations Profile 反馈 Logout 搜索 请登录 请登录 Authwithsocialnetwork: 注册 忘记密码? Downloadpresentation Wethinkyouhavelikedthispresentation.Ifyouwishtodownloadit,pleaserecommendittoyourfriendsinanysocialsystem.Sharebuttonsarealittlebitlower.Thankyou! Buttons: 取消 Download Presentationisloading.Pleasewait. 資訊檢索之策略與技巧邱子恒[email protected]. PublishedbyBrittLund Modified2年之前 嵌入 Downloadpresentation Copytoclipboard Similarpresentations More Presentationontheme:"資訊檢索之策略與技巧邱子恒[email protected]."—Presentationtranscript: 1 資訊檢索之策略與技巧邱子恒 2 大綱資訊檢索之基本概念檢索策略檢索技巧 3 I.資訊檢索之基本概念資料庫之概念IS&R自然語言vs.控制字彙precisionvs.recall布林邏輯運算元切截相近運算元Knownitemsearchvs.subjectsearch 4 資料庫之概念資料庫簡單的說就是資料的倉庫;廣義來說,只要是將資料聚集在一起存放的地方,我們就可以稱之為資料庫資料庫簡單的說就是資料的倉庫;廣義來說,只要是將資料聚集在一起存放的地方,我們就可以稱之為資料庫在此所稱的資料庫係指利用電腦當做存放處,透過程式的運用來存取利用者資料庫中包含了非常多的檔案,而每一個檔案中又包含了很多的記錄,這些記錄則必須藉由欄位來呈現只有欄位中有的資料才能夠被檢索,即便是全文檢索工具,也必須在提供全文檢索的欄位鍵入檢索資料才能進行檢索 5 資料庫之概念 6 資料庫之概念不同的資料庫根據收錄的內容不同,其所規劃的欄位並不完全相同,不過大致說來大同小異,不同的資料庫根據收錄的內容不同,其所規劃的欄位並不完全相同,不過大致說來大同小異,以「臺灣期刊論文索引系統」來說,這個資料庫將每一筆收錄進來的記錄規劃成「篇名」、「作者」、「關鍵詞」、「刊名」、「類號」、「摘要」、「全文」及「出版日期」等八個欄位。

在檢索時使用者可以選擇以不同欄位來相互結合(AND、OR、NOT),讓結果檢索更精確。

7 資料庫之概念 8 資訊儲存與檢索(IS&RModel) 9 索引作業檢索作業資料需求分析內容分析需求選擇關鍵詞選擇關鍵詞索引典轉譯轉譯資料庫系統關鍵詞系統關鍵詞檢索結果關鍵詞比對 10 自然語言(NaturalLanguage,NL)自然語言是相對於人工語言的一種人類語言,也是最合乎人類教談行為的溝通方式,它依循著人類自然進化而發展,成為人和人之間溝通的最基本工具,如中文、英文、日文等都是自然語言。

系統中的自然語言索引法是自文獻正文中直接選取字彙成為關鍵詞,因此檢索者可以直接使用平日熟悉的詞彙進行檢索,在表達上較為自由,也不需要特別的工具及訓練,檢索者即使沒有受過檢索的訓練也可以滿足需求,對於檢索者來說是非常方便的。

11 自然語言之優點對於很多新的概念,只要系統有收錄,詞彙鍵進去搜尋就可以找到;像是醫學或是科技等新資訊不斷推出的學科,使用自然語言很容易就可以找出相關的資料。

在資訊科技突飛猛進的今日,系統可以自動比對文獻的全文,提高檢索的回收率,同時又可以節省系統廠商製作控制字彙的成本。

12 自然語言之缺點只對字彙進行比對,沒有處理概念的問題,因此一些同義字、類同義字、有層次附屬關係或是文獻中若有隱含概念者,在檢索結果裡便無法呈現檢索「原住民」只能看到有出現「原住民」這三個字的文獻,而探討「阿美族」等各原住民族的文獻就無法被找到。

僅僅比對字詞很多時候會造成語意不清或斷詞問題的情形想要找有關「讀書會」的文章,很可能會找到像是「好好讀書會賺大錢」之類的文章,造成檢索結果的精確率大大下降這種情況在檢索人文學科與社會科學相關資料時很常發生。

13 NL檢索時因應之道為因應這些情況,有些系統在使用自然語言索引法時,會有將檢索結果依照「相關程度」排序機制,讓高相關度的文獻在前面出現,以節省檢索者的時間另外檢索者除了多用同義字檢索進行OR聯集之外,也可以利用切截或是相近運算元來提高檢索結果的相關程度 14 控制字彙(ControlVocabulary,CV)控制字彙是指系統廠商運用一套標準的控制字彙方法,在收錄文獻時,便針對該文獻的內容給予系統內制定的控制字彙,如此一來不論是同義詞、類同義詞及有層屬概念的文獻都可以檢索出來。

透過控制字彙的機制,也可以避免自然語言容易檢索出語意不符的文獻之問題。

15 控制字彙之缺點其最大的問題便是控制的工具更新不易,使得新概念出現後,無法很快的被加入,在分析時可能會被歸入檢索者較意外的概念之下,因此檢索者便無法掌握到新概念的資料。

控制工具必須要有專業人員來設計,檢索者也需要花時間學習其設計的概念,萬一無法掌握設計的理念,或是對於檢索方法不夠瞭解,則結果很可能令人不滿意;不同的索引者可能造成索引不一致的問題,且詞彙限於控制工具內,較不具彈性。

16 控制字彙標題表(MedicalSubjectHeading)索引典ScopenoteBTNTRTUse/Usefor 17 標題表(SubjectHeadings)LCSH=LibraryofCongressSubjectHeadingsMeSH=MedicalSubjectHeadings是“控制字彙”的工具(vs.自然語言)以“詞彙”來表達文獻內容的“主題” 18 標題表(SubjectHeadings)按字母順排序,以BT,NT,RT(SA=Seealso)來表現詞彙間的關係BT=廣義詞NT=狹義詞RT=相關詞Use(See)=指引使用者由系統不用的詞到系統選用的詞例:CancerUSENeoplasms 19 MeSH之例子–範圍註定義 20 MeSH之例子—範圍註相關詞不用的詞 21 MeSH之例子–樹狀結構 22 MeSH之例子–複分 23 回收率&精確率b+da+cdcbaRecall(回收率/查全率)&Precision(精確率/查準率)不相關相關總數dc未檢索到ba檢索到不相關相關 24 查全率=a/(a+c)查準率=a/(a+b)相關無關cdab 25 回收率&精確率理想的狀況中,我們希望相關的文獻都被檢索出來,同時所有不相關的文獻都不要出現,如此一來精確率和回收率就都會達到100%。

理想的狀況中,我們希望相關的文獻都被檢索出來,同時所有不相關的文獻都不要出現,如此一來精確率和回收率就都會達到100%。

但現實的情況中,卻不可能有這樣的情形發生,而且當回收率越高時,精確率往往會下降,反之亦然。

也就是說,當我們希望提高系統中相關文獻被檢索出來的比例時,不相關的文獻被檢索出來的機率也跟著被提高,如此一來檢索到的文獻母體變大,便會拉低精確率。

26 布林邏輯(AND、OR、NOT)AANDBAANDBANDCAORBAORBNOTC 27 AND交集AND必須要同時包含被連結的檢索用語,即是所有檢索用語交集的結果 28 OR聯集OR則是只要包含其中一個檢索用語,就是檢索用語相互聯集的結果 29 NOT剔除使用這個運算元時,其結果必須要包含前面的檢索用語,但是不能包含在後面的檢索用語,也就去剔除的概念。

30 切截(truncation)Library,libraries,librarian,librarians,librarianship-->lib*(單複數,詞性不同,使用右切截)Woman,Women-->Wom#n(單複數,使用中間切截)Color,Colour-->Colo#r(美式/英式拚音,使用中間切截) 31 切截每個系統用來代表切截的符號不盡相同,常用的符號為「*」、「#」和「?」等,在使用前需要先閱讀系統介紹才能夠正確的使用。

每個系統用來代表切截的符號不盡相同,常用的符號為「*」、「#」和「?」等,在使用前需要先閱讀系統介紹才能夠正確的使用。

使用切截可以便利檢索者,但如果使用不當,便很容易造成資料過多或是誤引的情形,需要多加留意。

32 相近運算元(adjacent/near)相近運算元的概念主要在限制二個字詞間的緊鄰程度使用相近運算元,可指定字詞前後順序是否可以對調,或是二個字詞間可相距多少個字相近運算元多用在檢索複合詞,透過限制二個詞彙間的距離,來將此二個詞彙結合成為一個複合詞,以增強檢索結果的精確程度要特別注意的是,布林邏輯「AND」的概念是分別檢索二個詞彙,再比對出其中交集的部分,檢索的結果中,會出現此二個詞彙,但和由此二個詞彙所結合的複合詞是不完全相同的。

因此要檢索複合詞時,利用相近運算元可以降低檢到不相關資料的筆數。

33 相近運算元(adjacent/near)ANALOG*ADJ1DIGITAL*(1999)ANALOG*NEAR1DIGITAL*(1999) 34 Knownitemsearch已知書目之檢索,即精確檢索用已知的書目資料來檢索,包括:作者,題名,期刊名,出版商,出版年…etc. 35 Subjectsearch主題檢索想檢索一下到底有那些關於某主題的文獻存在 36 II.檢索策略針對一檢索問題之通盤考量或全面性規劃分區組合檢索法(BlockBuilding)引用文獻滾雪球法(CitationPearlGrowing)簡易檢索(Briefsearch)主題層面連續檢索(successivefacetstrategies)主題層面配對檢索(pairwisefacetsstrategies) 37 分區組合檢索法1.選擇資料庫2.確定問題之主要概念及其布林邏輯關係3.依序找出代表每個概念之所有詞彙4.將各概念下所有詞彙以“OR”連結5.將步驟4所得結果以步驟2所決定之布林邏輯關係進行結合6.依步驟1至步驟5規劃檢索敘述7.輸入檢索敘述8.評估檢索成果 38 分區組合檢索法示意圖 39 40 引用文獻滾雪球法事先掌握一篇或數篇相關文章,利用這些相關文章找尋更多相關的文章,如此相關文章就像雪球一樣越滾越大.事先掌握一篇或數篇相關文章,利用這些相關文章找尋更多相關的文章,如此相關文章就像雪球一樣越滾越大.在資訊檢索上的應用:以相關文章的關鍵字或敘述語繼續檢索是由precision反向追求recall的方法通常必須進行多次檢索,才能找到足夠的相關文章 41 引用文獻滾雪球法例子:要找與「部落格(blog)」相關的文獻一開始要先找出幾篇重要的基本文獻,在第一次檢索時可使用「部落格」及「blog」這二個字進行檢索。

直接使用這二個字檢索時,可以找到像是《部落格(Blog)之特質與發展現況:應用於圖書館服務之探討》(洪淑芬,民94)、《網路社群新勢力:Blog》(溫明正,民94)等兩篇文章,可以將其當作所掌握的基本文獻。

從這二篇文章中,可以發現文章的關鍵字欄位除了「部落格」、及「blog」外,還會使用「網誌」、「網路社群」、「網上日記」、「博客」等字關鍵詞,便可以進一步利用這些詞彙再做第二輪的檢索。

找到幾篇文章後,我們可以查看文章後面的引用文獻,因為在寫部落格主題時所參考的文章,基本上都會和部落格有一定程度的關係,這也是可以參考的資料。

42 簡易檢索最常見的檢索通常用簡單的幾個關鍵字,加上布林邏輯的組合快速,同時檢索到的文章不多,recall低適用情形:檢索者只想閱讀“幾篇”相關文章執行已知書目檢索時檢索概念相當專指(specific)時 43 主題層面連續檢索在決定檢索問題的主題層面之後,必須確認各主題層面的優先順序.在決定檢索問題的主題層面之後,必須確認各主題層面的優先順序.在最專指概念或是可能產生最少資料的概念輸入系統後,如果產生太多資料,再輸入其他次要概念與之結合.直到檢索者認為檢索筆數可以接受為止. 44 主題層面連續檢索示意圖 45 想找2000-2005年間,討論和「大學圖書館是否應該收藏漫畫書」相關的文獻 46 主題層面連續檢索適用情形:當所有主題層面以布林運算元結合,可能產生零筆資料時當檢索問題中有一至二個主題層面涵義相當模糊時當所有主題層面以布林運算元結合,可能產生零筆資料時當檢索問題中有一至二個主題層面涵義相當模糊時當檢索問題具備其他非主題之檢索條件時(如:資料類型,語文,出版年代),可將此非主題檢索條件視為第一個檢索概念 47 主題層面連續檢索適用情形:(續)當檢索者寧願忍受誤引,而不願失去相關文章時當加入其他主題層面所花費的時間和金錢,可能會超過直接列出檢索結果,每筆一一審視時當相關文獻過少,檢索者願意檢視一些相關度較低的文章時 48 主題層面配對檢索是先將主題層面兩兩配對,並取其交集也就是取任意二主題層面的交集而後聯集之適用情形:當所有主題層面都同樣重要時當主題層面之專指性或模糊性相差不大時當將所有主題層面結合可能導致零筆資料時 49 主題層面配對檢索示意圖 50 想找「台北的氣候是否對交通產生影響」的相關文獻 51 比較圖 52 課程活動(可分組討論)請先想一個問題並以臺灣期刊論文索引系統來查檢分析出這個問題有哪些主題層面,並列出可以代表該主題層面的詞彙。

分析出這個問題有哪些主題層面,並列出可以代表該主題層面的詞彙。

分別利用分區組合檢索、主題層面配對檢索和主題層面連續檢索三種方式檢索該資料庫,並比較其結果。

哪一種結果是你最滿意的? 53 課程活動從檢索結果中選擇一篇你認為非常相關的文章做為你的「珍珠」,由該篇文章開始使用引用文獻滾雪球法,直到找出的資料讓你滿意為止,其中產生了哪些你需要的詞彙?總共進行了多少次的檢索動作?利用引用文獻滾雪球法所得到最終的結果與利用分區組合檢索、主題層面配對檢索和主題層面連續檢索的結果相同嗎?其間所產生的詞彙和你自己分析的詞彙有什麼異同? 54 III.檢索技巧為完成特性目的所採取的行動當檢索所得資料筆數過多時(通常指誤引太多)當檢索所得資料筆數過少時(包括零筆資料)當檢索者想提高recall時當檢索者想提高precision時 55 當檢索所得資料筆數過多時是否過份簡化問題?是否需要重新釐清檢索概念?是否使用了正確的布林邏輯運算元?是否使用過份含混或一般性之名詞?是否應考慮使用控制字彙?是否相近運算元限制過鬆?是否切截應用過鬆? 56 當檢索所得資料筆數過少時是否將問題過份複雜化?是否真有文獻探討該主題?是否每個概念都使用足夠的檢索詞彙來表達?是否相近運算元限制過緊?是否使用了正確的布林邏輯運算元?是否有語法或拼字上的錯誤?是否該改用自然語言進行檢索?是否考慮使用切截? 57 當檢索者想提高recall時增加同義詞和類同義詞的數目使用較廣義的檢索詞彙以自然語言檢索代替控制字彙檢索檢索其他主題欄位刪除布林邏輯運算元“AND”及“NOT”增加切截的範圍使用較鬆的相近運算元刪除一些非主題之檢索限制(如:年代,資料類型)刪除一主題層面 58 當檢索者想提高precision時刪除部份類同義詞或是詞意含糊的檢索詞彙使用專指性較高的詞彙進行檢索當有適當的控制字彙工具時,盡量使用其來代替自然語言增加一主題層面使用“NOT”除去不相關文章減弱切截的範圍加上非主題之檢索限制(如年代,資料類型) Downloadppt"資訊檢索之策略與技巧邱子恒[email protected]." Similarpresentations 行銷研究單元三次級資料的蒐集. 練習查找研究主題使用免費網路課程教材利用網路熱門主題 石牌金頭腦概數篇(可複選)加油哦!. 認識倍數(一)設計者:建功國小盧建宏. 陳維魁博士儒林圖書公司第九章資料抽象化陳維魁博士儒林圖書公司. 資訊檢索策略與技巧黃慕萱,Chap.6Harter,Chap.7. 黃慕萱國立台灣大學圖書資訊學系教授兼系主任中華民國九十一年五月二十七日 臺北市立大學資訊科學系(含碩士班)賴阿福 OVIDMedlinevs.PubMed邱子恆 9/28號專題報告Web網頁遊戲曾建瑋. 2-3基本數位邏輯處理※. 第八章利用SELECT查詢資料. Endnote書目資料匯入-西文資料庫. SQLStoredProcedureSQL預存程序. 電腦類相關資料庫. MEDLINEwithfulltext(EBSCO) 通識教育中心邱子恒資訊檢索之理論與實作通識教育中心邱子恒 2017OperatingSystems作業系統實習助教:陳主恩、林欣穎實驗室:720A. 檢索類型參考資料黃慕萱,Chap.7. EBSCOhostApp應用程式安裝方式. Similarpresentations Aboutproject SlidePlayer 条款 反馈 隐私 反馈 ©2021slidesplayer.comInc.Allrightsreserved. 搜索 Tomakethiswebsitework,weloguserdataandshareitwithprocessors.Tousethiswebsite,youmustagreetoourPrivacyPolicy,includingcookiepolicy. Iagree.     AdsbyGoogle



請為這篇文章評分?