祝平次的教學網站- CText TextTools - Google Sites
文章推薦指數: 80 %
從CText直接擷取("Fetch")文本(Fetch text by URN):. 輸入URN,然後點擊「Fetch」鈕執行。
... 學而篇》是「ctp:analects/xue-er」,《荀子》是「ctp:xunzi」。
SearchthissiteSkiptomaincontentSkiptonavigationCTextTextTools網址:https://ctext.org/語言:可以在首頁頁面左上方點選「中文版」進入中文介面。
登入與註冊:請利用頁面左下方「登入」註冊新的使用帳戶,或登入已有的帳戶。
登入後可以直接在使用數位工具時,直接匯入數位文本。
數位工具頁面:https://ctext.org/plugins/texttools/功能界面置入文本:從CText直接擷取("Fetch")文本(FetchtextbyURN):輸入URN,然後點擊「Fetch」鈕執行。
系統會自動帶出文本標題URN在每個文本資料頁面的右下方,以「ctp:」開頭,例如《論語》的URN是「ctp:analects」,《論語.學而篇》是「ctp:analects/xue-er」,《荀子》是「ctp:xunzi」。
直接貼入文本區,在「Title:」後的文字欄位輸入自訂標題點擊「Save/addanothertext」暫存置入文本,以進行功能操作。
可以重覆「置入文本」=》暫存步驟,以暫存更多的文本。
由於可以自行置入文本,我們也可以將自己的資料和CText資料庫的資料進行綜合分析。
以下介紹各種功能的操作:N-gram目的:統計連續字所形成詞組的數量:1的話:「蔡英文」會被統計成「馬馬虎虎」會被統計成詞組馬虎數量222的話:「蔡英文」會被統計成詞組蔡英英文數量11「馬馬虎虎」會被統計成3的話:「蔡英文」會被統計成詞組蔡英文數量1「馬馬虎虎」會被統計成詞組馬馬虎馬虎虎數量11選項:Valueofn:要選幾字的詞組。
Minimumcount:顯示門嵌,只有在門嵌以上的數量才會被顯示。
Normalizebylength:依照(總)長度標準化。
沒有標準化之前會顯示詞頻,標準化之後則顯示百分比,亦即:詞頻∕總詞數*100。
Excludepunctuation:是否統計標點符號。
Stopatbreaks:是否在某個特定點打斷詞組的計算All:詞組不會跨過標點符號,例如「學而時習之,不亦說乎」的二字詞,將不會「之不」詞組的數量是0。
Paragraph:詞組不會跨過段落(亦即不會跨行)。
None:詞組會跨過標點符號和段落,例如「學而時習之,不亦說乎」的三字詞會出現「習之不」、「之不亦」等兩組詞。
Tokenizebycharacter:是否以個別字元為單位(請參考劉昭麟〈中文斷詞基本資訊〉)因為英文詞與詞(word)之間有空格,所以可以以空格做為切割詞的標記,但中文沒有,所以會有在那裡切出一個詞的問題。
如果勾選這個選項,系統會以字為單位去計算n-gram,如果沒有勾選,則會以標點符號做為切詞的標記。
例如「學而時習之,不亦說乎」如果不勾選這個選項,則將被祝為前一個詞是「學而時習之」,後一個詞是「不亦說乎」。
如果你的資料已經經過斷詞處理,則可以考慮不勾選這個選項進行分析。
(請參考中央研究院「中文斷詞系統」)ReportabuseReportabuse
延伸文章資訊
- 1荀子- 中國哲學書電子化計劃
《荀子》[查看正文] [修改] [查看歷史]. 該資料已通過字符識別與對應底本相連結。請參考字符識別相關使用說明,以了解如何糾正該資料中的錯字。
- 2荀子- TextRef catalog
Location, Title, Author, Edition, Features. kanripo, 荀子 · 四部叢刊. kanripo, 荀子 · 四庫全書・文淵閣. ctext, 荀子...
- 3《康熙字典考证》及应用情况 - 知乎专栏
这里引用《字典考证》 的“桃、敖”两字,看看ctext的字典情况:. 《康熙字典·木部·六》桃:《唐 ... 《荀子·富國篇》天下敖然,若燒若焦。又與螯同。
- 4博碩士論文102124007 詳細資訊
中國哲學書電子化計劃《戰國策》〈張儀說秦王〉URL =https://ctext.org/ ... 《荀子、禮論》https://ctext.org/text.pl?node=12572&if=...
- 5荀子- 中國哲學書電子化計劃
如果您想引用本網站上的内容,請同時加上至本站的鏈接:https://ctext.org/zh。請注意:嚴禁使用自動下載軟体下載本網站的大量網頁,違者自動封鎖,不另行通知。