機器翻譯(Machine Translation) — 臺灣言語工具0.6.32 說明 ...

文章推薦指數: 80 %
投票人數:10人

語料正規化. 閩南語,「我要呷飯」→「我欲食飯」. 做法. Moses摩西翻譯. 需要技術. 語言模型. 斷詞. 需要語料. 華語/母語的對應平行語料. 正規前/正規後的對應平行語 ... 臺灣言語工具 0.6 介紹 安裝 基本物件 常見情境 機器翻譯(MachineTranslation) 快速上手 開華台Moses服務 Client端 定義 Moses 用法 語料 家己安裝 Ubuntu Mac 模型訓練 模型使用 其他翻譯工具 語音合成(SpeechSynthesis) 語音辨識(SpeechRecognition) 語言模型(LanguageModel) 斷詞(WordSegmentation) 詞性標記(POSTagging) 剖析(Parsing) 重音(Stress) 變調(ToneSandhi) 語言分類(LanguageIdentification) 平行語料語句對齊(ParallelCorpusSentencesAlignment) 開發 授權聲明 臺灣言語工具 Docs» 機器翻譯(MachineTranslation) Viewpagesource 機器翻譯(MachineTranslation)¶ 工具提供Moses統計式機器翻譯介面。

快速上手¶ 開華台Moses服務¶ dockerrun--namehuatai-p8080:8080-ti--rmi3thuan5/hokbu-le:huatai HuataiDockerfile Client端¶ $dockerrun--linkhuatai-ti--rmi3thuan5/tai5-uan5_gian5-gi2_kang1-ku7:latest Python3.5.2(default,Nov232017,16:37:01) [GCC5.4.020160609]onlinux Type"help","copyright","credits"or"license"formoreinformation. >>>from臺灣言語工具.解析整理.拆文分析器import拆文分析器 >>>from臺灣言語工具.斷詞.國教院斷詞用戶端import國教院斷詞用戶端 >>>from臺灣言語工具.翻譯.摩西工具.摩西用戶端import摩西用戶端 >>>from臺灣言語工具.翻譯.摩西工具.語句編碼器import語句編碼器 >>> >>>華語句物件=拆文分析器.建立句物件('大家早安') >>>華語斷詞句物件=國教院斷詞用戶端.斷詞(華語句物件) >>>print(華語斷詞句物件.看型('','')) 大家早安 >>>台語句物件,華語新結構句物件,分數=( ...摩西用戶端(位址='huatai',編碼器=語句編碼器).翻譯分析(華語斷詞句物件) ...) >>>print(台語句物件.看型('','')) 逐家𠢕早 >>>print(台語句物件.看音()) tak8-ke1gau5-tsa2 >>>print(分數) -10.98540592193603 >>> >>>for詞物件in台語句物件.網出詞物件(): ...print(詞物件,詞物件.翻譯來源詞陣列) ... 詞:[字:逐tak8,字:家ke1][詞:[字:大,字:家]] 詞:[字:𠢕gau5,字:早tsa2][詞:[字:早,字:安]] >>>for詞物件in華語新結構句物件.網出詞物件(): ...print(詞物件,詞物件.翻譯目標詞陣列) ... 詞:[字:大,字:家][詞:[字:逐tak8,字:家ke1]] 詞:[字:早,字:安][詞:[字:𠢕gau5,字:早tsa2]] 定義¶ 輸入 指定的母語,一句語句 輸出 母語語句 範例 華語翻譯 閩南語,「我要吃飯」→「我欲食飯」 語料正規化 閩南語,「我要呷飯」→「我欲食飯」 做法 Moses摩西翻譯 需要技術 語言模型 斷詞 需要語料 華語/母語的對應平行語料 正規前/正規後的對應平行語料 Moses¶ 用法¶ 建議使用dockerimagesi3thuan5/tai5-uan5_gian5-gi2_kang1-ku7:tsuan,Moses相關程式已經編譯好–矣。

i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7:latest只編譯mosesserver服務後端程式。

語料¶ 台語、華語語料 $dockerrun--namehuatai-p8080:8080-ti--rmi3thuan5/hokbu-le:huatails/opt/hok8-bu7/服務資料/台語/翻譯語料 字詞文本.txt.gz對齊外語語句.txt.gz對齊母語語句.txt.gz 對齊外語字詞.txt.gz對齊母語字詞.txt.gz語句文本.txt.gz 家己安裝¶ Ubuntu¶ 建議直接參考Dockerfile 指令(Deprecated)¶ sudoapt-getinstall-yg++gitsubversionautomakelibtoolzlib1g-devlibboost-all-devlibbz2-devliblzma-devpython3-devlibgoogle-perftools-devlibxmlrpc-c++.*-dev#moses,libxmlrpcformosesserver sudoapt-getinstall-ycmake#mgiza Mac¶ 感謝RuLu提供做法 compileboost¶ ./bootstrap.sh--with-libraries=filesystem,system,test,thread,program_options,serialization,iostreams ./bjamstage&&sudo./bjaminstall compilemoses¶ brewinstallxmlrpc-c ./bjam-j8--prefix=$PWD--libdir=$PWD/lib64--layout=systemlink=statictoolset=clanginstall||echoFAILURE 強迫重新編譯時加-a compilegiza++¶ clu:giza-ppclu$gitdiff diff--gita/GIZA++-v2/Makefileb/GIZA++-v2/Makefile index17daae5..8defea3100644 ---a/GIZA++-v2/Makefile +++b/GIZA++-v2/Makefile @@-6,7+6,8@@INSTALLDIR?=/usr/local/bin/ CFLAGS=$(CFLAGS_GLOBAL)-Wall-Wno-parentheses #CFLAGS_OPT=$(CFLAGS)-O3-DNDEBUG-DWORDINDEX_WITH_4_BYTE-O3-DNDEBUG-DWORDINDEX_WITH_4_BYTE-ffast-math -CFLAGS_OPT=$(CFLAGS)-O3-funroll-loops-DNDEBUG-DWORDINDEX_WITH_4_BYTE-DBINARY_SEARCH_FOR_TTABLE-DWORDINDEX_WITH_4_BYTE +#CFLAGS_OPT=$(CFLAGS)-O3-funroll-loops-DNDEBUG-DWORDINDEX_WITH_4_BYTE-DBINARY_SEARCH_FOR_TTABLE-DWORDINDEX_WITH_4_BYTE +CFLAGS_OPT=$(CFLAGS)-O3-funroll-loops-DNDEBUG-DWORDINDEX_WITH_4_BYTE-DWORDINDEX_WITH_4_BYTE-stdlib=libstdc++ CFLAGS_PRF=$(CFLAGS)-O2-pg-DNDEBUG-DWORDINDEX_WITH_4_BYTE CFLAGS_DBG=$(CFLAGS)-g-DDEBUG-DWORDINDEX_WITH_4_BYTE CFLAGS_NRM=$(CFLAGS)-DWORDINDEX_WITH_4_BYTE diff--gita/mkcls-v2/Makefileb/mkcls-v2/Makefile index66a86d0..10ec3b6100644 ---a/mkcls-v2/Makefile +++b/mkcls-v2/Makefile @@-5,7+5,7@@OBJS=GDAOptimization.oHCOptimization.oProblem.o\ KategProblemWBC.oKategProblem.oStatVar.ogeneral.o\ mkcls.o -CFLAGS=-Wall-W-DNDEBUG-O3-funroll-loops +CFLAGS=-Wall-W-DNDEBUG-O3-funroll-loops-stdlib=libstdc++ .cpp.o: $(CXX)$(CFLAGS)-c$



請為這篇文章評分?