基于特定领域的word-bert预训练模型 #59

SunshlnW · 2020-09-17T06:34:18Z

如果想要获得特定领域的预训练模型，如果很多词汇不在提供的vocab.txt中，是不是要自己手动构建vocab.txt然后训练预训练模型，后续再进行fine-tune

marcusau · 2020-09-17T07:37:40Z

good question, 我也正打算發問相同問題.,. 因词汇乃根據不同應用景場而改變的.

SunshlnW · 2020-09-18T07:11:48Z

good question, 我也正打算發問相同問題.,. 因词汇乃根據不同應用景場而改變的.

模型默认使用的jieba分词，文本输入模型前需要去除无关字符吗？

zhezhaoa · 2020-09-20T15:41:03Z

首先建立新的词典
然后使用scripts文件夹下的 dynamic_vocab_adapter.py ，根据旧词典和新词典的区别，修改原始预训练模型的embedding层和softmax前一层，得到新的预训练模型
然后在新的预训练模型基础上增量预训练或者微调

对于基于词的模型，基于不同语料的预训练模型应该有自己的词典。目前我已经把具体的步骤添加到readme中。具体的信息可在readme中的Word-based pre-training model部分查看

johnsongwx · 2022-05-11T09:27:34Z

您好，我是从PubMedBERT的huggingface那边转换的模型，他们有一个对应的vocab文件，和咱们这边用的不一样，字典大小不同，请问这种情况下应该如何修改呢？我看config文件里面字段名称也不相同。

Provide feedback