从Docker Compose到PyMilvus:我的Milvus 2.x 入门踩坑与避坑全记录
2026/6/14 6:43:58
任务:各自把前期工作总结,包括主要使用的模型或技术介绍,附上博客链接。
1. BERT模型的改进
使用模型为bge-large模型替换bert。
bge模型(M3)以及BGE模型使用的预训练方法RetroMAE的具体技术介绍见:《M3-Embedding》汇报-CSDN博客
将BERT模型替换为BGE模型之后,由另一位同学在此基础上加入rerank模型进行重排序。
之后将large+rerank模型与有数据库版本的心法系统进行整合。
测试主要包含以下的不足:
2. 标签预测
目前暂时使用利于语义来匹配标签预测:将新添加的问答对进行一个相似度计算,计算出最相似的问答对,将最相似的问答对的标签赋给新进来的问答对。
具体使用的逻辑如下:
利用上面逻辑来保证一级标签和二级标签的从属关系。
上面方法的不足如下:
如果数据集中没有与新问题相似的问题,那么预测可能不准确。
如果数据集中存在错误标签,也会影响预测结果。