大语言模型在数字图书馆中的文本挖掘与信息检索优化
王旭杰 ( 木卫四(北京)科技有限公司 )
王 羽 ( 北京大甜绵白糖科技有限公司 )
https://doi.org/10.37155/2717-5170-0610-61Abstract
数字图书馆是信息时代的关键知识管理和传播平台,提供大量文献资源,对学术研究和日常信息获取至 关重要。但随着数据量的增加,有效挖掘信息和提升检索效率成为挑战。传统文本挖掘和信息检索技术虽有一定效 果,但在语义理解、复杂查询处理方面仍有不足。近年来,自然语言处理技术尤其是大语言模型(LLM)的发展,显 著提升了文本处理能力。LLM通过深度学习和大规模预训练,在语义理解、文本生成和知识提取方面表现卓越,具有 很强的泛化能力。本文探讨如何应用大语言模型改进数字图书馆的文本挖掘和信息检索技术,以增强用户检索体验并 实现智能化、个性化的信息服务。
Keywords
大语言模型;LLM;文本挖掘;信息检索;智能问答;数字图书馆智能化Full Text
PDFReferences
[1]马文峰.数字图书馆个性化信息服务的探索[J].图书
馆杂志,2003,(05):30-32.DOI:10.13663/j.cnki.lj.2003.05.010.
[2]夏南强,张红梅.基于数据挖掘的数字图书馆个性化
服务[J].图书馆 学研究,2006,(1):32-34
[3] 贺宏朝,何丕廉,陈霞.利用人工和自动生成的
资源进行中文信息检索查询扩展[J].计算机工程与应
用,2002,(21):18-20.
[4] Qin Chen, Qinmin Hu, Jimmy Xiangji Huang,
Liang He, and Weijie An. 2017. Enhancing Recurrent Neural
Networks with Positional Attention for Question Answering.
In SIGIR. ACM, 993–996.
[5] Toukmaji, Christopher. “Few-Shot Cross-Lingual
Transfer for Prompting Large Language Models in Low_x005fResource Languages.” ArXiv abs/2403.06018 (2024): n. pag.
[6] Zhang Y, Chen X, Ai Q, et al. Towards conversational
search and recommendation: System ask, user respond[C]//
Proceedings of the 27th acm international conference on
information and knowledge management. 2018: 177-186.
馆杂志,2003,(05):30-32.DOI:10.13663/j.cnki.lj.2003.05.010.
[2]夏南强,张红梅.基于数据挖掘的数字图书馆个性化
服务[J].图书馆 学研究,2006,(1):32-34
[3] 贺宏朝,何丕廉,陈霞.利用人工和自动生成的
资源进行中文信息检索查询扩展[J].计算机工程与应
用,2002,(21):18-20.
[4] Qin Chen, Qinmin Hu, Jimmy Xiangji Huang,
Liang He, and Weijie An. 2017. Enhancing Recurrent Neural
Networks with Positional Attention for Question Answering.
In SIGIR. ACM, 993–996.
[5] Toukmaji, Christopher. “Few-Shot Cross-Lingual
Transfer for Prompting Large Language Models in Low_x005fResource Languages.” ArXiv abs/2403.06018 (2024): n. pag.
[6] Zhang Y, Chen X, Ai Q, et al. Towards conversational
search and recommendation: System ask, user respond[C]//
Proceedings of the 27th acm international conference on
information and knowledge management. 2018: 177-186.
Copyright © 2024 王旭杰,王 羽

This work is licensed under a Creative Commons Attribution 4.0 International License