Overview

此專案製作”論文綜整與檢索的Discord Bot”。透過selenium爬蟲收集最新的論文並解析其內容。利用RAG LLM技術，以本地資料庫的形式供LLM搜索，讓LLM可以檢索出符合使用者需求敘述且足夠新的論文，最後以discord Bot的方式製作使用者介面，與使用者互動及呈現資料。

CoreTech

Crawler
- selenium
LLM
- LangChain
Discord Bot

示意圖:

介紹影片:

Background

於大一下學期，修習”人工智慧概論”之專題
因為GPT3.5/4只有到2021/2023的資料庫，不足以供應最新的論文需求，因此製作此程式，用來提供最新論文的搜索。

Apporach

Dataset

使用selenium製作爬蟲，把arXiv網站的2024年論文資料抓下來。目前只抓了title, abstract, link，因為如果存取全文，在搜索及資料庫建置上需要花上非常多的時間以及金錢，故只留下用來搜索的重要部分。

LLM

使用langchain做RAG LLM，採用GPT3.5模型，做了5種prompting enginerring，並另外做了無法搜索成功的例外處理。
使用者輸入任意的關鍵字、問題等，模型將自動將其轉換為搜尋論文的問題，並交由LLM模型在爬蟲得到的資料庫中搜索，回傳英文以及中文的’title, summery, tag, link’。