中文在线最新版天堂8,亚洲人成自拍蜜芽,丰满人爽人妻a片二区

基于GPT3.5實(shí)現(xiàn)本地知識(shí)庫解決方案-利用向量數(shù)據(jù)庫和GPT向量接口

發(fā)布日期：2023/4/20 7:49:17 瀏覽量：

基于GPT3.5實(shí)現(xiàn)本地知識(shí)庫解決方案-利用向量數(shù)據(jù)庫和GPT向量接口-實(shí)現(xiàn)智能回復(fù)并限制ChatGPT回答的范圍

導(dǎo)入知識(shí)庫數(shù)據(jù)

利用openai的向量接口生成向量數(shù)據(jù)，然后導(dǎo)入到向量數(shù)據(jù)庫qdrant

這段代碼會(huì)將指定目錄下的所有文件讀取出來，然后將文件中的文本內(nèi)容進(jìn)行分割，分割后的結(jié)果會(huì)被傳入到

to_embeddings函數(shù)中，該函數(shù)會(huì)使用 OpenAI 的 API 將文本內(nèi)容轉(zhuǎn)換為向量。最后，將向量和文件名、文件內(nèi)容一起作為一個(gè)文檔插入到 Qdrant 數(shù)據(jù)庫中。

具體來說，這段代碼會(huì)遍歷 ./source_data目錄下的所有文件，對(duì)于每個(gè)文件，它會(huì)讀取文件內(nèi)容，然后將文件內(nèi)容按照 #####進(jìn)行分割

分割后的結(jié)果會(huì)被傳入到 to_embeddings函數(shù)中。

to_embeddings函數(shù)會(huì)使用 OpenAI 的 API 將文本內(nèi)容轉(zhuǎn)換為向量，最后返回一個(gè)包含文件名、文件內(nèi)容和向量的列表。

接下來，將向量和文件名、文件內(nèi)容一起作為一個(gè)文檔插入到 Qdrant 數(shù)據(jù)庫中。

其中，count變量用于記錄插入的文檔數(shù)量，client.upsert函數(shù)用于將文檔插入到 Qdrant 數(shù)據(jù)庫中。

需要在目錄里創(chuàng)建.env文件，里面放OPENAI_API_KEY

OPENAI_API_KEY=sk-Zxxxxxxxxddddddddd

from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams
from qdrant_client.http.models import PointStruct
from dotenv import load_dotenv
import os
import tqdm
import openai

def to_embeddings(items):
sentence_embeddings = openai.Embedding.create(
model="text-embedding-ada-002",
input=items[1]
)
return [items[0], items[1], sentence_embeddings["data"][0]["embedding"]]

if __name__ == ’__main__’:
client = QdrantClient("127.0.0.1", port=6333)
collection_name = "data_collection"
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
# 創(chuàng)建collection
client.recreate_collection(
collection_name=collection_name,
vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
)

count = 0
for root, dirs, files in os.walk("./source_data"):
for file in tqdm.tqdm(files):
file_path = os.path.join(root, file)
with open(file_path, ’r’, encoding=’utf-8’) as f:
text = f.read()
parts = text.split(’#####’)
item = to_embeddings(parts)
client.upsert(
collection_name=collection_name,
wait=True,
points=[
PointStruct(id=count, vector=item[2], payload={"title": item[0], "text": item[1]}),
],
)
count += 1

查詢知識(shí)庫數(shù)據(jù)

這是一個(gè)基于flask的web應(yīng)用，主要功能是根據(jù)用戶輸入的問題，從Qdrant中搜索相關(guān)的文本，然后使用openai的ChatCompletion API進(jìn)行對(duì)話生成，最后將生成的回答返回給用戶。

from flask import Flask
from flask import render_template
from flask import request
from dotenv import load_dotenv
from qdrant_client import QdrantClient
import openai
import os

app = Flask(__name__)

def prompt(question, answers):
"""
生成對(duì)話的示例提示語句，格式如下：
demo_q:
使用以下段落來回答問題，如果段落內(nèi)容不相關(guān)就返回未查到相關(guān)信息："成人頭疼，流鼻涕是感冒還是過敏？"
1. 普通感冒：您會(huì)出現(xiàn)喉嚨發(fā)癢或喉嚨痛，流鼻涕，流清澈的稀鼻涕（液體），有時(shí)輕度發(fā)熱。
2. 常年過敏：癥狀包括鼻塞或流鼻涕，鼻、口或喉嚨發(fā)癢，眼睛流淚、發(fā)紅、發(fā)癢、腫脹，打噴嚏。
demo_a:
成人出現(xiàn)頭痛和流鼻涕的癥狀，可能是由于普通感冒或常年過敏引起的。如果病人出現(xiàn)咽喉痛和咳嗽，感冒的可能性比較大；而如果出現(xiàn)口、喉嚨發(fā)癢、眼睛腫脹等癥狀，常年過敏的可能性比較大。
system:
你是一個(gè)醫(yī)院?jiǎn)栐\機(jī)器人
"""
demo_q = ’使用以下段落來回答問題："成人頭疼，流鼻涕是感冒還是過敏？"\n1. 普通感冒：您會(huì)出現(xiàn)喉嚨發(fā)癢或喉嚨痛，流鼻涕，流清澈的稀鼻涕（液體），有時(shí)輕度發(fā)熱。\n2. 常年過敏：癥狀包括鼻塞或流鼻涕，鼻、口或喉嚨發(fā)癢，眼睛流淚、發(fā)紅、發(fā)癢、腫脹，打噴嚏?！?br /> demo_a = ’成人出現(xiàn)頭痛和流鼻涕的癥狀，可能是由于普通感冒或常年過敏引起的。如果病人出現(xiàn)咽喉痛和咳嗽，感冒的可能性比較大；而如果出現(xiàn)口、喉嚨發(fā)癢、眼睛腫脹等癥狀，常年過敏的可能性比較大?！?br /> system = ’你是一個(gè)醫(yī)院?jiǎn)栐\機(jī)器人’
q = ’使用以下段落來回答問題，如果段落內(nèi)容不相關(guān)就返回未查到相關(guān)信息："’
q += question + ’"’
# 帶有索引的格式
for index, answer in enumerate(answers):
q += str(index + 1) + ’. ’ + str(answer[’title’]) + ’: ’ + str(answer[’text’]) + ’\n’

"""
system:代表的是你要讓GPT生成內(nèi)容的方向，在這個(gè)案例中我要讓GPT生成的內(nèi)容是醫(yī)院?jiǎn)栐\機(jī)器人的回答，所以我把system設(shè)置為醫(yī)院?jiǎn)栐\機(jī)器人
前面的user和assistant是我自己定義的，代表的是用戶和醫(yī)院?jiǎn)栐\機(jī)器人的示例對(duì)話，主要規(guī)范輸入和輸出格式
下面的user代表的是實(shí)際的提問
"""
res = [
{’role’: ’system’, ’content’: system},
{’role’: ’user’, ’content’: demo_q},
{’role’: ’assistant’, ’content’: demo_a},
{’role’: ’user’, ’content’: q},
]
return res

def query(text):
"""
執(zhí)行邏輯：
首先使用openai的Embedding API將輸入的文本轉(zhuǎn)換為向量
然后使用Qdrant的search API進(jìn)行搜索，搜索結(jié)果中包含了向量和payload
payload中包含了title和text，title是疾病的標(biāo)題，text是摘要
最后使用openai的ChatCompletion API進(jìn)行對(duì)話生成
"""
client = QdrantClient("127.0.0.1", port=6333)
collection_name = "data_collection"
load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
sentence_embeddings = openai.Embedding.create(
model="text-embedding-ada-002",
input=text
)
"""
因?yàn)樘崾驹~的長度有限，所以我只取了搜索結(jié)果的前三個(gè)，如果想要更多的搜索結(jié)果，可以把limit設(shè)置為更大的值
"""
search_result = client.search(
collection_name=collection_name,
query_vector=sentence_embeddings["data"][0]["embedding"],
limit=3,
search_params={"exact": False, "hnsw_ef": 128}
)
answers = []
tags = []

"""
因?yàn)樘崾驹~的長度有限，每個(gè)匹配的相關(guān)摘要我在這里只取了前300個(gè)字符，如果想要更多的相關(guān)摘要，可以把這里的300改為更大的值
"""
for result in search_result:
if len(result.payload["text"]) > 300:
summary = result.payload["text"][:300]
else:
summary = result.payload["text"]
answers.append({"title": result.payload["title"], "text": summary})

completion = openai.ChatCompletion.create(
temperature=0.7,
model="gpt-3.5-turbo",
messages=prompt(text, answers),
)

return {
"answer": completion.choices[0].message.content,
"tags": tags,
}

@app.route(’/’)
def hello_world():
return render_template(’index.html’)

@app.route(’/search’, methods=[’POST’])
def search():
data = request.get_json()
search = data[’search’]

res = query(search)

return {
"code": 200,
"data": {
"search": search,
"answer": res["answer"],
"tags": res["tags"],
},
}

if __name__ == ’__main__’:
app.run(host=’0.0.0.0’, port=3000)

業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲 素人 字幕 在线 最新

基于GPT3.5實(shí)現(xiàn)本地知識(shí)庫解決方案-利用向量數(shù)據(jù)庫和GPT向量接口

導(dǎo)入知識(shí)庫數(shù)據(jù)

查詢知識(shí)庫數(shù)據(jù)

蜜桃av色欲a片精品一区,麻豆aⅴ精品无码一区二区,亚洲人成网站在线播放影院在线,亚洲素人字幕在线最新