جستجوی تمام متن
در این فصل، ما فیلتر عنوان فیلم خود را با پشتیبانی از تطابق جزئی به جای تطابق کامل، کاربرپسندتر خواهیم کرد. به عنوان مثال، اگر یک مشتری بخواهد فیلم The Breakfast Club را پیدا کند، میتواند فقط با رشته پرس و جوی title=breakfast آن را پیدا کند.
روشهای مختلفی برای پیادهسازی این ویژگی در کد ما وجود دارد، اما یک روش مؤثر و شهودی (از دیدگاه مشتری) استفاده از قابلیت full-text search PostgreSQL است که به شما امکان میدهد جستجوهای زبان طبیعی را روی فیلدهای متنی پایگاه داده خود انجام دهید.
جستجوی تمام متن PostgreSQL یک ابزار قدرتمند و بسیار قابل تنظیم است و توضیح نحوه عملکرد آن و گزینههای موجود به طور کامل به راحتی میتواند یک کتاب کامل را پر کند. بنابراین توضیحات این فصل را در سطح بالا نگه میداریم و بر پیادهسازی عملی تمرکز خواهیم کرد.
برای پیادهسازی یک جستجوی تمام متن پایه روی فیلد title خود، کوئری SQL خود را به شکل زیر به روز میکنیم:
SELECT id, created_at, title, year, runtime, genres, version
FROM movies
WHERE (to_tsvector('simple', title) @@ plainto_tsquery('simple', $1) OR $1 = '')
AND (genres @> $2 OR $2 = '{}')
ORDER BY id
این در نگاه اول کمی پیچیده به نظر میرسد، بنابراین بیایید آن را تجزیه کرده و توضیح دهیم که چه اتفاقی میافتد.
تابع to_tsvector('simple', title) عنوان یک فیلم را گرفته و آن را به lexemeها (واژههای پایه) تقسیم میکند. ما پیکربندی simple را مشخص میکنیم، به این معنی که lexemeها فقط نسخههای حروف کوچک کلمات در عنوان هستند†. به عنوان مثال، عنوان فیلم "The Breakfast Club" به lexemeهای 'breakfast' 'club' 'the' تقسیم میشود.
تابع plainto_tsquery('simple', $1) مقدار جستجو را گرفته و آن را به یک query term قالببندی شده تبدیل میکند که جستجوی تمام متن PostgreSQL میتواند آن را درک کند. این مقدار جستجو را عادیسازی میکند (دوباره با استفاده از پیکربندی simple)، کاراکترهای خاص را حذف میکند و عملگر and & را بین کلمات درج میکند. به عنوان مثال، مقدار جستجوی "The Club" منجر به query term 'the' & 'club' میشود.
عملگر @@ عملگر تطابق (matches) است. در دستور ما از آن برای بررسی اینکه آیا query term تولید شده با lexemeهای عنوان مطابقت دارد یا خیر استفاده میکنیم. برای ادامه مثال، query term 'the' & 'club' با ردیفهایی که هر دو lexeme 'the' و 'club' را دارند مطابقت میکند.
کلمات تخصصی زیادی در پاراگرافهای بالا وجود دارد، اما اگر آن را با چند مثال نشان دهیم، در واقع بسیار شهودی است:
// Return all movies where the title includes the case-insensitive word 'panther'. /v1/movies?title=panther // Return all movies where the title includes the case-insensitive words 'the' and // 'club'. /v1/movies?title=the+club
بیایید این را اجرا کنیم. فایل internal/data/movies.go خود را باز کنید و متد GetAll() را به روز کنید تا از کوئری SQL جدید مانند زیر استفاده کند:
package data ... func (m MovieModel) GetAll(title string, genres []string, filters Filters) ([]*Movie, error) { // Use full-text search for the title filter. query := ` SELECT id, created_at, title, year, runtime, genres, version FROM movies WHERE (to_tsvector('simple', title) @@ plainto_tsquery('simple', $1) OR $1 = '') AND (genres @> $2 OR $2 = '{}') ORDER BY id` // Nothing else below needs to change. ... }
اگر در حال دنبال کردن هستید، برنامه را مجدداً راه اندازی کنید و سعی کنید با مقادیر مختلف برای عنوان فیلم درخواستهایی ارسال کنید. باید متوجه شوید که جستجوهای جزئی اکنون مطابق آنچه در بالا توضیح دادیم کار میکنند.
به عنوان مثال:
$ curl "localhost:4000/v1/movies?title=panther"
{
"movies": [
{
"id": 2,
"title": "Black Panther",
"year": 2018,
"runtime": "134 mins",
"genres": [
"sci-fi",
"action",
"adventure"
],
"version": 2
}
]
}
$ curl "localhost:4000/v1/movies?title=the+club"
{
"movies": [
{
"id": 4,
"title": "The Breakfast Club",
"year": 1985,
"runtime": "97 mins",
"genres": [
"comedy"
],
"version": 5
}
]
}
افزودن ایندکسها
برای اینکه کوئری SQL ما با رشد مجموعه دادهها به سرعت اجرا شود، منطقی است از ایندکسها برای کمک به جلوگیری از اسکن کامل جدول و جلوگیری از تولید lexemeها برای فیلد title در هر بار اجرای کوئری استفاده کنیم.
در مورد ما، ایجاد ایندکسهای GIN هم روی فیلد genres و هم روی lexemeهای تولید شده توسط to_tsvector() منطقی است، که هر دو در کلاUSE WHERE کوئری SQL ما استفاده میشوند.
اگر در حال دنبال کردن هستید، یک جفت فایل migration جدید ایجاد کنید:
$ migrate create -seq -ext .sql -dir ./migrations add_movies_indexes
سپس دستورات زیر را به فایلهای migration 'up' و 'down' اضافه کنید تا ایندکسهای لازم ایجاد و حذف شوند:
CREATE INDEX IF NOT EXISTS movies_title_idx ON movies USING GIN (to_tsvector('simple', title)); CREATE INDEX IF NOT EXISTS movies_genres_idx ON movies USING GIN (genres);
DROP INDEX IF EXISTS movies_title_idx; DROP INDEX IF EXISTS movies_genres_idx;
پس از اتمام کار، باید بتوانید مایگریشن 'up' را برای اضافه کردن ایندکسها به پایگاه داده خود اجرا کنید:
$ migrate -path ./migrations -database $GREENLIGHT_DB_DSN up 3/u add_movies_indexes (38.638777ms)
اطلاعات تکمیلی
پیکربندی غیر ساده و اطلاعات بیشتر
همانطور که در بالا ذکر شد، میتوانید به جای پیکربندی simple که در حال حاضر استفاده میکنیم، از یک پیکربندی خاص زبان برای جستجوهای تمام متن استفاده کنید. وقتی lexemeها یا query termها را با یک پیکربندی خاص زبان ایجاد میکنید، کلمات رایج زبان را حذف کرده و stemming (ریشهیابی) کلمات را انجام میدهد.
بنابراین، به عنوان مثال، اگر از پیکربندی english استفاده کنید، lexemeهای تولید شده برای "One Flew Over the Cuckoo's Nest" عبارتند از 'cuckoo' 'flew' 'nest' 'one'. یا با پیکربندی spanish، lexemeهای "Los lunes al sol" عبارتند از 'lun' 'sol'.
میتوانید با اجرای دستور \dF در PostgreSQL لیستی از تمام پیکربندهای موجود را بازیابی کنید:
postgres=# \dF
List of text search configurations
Schema | Name | Description
------------+------------+---------------------------------------
pg_catalog | arabic | configuration for arabic language
pg_catalog | danish | configuration for danish language
pg_catalog | dutch | configuration for dutch language
pg_catalog | english | configuration for english language
...
و اگر میخواهید از پیکربندی english برای جستجوی فیلمهای ما استفاده کنید، میتوانید کوئری SQL را به شکل زیر به روز کنید:
SELECT id, created_at, title, year, runtime, genres, version
FROM movies
WHERE (to_tsvector('english', title) @@ plainto_tsquery('english', $1) OR $1 = '')
AND (genres @> $2 OR $2 = '{}')
ORDER BY id
اگر میخواهید در مورد جستجوی تمام متن PostgreSQL بیشتر بدانید، مستندات رسمی منبع عالی از اطلاعات و مثالها است.
استفاده از STRPOS و ILIKE
اگر نمیخواهید از جستجوی تمام متن برای جستجوی جزئی عنوان فیلم استفاده کنید، برخی جایگزینها تابع STRPOS() و عملگر ILIKE PostgreSQL هستند.
تابع STRPOS() PostgreSQL به شما امکان میدهد وجود یک رشته فرعی در یک فیلد خاص پایگاه داده را بررسی کنید. میتوانیم آن را در کوئری SQL خود مانند زیر استفاده کنیم:
SELECT id, created_at, title, year, runtime, genres, version
FROM movies
WHERE (STRPOS(LOWER(title), LOWER($1)) > 0 OR $1 = '')
AND (genres @> $2 OR $2 = '{}')
ORDER BY id
از دیدگاه مشتری، عیب این روش این است که ممکن است نتایج غیر شهودی برگرداند. به عنوان مثال، جستجو برای title=the هم The Breakfast Club و هم Black Panther را در مجموعه دادههای ما برمیگرداند.
از دیدگاه سرور نیز برای مجموعه دادههای بزرگ ایدهآل نیست. زیرا روش مؤثری برای ایندکسگذاری فیلد title برای بررسی شرط STRPOS() وجود ندارد، این بدان معناست که کوئری ممکن است هر بار نیاز به اسکن کامل جدول داشته باشد.
گزینه دیگر عملگر ILIKE است که به شما امکان میدهد ردیفهایی را که با یک الگوی خاص (بدون حساسیت به بزرگی و کوچکی حروف) مطابقت دارند پیدا کنید. میتوانیم آن را در کوئری SQL خود مانند زیر استفاده کنیم:
SELECT id, created_at, title, year, runtime, genres, version
FROM movies
WHERE (title ILIKE $1 OR $1 = '')
AND (genres @> $2 OR $2 = '{}')
ORDER BY id
این رویکرد از دیدگاه سرور بهتر خواهد بود زیرا میتوان با استفاده از افزونه pg_trgm و یک ایندکس GIN روی فیلد title ایندکس ایجاد کرد (برای جزئیات لطفاً این پست را ببینید).
از طرف کلاینت نیز بهتر از رویکرد STRPOS() است، زیرا آنها میتوانند رفتار تطبیق را با پیشوند/پسوند کردن عبارت جستجو با کاراکتر wildcard % کنترل کنند (که در رشته پرس و جوی URL باید به %25 تبدیل شود). به عنوان مثال، برای جستجوی فیلمهایی با عنوانی که با “the” شروع میشود، یک مشتری میتواند پارامتر title=the%25 را ارسال کند.