Kịch bản Crawler Preload của công cụ LiteSpeed Cache

LiteSpeed Cache Preload Crawler Script là một công cụ hữu ích cho các trang web sử dụng LiteSpeed Cache. Nó giúp tối ưu hóa hiệu suất và tốc độ trang web bằng cách tạo bản cache cho các trang trước đó để phục vụ ngay lập tức cho người dùng.

Công cụ Preload Crawler Script có thể được cấu hình để tự động duyệt qua các trang web và tạo bản cache cho chúng. Quá trình tạo bản cache này giúp giảm thiểu thời gian phản hồi của máy chủ và tăng tốc độ tải trang.

Với công cụ này, bạn có thể tùy chỉnh các thiết lập để chỉ định các quy tắc duyệt trang web, bao gồm cả các trạng thái và phương thức HTTP. Bạn cũng có thể xác định tần suất và lịch trình cho quá trình tạo bản cache.

Một lợi ích khác của LiteSpeed Cache Preload Crawler Script là khả năng xử lý trang web tĩnh và động. Điều này đảm bảo rằng tất cả các trang web, bao gồm cả các trang động được tạo bằng WordPress hoặc các hệ thống quản lý nội dung khác, đều được tối ưu hóa.

Cuối cùng, LiteSpeed Cache Preload Crawler Script cũng hỗ trợ định dạng sitemap XML,cho phép bạn chỉ định các đường dẫn cụ thể để tạo bản cache. Điều này rất hữu ích khi bạn muốn tạo cache cho các trang không được liên kết từ các trang khác.

Tóm lại, LiteSpeed Cache Preload Crawler Script là một công cụ quan trọng để tăng tốc độ và tối ưu hóa trang web sử dụng LiteSpeed Cache. Nó giúp duyệt qua và tạo bản cache cho các trang trước để cung cấp trải nghiệm tốt hơn cho người dùng và cải thiện hiệu suất toàn bộ trang web của bạn.

Việc tải trước bộ nhớ đệm giúp làm nóng bộ nhớ đệm và cũng có thể được gọi là thu thập thông tin từ trước, mỗi nhà phát triển có cách gọi riêng.

Bạn có thể tìm hiểu thêm về khái niệm “preload cache” để hiểu chi tiết về kỹ thuật này không?

Hôm nay tôi sẽ thông tin về preload cache trên máy chủ, một phương pháp mạnh mẽ và linh hoạt để tối ưu hóa.

Chỉ dành cho người dùng VPS hoặc máy chủ riêng, không áp dụng cho share hosting.

Nếu bạn là share hosting, bạn cũng có thể giả lập hệ điều hành máy tính để chạy. Tuy nhiên, điều này khá phức tạp, vì vậy tôi sẽ không hướng dẫn trong bài viết này, chỉ áp dụng cho những người quản trị VPS hoặc máy chủ riêng.

Lời khuyên của mình: Dùng Litespeed cache crawler chỉ cho các website cần preload cache nhanh và không cần quan tâm đến tài nguyên websever. Nó là một tập lệnh của hãng Litespeed để hỗ trợ preload cache, không phải một tính năng mặc định của plugin Litespeed cache.

Tôi vô cùng hài lòng về phần mềm của Litespeed, dành riêng cho các trang web đang sử dụng Litespeed Webserver. Litespeed là một hệ sinh thái tối ưu tốc độ tải trang web vô cùng xuất sắc và mạnh mẽ. Còn rất nhiều tính năng mà tôi chưa khám phá hết. Hôm nay, tôi muốn chia sẻ một công cụ nhỏ trong hệ sinh thái của Litespeed.

Trước đây mình đã chia sẻ về Optimus Cache Prime (ocp) và mình tự sử dụng nó và cảm thấy nó rất tuyệt vời và mạnh mẽ. Tuy nhiên, so với tập này, OCP không sâu sắc lắm. Dù bạn có webhost, bạn vẫn có thể sử dụng nó tốt, nhưng ngược lại, bạn không nên sử dụng OCP.

html cache WordPress
quy trình page cache html khi không có preload cache

Khi truy cập lần đầu vào website của bạn, người dùng sẽ gặp trở ngại về tốc độ do chưa có bản sao lưu cache html. Tuy nhiên, điều này sẽ giúp tạo điều kiện thuận lợi cho những người dùng sau với tốc độ nhanh hơn.

Ít người muốn là người dùng đầu tiên với tốc độ chậm. Có thể người đó là khách hàng lý tưởng của bạn.

preload cache được tạo ra để giải quyết vấn đề tốc độ truy cập. Bằng cách sử dụng một dạng robot giả lập, chúng ta có thể kiểm tra tốc độ của một trang web khi người dùng truy cập với tốc độ chậm. Điều này giúp chúng ta tận dụng tốt tốc độ khi người dùng truy cập với tốc độ nhanh.

page-html-cache-WordPress-preload-cache
page-html-cache-WordPress-preload-cache

Litespeed cache crawler là gì

Tương tự như HTML cache page, preload cache cũng có thể được kích hoạt và triển khai thông qua plugin hoặc trực tiếp từ máy chủ. Máy chủ Litespeed cache crawler là một công cụ preload cache mạnh mẽ từ phía máy chủ.

preload cache
preload cache

Viết lại: Cài đặt cache trước trên máy chủ đắt đỏ và khó khăn, tôi sẽ chia sẻ ở bài viết này.

Plugin cache preload chỉ phù hợp với các website ít trang. Plugin cache preload cho php không đủ cho nhu cầu cao của bạn hoặc không hỗ trợ tính năng preload cache mà bạn muốn.

Sử dụng preload cache máy chủ và Litespeed cache crawler cho hiệu suất tốt hơn nếu sử dụng Litespeed webserver.

Chú ý: Phần mềm chỉ hỗ trợ webserver Litespeed, không sử dụng được cho các webserver khác (báo lỗi “No Need To Cache”).

Để triển khai Litespeed cache crawler hiệu quả, bạn cần máy chủ webserver có tài nguyên cao và ổn định để preload cache.

Mình hết sức hài lòng với công cụ Litespeed cache crawler trong việc tăng tốc độ truy cập trang web.

Mình muốn nói về lợi ích của phần mềm này so với các phần mềm preload cache khác.

  • Phần mềm bên ngoài không phải là tích hợp sẵn trong plugin lên không phải lưu trữ sitemap vào database giúp website nhẹ hơn.
  • Mình là fan cứng của hệ sinh thái của Litespeed, nếu bạn dùng webserver litespeed và plugin litespeed thì dùng phần mềm này quá tuyệt luôn.
  • Thời gian chạy thì rất nhanh và mạnh gần như nói thẳng ra những plugin WordPress thì không thể so sánh được tốc độ tạo lập crawler của phần mềm này.
  • Giả lập cookie, giả lập query string, mobile giao diện riêng rất hay nhiều tùy chọn tùy biến tuyệt vời, với nhiều tùy chọn thế này thì cũng không ngán ngẩm những preload của các plugin luôn.
  • Xác nhận được là trang đang quét đã được cache chưa nếu được cache rồi thì thôi, nếu chưa thì sẽ cào, như vậy rất tiết kiệm tài nguyên máy chủ. Rất ít phần mềm preload cache trên thị trường có thể làm được
  • Khai báo thông tin trực quan, biết là trang nào đã tạo cache hay chưa và trang nào rồi.
  • Tiết kiệm tài nguyên đáng kể, Họ có bảo là sử dụng công nghệ độc quyền của họ gì đấy, để tiết kiệm tài nguyên crawler nhất có thể, mình thấy rất là ok.
  • Dễ dàng tùy biến bạn có thể đặt tốc độ cào, nếu webserver của bạn yếu thì có để tăng thời gian của nó lên gian để giảm tải máy chủ và ngược lại
  • Không cần phải cài cắm thư viên gì thêm cho nặng server ra, không như 1 số tool phải cài thư viên đủ thứ mới dùng được, còn với LiteSpeed Cache rawler thì không, chỉ một tập lệnh là chạy (yêu cầu curl – cái này thì cần như mặc định đều có của các bản phân phối linux để làm server rồi không có gì xa lạ)

Điều kiện cần để sử dụng script Litespeed cache crawle là cần phải có Litespeed cache được cài đặt.

Phần mềm này phục vụ hệ sinh thái của Litespeed, cần tuân thủ những điều kiện sau.

  • Bạn đang sử dụng webserver Litespeed
  • Bạn đang sử dụng plugin litespeed + lscache
  • Bạn không chặn crawler
  • Bạn cần có quyền truy cập vào ssh
  • Sử dụng hệ điều hành Linux
  • Có phần mềm curl (chắc cái này thì bản phân phối linux dành cho để làm webserver thì luôn luôn có sẵn rồi và bản version 7.72.0 trở xuống hoạt động sẽ ổn định với phần mềm hơn, hy vọng trong trương lai bên LiteSpeed sẽ phát triển hỗ trợ, thường phần các bản phối làm server curl có sẵn thường sẽ là bản đời thấp lên các bạn cứ yên tâm)

Nếu bạn cần cài đặt openlitespeed, mình đã có bài viết và video hướng dẫn đầy đủ cho WordPress. Bạn có thể tham khảo hoặc dùng WPTangToc Ols, phần mềm miễn phí mà mình đã phát triển tự động cài đặt webserver cho WordPress.

Cách sử dụng Litespeed cache crawler để triển khai một cách dễ dàng và hiệu quả.

1. Truy cập root ssh.
2. Vào thư mục “/usr/local/bin” để tạo biến môi trường Linux.

cd /usr/local/bin

Bước 3: Bạn truy cập vào trang này: Download phần mềm Litespeed cache crawler bạn tải về rồi file phần mềm về rồi uploads vào thư mục /usr/local/bin

Bước 3.5: Phân quyền cho file cachecrawler.sh chỉ thực thi 25%

sudo chmod +x cachecrawler.sh

Bước 4: Vào đường dẫn phần mềm.

cd /usr/local/bin/

Bước 5: Chạy phần mềm.

bash cachecrawler.sh https://wptangtoc.com/wp-sitemap.xml

Thay thế 25% bằng 1/4.

Lưu ý là phần mềm này crawler không tương thích tốt với sitemap mặc định của WordPress, nhưng hoạt động tốt với sitemap từ Yoast, Rank Math và Google XML Sitemaps.

Nếu bạn dùng sitemap của plugin, chỉ cần sử dụng sitemap tổng. Nhưng nếu bạn dùng sitemap của WordPress từ phiên bản 5.5 trở lên, hãy sử dụng sitemap con.

Nếu bạn chỉ muốn preload bài viết và trang page khi sử dụng sitemap của WordPress, thay thế sitemap cho post và page.

bash cachecrawler.sh https://wptangtoc.com/wp-sitemap-posts-post-1.xml && bash cachecrawler.sh https://wptangtoc.com/wp-sitemap-posts-page-1.xml
preload-cache-litespeed-huong-dan
preload-cache-litespeed-huong-dan

Mong Litespeed sẽ cập nhật hỗ trợ sitemap mặc định của WordPress sau này để thay thế.

Chỉ cần làm bước 4 và 5 để sử dụng.

Phần mềm ghi chú vàng vàng là 25%.

  • Caching: là trang của bạn chưa được tạo sẵn cache, máy chủ của bạn đang tạo lập cache.
  • Alrealy cached: là trang của bạn đã được tạo lập sẵn cache trước đó rồi.
  • No cache page: là trang đó bạn thiết lập bạn yêu cầu không được cache trang đó.

Bạn có thể tự động hóa cách này bằng cách sử dụng cron job trên hệ điều hành Linux.

Tùy chọn bổ sung của phần mềm Litespeed cache crawler

litespeed-cache-cachecrawler
litespeed-cache-cachecrawler

Bạn có thể gõ vào phần mềm đó lệnh: bash cachecrawler.sh -h

Phần mềm sẽ hướng dẫn tùy chọn cho bạn, để tiết kiệm thời gian, tôi sẽ dịch ra tiếng Việt để mọi người thuận tiện.

    • -h, --help: Hướng dẫn thêm về các tùy chọn có trong phần mềm.
    • -m, --with-mobile: Crawl preload cache giao diện mobile riêng và giao diện desktop riêng.
    • -c, --with-cookie: Crawl preload cache giả lập cookie.
    • -b, --black-list: Trang sẽ được thêm vào danh sách đen nếu lỗi trạng thái HTML và không có bộ nhớ cache. Lần chạy tiếp theo sẽ bỏ qua trang.
    • -g, --general-ua: Sử dụng tác nhân người dùng chung thay vì lscache_runner cho chế độ xem trên máy tính.
    • -i, --interval: thời gian tốc độ chạy mặc định phần mềm sẽ để là 0.1 giây tức 100ms, nếu webhost của bạn cấu hình kém thì hãy kéo xuống 0.3 hay 0.5 gì đó tùy vào nhu cầu của bạn.
    • -v, --verbose: Hiển thị reponse header đầy đủ trong /tmp/crawler.log.
    • -d, --debug-url: Kiểm tra trực tiếp một URL. ví dụ như bash cachecrawler.sh -v -d https://wptangtoc.com/blog/
    • -qs,--crawl-qs: Crawl preload sitemap và giả lập query strings – cái này rất hay dành cho những website sử dụng query strings mà thay đổi giao diện, tối ưu cache query strings.
    • -r, --report: hiển thị kết quả các thứ đã cache được bao nhiêu trang đã quét được bao nhiêu url, thành công bao nhiêu và thất bại bao nhiêu, khi chạy xong hết thì nó sẽ tổng kết thông số cho bạn.
    • -w, --webp: preload cache luôn cả nếu bạn kích hoạt ảnh webp, vì ảnh khi bạn kích hoạt ảnh webp phân phối của litespeed sẽ chia ra 2 loại cache, một bên là file dành cho những trình duyệt không hỗ trợ ảnh webp và một bên là file cache dành cho những người hỗ trợ ảnh webp
lý do tôi là fan cứng của litespeed
lý do tôi là fan cứng của litespeed, cảm ơn litespeed rất nhiều. đã thêm hỗ trợ preload cache webp trong tập lệnh script

Để giảm tải máy chủ, ta có thể kéo dài thời gian crawler lên 300ms/1 url thay vì 100ms/url.

bash cachecrawler.sh https://wptangtoc.com/wp-sitemap.xml -i 0.3

Bạn có thể thiết lập chạy nhiều giá trị khác nhau cùng một lúc.

Nếu bạn sử dụng giao diện mobile và desktop riêng, hãy tạo giao diện như dưới đây.

bash cachecrawler.sh https://wptangtoc.com/wp-sitemap.xml -i 0.3 -m

Hướng dẫn lập trình tự động hoá việc tạo cron job cho Litespeed cache crawler.

Tôi sẽ preload cache vào lúc 2 giờ sáng 45 phút để đáp ứng nhu cầu của bạn. (16% reduction in length)

B1: Cài ứng dụng nano để soạn thảo văn bản.

thị phạm ví dụ trên centos.

yum install nano -y

Bước 2: Mở crontab qua nano.

export VISUAL=nano; crontab -e

Bước 3: Tự động preload giá trị bạn cần lúc 2h45 AM hàng ngày để tận dụng thời gian máy chủ ít traffic. Thay đổi thời gian preload tùy theo sự thuận tiện của bạn.

45 2 * * * /usr/local/bin/cachecrawler.sh https://wptangtoc.com/wp-sitemap.xml

Vui lòng thay đường dẫn sitemap của bạn vào. Lưu ý nếu bạn sử dụng sitemap mặc định của WordPress, hãy chắc chắn để ý điều này.

Sau đó ấn CTRL + O để lưu và ấn CTRL + X để thoát.

Không ai có máy chủ khỏe và cần xóa cache hàng ngày. Ví dụ, tôi sẽ tạo chạy tự động preload cache vào lúc 2 giờ sáng thứ 2 hàng tuần.

0 2 * * 1 /usr/local/bin/cachecrawler.sh https://wptangtoc.com/wp-sitemap.xml

Vui lòng thay thế đường dẫn sitemap của bạn vào thay cho “https://wptangtoc.com/wp-sitemap.xml”.

Mỗi website có nhu cầu clear cache khác nhau, không biết bạn muốn bao lâu một lần clear cache và thiết lập cache tự động xóa trong bao lâu. Hãy thay đổi cron job theo nhu cầu chính xác của bạn.

Cron job trong thời gian ít traffic là tận dụng hiệu quả thời gian rỗi của máy chủ.

Có thể thêm -i cho cron để giãn thời gian và giảm tải cho máy chủ nếu webhost không đủ mạnh.

Phần mềm preload cache này rất ấn tượng và tuyệt vời, mặc dù có một số nhược điểm, nhưng tôi vẫn cực kì hài lòng với sản phẩm của Litespeed.

Hi vọng Litespeed sẽ sớm cải thiện sitemap mặc định của WordPress, nhưng bạn có thể tạm thời giải quyết tình hình bằng cách của mình cũng được.

Chúc bạn thành công !!!

Hướng dẫn khác về WordPress có bài viết tương tự.

– LiteSpeed Cache: là một plugin/cache của LiteSpeed Web Server, giúp tăng tốc độ tải trang web bằng cách lưu trữ bản sao của trang web và phục vụ nhanh hơn cho người dùng.
– công cụ: LiteSpeed Cache được cung cấp với nhiều công cụ và tính năng hữu ích để quản lý bộ nhớ cache và tối ưu hóa trang web.
– Preload: là một tính năng trong LiteSpeed Cache cho phép người dùng tải trước trang web của họ, giúp cải thiện thời gian tải trang web và trải nghiệm người dùng.
– Crawler Script: là một đoạn mã script trong LiteSpeed Cache được sử dụng để lập lịch và quét toàn bộ trang web, thu thập dữ liệu và tạo ra bản sao của trang web để lưu trữ trong bộ nhớ cache.

Nguyễn Mạnh, là một chuyên gia tăng tốc, bảo mật và quản trị website với 6 năm kinh nghiệm, chuyên sâu về speed web wordpress, hosting, database và quản trị Server. Không dừng tại tăng tốc và quản trị website, Mạnh còn nghiên cứu về vps, cloud lưu trữ website, conten và Seo tối ưu hóa công cụ tìm kiếm. Với đam mê chia sẻ tăng tốc, bảo mật, website server Mạnh cũng có kênh youtube 1.000+ subscriber, lẫn group cộng đồng SEO 1.000+ người hiện tại. Mạnh hiện đang là một trong những chuyên gia trong lĩnh vực website tại Việt Nam. Ngoài là CEO tại Mạnh WEB, Mạnh còn đam mê về lĩnh vực AI, ứng dụng AI trong thiết kế website, tăng tốc, tạo nội dung web mang lại sự tối ưu về thời gian và hiệu quả cho doanh nghiệp nói chung.