Trending

#LocalLLM

Latest posts tagged with #LocalLLM on Bluesky

Posts tagged #LocalLLM

Preview
GitHub Copilot CLIでローカルLLMを使って完全オフラインでコードを書かせる方法 ### はじめに 2026/04/07にリリースされたGitHub Copilot CLIから、ローカルLLMを使えるようになりました。 また、外部との通信を必要としないモードも追加されています。 github.blog これらの機能を使うことで、完全オフラインの環境でもLLMを使ったコーディングができます。 さっそく試してみたので、設定方法などをまとめておこうと思います。 ### 環境 * Mac Studio * 16コアCPU、40コアGPU、16コアNeural Engine搭載Apple M4 Maxチップ * 64GBユニファイドメモリ * GitHub Copilot CLI v1.0.21 * LM Studio 0.4.9+1 * openai/gpt-oss-20b ### 設定 GitHub Copilot CLIでローカルLLMを使うためには、OpenAIと互換性のあるAPIが提供されている必要があります。 LM StudioがOpenAI互換のAPIを提供しているため、今回はこれを使います。 LM Studioを起動してgpt-oss-20bのモデルを読み込ませます。 この時、Context Lengthの設定をデフォルトの4096から128000のような大きめの値にしておく必要があります。 これをしないと、以下のようなエラーが出ます。 The number of tokens to keep from the initial prompt is greater than the context length. Try to load the model with a larger context length, or provide a shorter input. モデルを読み込ませた後に、DeveloperタブのLocal Serverの設定で「Status: Stopped」のトグルをONにして、ローカル用のAPIを起動します。 ### GitHub Copilot CLIの実行 以下の環境変数を指定してGitHub Copilot CLIを起動することで、ローカルLLMが使われるようになります。 $ COPILOT_PROVIDER_BASE_URL=http://127.0.0.1:1234/v1 \ COPILOT_MODEL=openai/gpt-oss-20b \ COPILOT_PROVIDER_MAX_PROMPT_TOKENS=128000 \ COPILOT_PROVIDER_MAX_OUTPUT_TOKENS=128000 \ COPILOT_OFFLINE=true \ copilot あとは、通常と同じようにプロンプトを打ち込んだりしてGitHub Copilot CLIを利用できます。 メモリを10GB以上使うのとそこまでレスポンスが早いわけではないので、実用的かというと微妙なところですが、完全オフライン環境でLLMを使ったコーディングをしたい場合はなんとか使えるかなという印象です。 なお、接続先はOpenAI互換のAPIであればなんでも良いので、LLM実行用の強いサーバーを建ててそちらに接続すればある程度は快適に使えるかもしれません。 また、Azure OpenAIやAnthropicに接続する方法も案内されているので、GitHub Copilot CLIを使いつつGtiHub Copilot以外で利用したい場合も使えそうです。 docs.github.com ### おわりに ローカルLLMはどうしても性能に限界がありますが、ある程度の精度で問題ない場合やネットワーク接続が難しい環境でLLMを使ったコーディングをしたい場合は、オフラインモードのGitHub Copilot CLIでローカルLLMを使う方法は選択肢になりそうに思いました。 ローカルLLMであればLLMの呼び出しにかかる料金もゼロなので、ある程度シンプルな作業を低コストで実行したい場合にも使えるかもしれません。 直近では常用することは無さそうですが、将来的に高性能なコーディング用のモデルが使えるようになった際は、この方法で利用してみても良さそうに思います。 ### 参考サイト * Copilot CLI now supports BYOK and local models - GitHub Changelog * Using your own LLM models in GitHub Copilot CLI - GitHub Docs * openai/gpt-oss-20b · Hugging Face

早速試したのでブログにまとめた

はてなブログに投稿しました
GitHub Copilot CLIでローカルLLMを使って完全オフラインでコードを書かせる方法 - await wakeUp(); https://sublimer.hatenablog.com/entry/2026/04/08/184248

#はてなブログ #GitHub_Copilot_CLI #LocalLLM

0 0 0 0
Preview
Openclaw体験記 vol.4 — WSL2でOllamaを動かすまでの道

ローカルLLMをWSL2で動かそうとして沼ってる人へ。「ネイティブインストールでフリーズする」なら、迷わずDocker版Ollamaに切り替えるのが近道です。

WSL2とCUDA環境の相性問題に時間を溶かすより、Dockerコンテナで環境を隔離して動かす方が圧倒的に安定します。

NVIDIA Container Toolkitの導入は公式aptリポジトリ経由が必須。設定さえ済めば、Qwen2.5/7Bのようなモデルも自分のPCでサクサク動かせます。

皆さんはローカル環境の構築、どこで一番詰まりましたか?🤔

#AI #LocalLLM #Ollama #WSL2 #エンジニア向け

ht

0 0 0 0
Preview
DeepSeek V4のリーク情報から読み解く ── 訓練コスト数百万ドルでフロンティアモデルに迫るオープンウェイト1兆パラメータMoE - Qiita はじめに 2026年Q1、OpenAIが1,220億ドルの資金調達を完了し、企業価値は8,520億ドルに達しました(CNBC報道)。Anthropicも300億ドルのSeries Gを3,800億ドルのバリュエーションでクローズしています(Anthropic公式)。 同じ...

【衝撃のコスト破壊】DeepSeek V4のリーク情報が凄い。1兆パラメータのMoEモデルで、推論時のアクティブパラメータはわずか32B。

リークされたAPI単価はClaude Opusの1/17、GPT-5.4の1/8。この効率化の鍵は「mHC」技術による訓練安定化。

単に訓練が安いだけでなく、大規模インフラ前提の知見が詰まっている点が本質ですね。皆さんはこの「コスト破壊」をどう捉えますか?

#AI #DeepSeek #LocalLLM #エンジニア

https://qiita.com/nogataka/items/4a6eb55de1fb185cc815

0 0 0 0
Preview
The True Cost of Intelligence Why Local LLMs Are Rewriting AI Economics

The True Cost of Intelligence - Why Local LLMs Are Rewriting AI Economics

#LocalAI #LocalLLM #AIStrategy #AIEconomics #EnterpriseAI

whyaiman.substack.com/p/the-true-c...

1 0 0 0
Video

動画モデルを組み合わせて、ウサ子「舞」を生成しました。
LTX2.3とWan2.2のパワーで、扇子の動きと袴の質感がここまで綺麗に出るとは…!
生成AIの可能性、やっぱり面白いです。

#ウサ子 #LocalLLM

31 8 0 0
Preview
mesh-llm:余っているPCのGPUを束ねて巨大LLMを動かす分散推論の新アプローチ - Qiita はじめに 巨大なLLMを動かすにはA100やH100のような高性能GPUが必要。これが今までの常識でした。 しかし「使っていないGPU」は身の回りに大量にあります。ゲーミングPCの日中の空き時間、会社のワークステーションの夜間、研究室のGPUクラスタの低い稼働率。こうした...

【分散推論革命】
余ってるPCのGPUを束ねて巨大LLMを動かす「mesh-llm」が熱い。

Denseモデルならパイプライン並列、MoEモデルならエキスパート並列と、推論方式を自動で切り替える賢さが凄い。特にMoEモデルならノード間通信がほぼゼロで、WiFi環境でも実用的なのが驚き。

RTX 4090を何枚も買わずに巨大モデル動かしたい人は必見。

#AI #LocalLLM #mesh-llm #GPU #OSS

https://qiita.com/nogataka/items/d6776506848d08815be9

0 0 0 0
Preview
1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録

【激アツ】「1-bit LLM」の Bonsai-8B を RTX 4080×8枚の環境で並列推論させた記録が凄い...!

推論の並列化だけでなく、この構成でのメモリ効率やスループットの測定データがエンジニア心をくすぐる。ローカルLLMをここまで追い込む構成、正直ロマンしかない。

皆さんはローカルでどこまでGPU積んでますか?🤔

zenn.dev/seeda_yuto/articles/bons...

#LocalLLM #GPU #エンジニア #AI開発

2 0 0 0
Preview
GitHub - eifr/lazyllm: TUI for local llms TUI for local llms. Contribute to eifr/lazyllm development by creating an account on GitHub.

LM Studio is great, but I keep drifting back to the terminal ⌨️

so I built LazyLLM — a small TUI for running local models without the GUI layer

it pipes nicely into stuff like OpenCode/OpenClaw

if you're also terminal-pilled, curious what you think:
github.com/eifr/lazyllm

#LocalLLM

0 0 0 0
Post image

What better way to spend a couple of hours on Easter Monday than testing the new Gemma-4 with Claude Code via LM Studio?

The performance isn't quite there yet, especially on my M2 Pro with 32GB of RAM, but it's still interesting to test the model's capabilities.

#Gemma4 #LMStudio #LocalLLM #GenAI

0 0 0 0
Preview
Local LLM Deployment Moves Beyond Hobbyist Experiments Local LLM deployment reaches practical maturity with real-time multimodal AI and CPU-only inference proving viable alternatives to cloud models.

Local LLM deployment moves from hobbyist to practical: real-time multimodal on M3 Pro, Kokoro TTS at 20x realtime on CPU alone. The bottleneck now is boring, reliable tooling—not raw performance. #LocalLLM #AI

bymachine.news/local-llm-deployment-shi...

0 0 0 0

Today I built my own private AI lab from scratch 🧪
A Mac Mini M4 running local LLMs (Mistral, LLaMA 3.1, Gemma 3), an agentic gateway over Tailscale, and a custom AI agent with its own personality.
The future is glocal. 🏠🌐🤖
#AI #LocalLLM #Homelab

1 0 2 0
GitHub - Blaizzy/mlx-vlm: MLX-VLM is a package for inference and fine-tuning of Vision Language Models (VLMs) on your Mac using MLX. MLX-VLM is a package for inference and fine-tuning of Vision Language Models (VLMs) on your Mac using MLX. - Blaizzy/mlx-vlm

GitHubでトレンドの「mlx-vlm」、MLX上でVLM(視覚言語モデル)の推論やファインチューニングが軽量に回せるの、Appleシリコン勢には朗報ですね。

ローカルLLM環境の構築、GPU選定に悩む前にまずは手元のMacで試せる選択肢が増えるのは嬉しい。

使っている人いますか?🤔

https://github.com/Blaizzy/mlx-vlm

#LocalLLM #AppleSilicon #MLX #OSS #AI

0 0 0 0
Preview
Gemma4とは?Googleが公開する「オープンAIモデル」の最新動向 - AIインサイト Googleが新なオープンウェイトAIモデルGemma4を公開。LlamaやDeepSeekと並ぶ「開発者向けAI」の最高峰に。Geminiとの役割の違いやGoogleのAI戦略についても説明する。

【速報】Googleからオープンな新AIモデル「Gemma 4」が登場!🤖

ChatGPTのようなサービスではなく、開発者が自分の環境に組み込んで使うためのモデル。ローカルLLM開発派にとって、推論性能の向上がどこまで進んだか気になりますね。

早速ローカルでベンチマーク回す予定。使ってみた人いる? #Gemma4 #LocalLLM #AI開発 #OSS

https://ai-insight.jp/tools/gemma4-20260406/

0 0 0 0
Preview
【2026年版】エッジAI実装完全ガイド ─ デバイスで動くAI推論の最新手法と実践

2026年、AI推論のトレンドがクラウドからエッジへ劇的にシフトしてますね。なんと推論の55%がデバイス内で完結する時代に。

特に「Qwen 2.5-0.5B」のようなSLMが512MBのVRAMで日本語対応しているのは衝撃。NPU活用でスマホ開発も激変しそう。

みんなはエッジAI、何で動かしてる?🤔

#AI #EdgeAI #LocalLLM #Python

https://zenn.dev/ai_nexus/articles/edge-ai-2026-guide

2 0 0 0

Local AI! Mini-LLM!

Currently, a large portion of the work can be done on an ancient laptop running Linux Mint, 16GB RAM, a 4B-Model and LLMStudio.

Who needs gigantic data-centers? Not I! ;0)

It's not the size of your tech that matters ... it's what you do with what you got

#OpenSource #LocalLLM

0 0 0 0
Preview
Gemma 4 Models Tested Against Qwen in Real Blind Evaluation Independent testing compares Gemma 4 models against Qwen 3.5 in blind evaluation. Results show Gemma's speed and memory efficiency advantages for local deployment.

Gemma 4 tested head-to-head against Qwen 3.5 in blind evaluation across code, reasoning, analysis, communication, and meta-alignment. Community benchmarking cuts through marketing hype. #LocalLLM #Google

bymachine.news/gemma-4-evaluation-tests...

0 0 0 0
Preview
Qwen 3.6 Shows Real-World Reliability Edge Over Predecessor Qwen 3.6 delivers reliability improvements over 3.5 in real-world tasks. Community pushes Alibaba for open-source release of 397B-A17B variant.

Qwen 3.6 showing real gains in task reliability vs 3.5—fewer failures on actual workflows. Community pushing hard for open-source 397B release. Benchmark scores miss what practitioners actually need: consistency. #LocalLLM #Qwen

bymachine.news/qwen-3-6-open-source-rel...

0 0 0 0
Preview
Gemma 4 Dominates Local AI: Real-World Performance Surprises Gemma 4 outperforms competitors in real-world testing. Google's open model dominates local inference with strong reasoning, low memory footprint on consumer hardware.

Gemma 4 is beating GLM 5.1 in actual reasoning tasks. Users testing 31B locally report better chain-of-thought, faster inference, lower memory demands. Google's open model is changing what's possible on consumer GPUs. #LocalLLM

bymachine.news/gemma-4-performance-benc...

0 0 0 0
Gemma 4 - I Tested it on My Laptop and Desktop
Gemma 4 - I Tested it on My Laptop and Desktop YouTube video by Zero to MVP

Google just dropped Gemma 4 and it’s a game changer for the local LLM community! 🚀

I tested the new models on my MacBook and Desktop. From vision tasks to complex coding, does it actually live up to the hype?

Watch here: youtu.be/T6AvsQVSL74

#Gemma4 #GoogleAI #LocalLLM

0 0 0 0
Preview
ローカルLLM: Gemma 4 をMac Studioで動かしてみる

【Gemma 4をローカルで試す】
Googleのオープンソースモデル「Gemma 4」をOllamaで試したけど、面白い結果に。

31BはMac Studioでも実用外だったけど、モバイル向け「e4b」なら爆速で実用レベル!これ、クラウド経由せずにローカル完結する時代がすぐそこまで来てるな。

みんなはローカルLLM何で動かしてる?🤔

#AI #LocalLLM #Gemma4 #Ollama #エンジニア

https://zenn.dev/hidenori3/articles/611f263e02ced8

1 0 0 0
Post image

Google just dropped Gemma 4 under Apache 2.0—smaller memory footprint, near-zero latency, and ready for local AI. Perfect for devs who want open-source LLM power on-device. Dive in to see what's new! #Gemma4 #OpenSourceAI #LocalLLM

🔗 aidailypost.com/news/google-...

0 0 0 0
Preview
Anthropicのリークで報告されたKAIROSと、25日前に公開されたLLM記憶アーキテクチャの構造的類似性について - Qiita Anthropicのリークで報告されたKAIROSと、25日前に公開されたLLM記憶アーキテクチャの構造的類似性について ⚠️ 注意:筆者はリークされたオリジナルのソースコードを直接読んでいません。本記事のKAIROSに関する記述は、2026年4月1〜2日に公開された複...

AnthropicのClaude Codeリーク騒動、未発表機能「KAIROS」の構造が面白い。

バックグラウンド常時稼働、autoDreamによる記憶の統合、セッション間の永続性…。

これ、25日前に公開されたOSSの記憶アーキテクチャ「阿頼耶識システム」と構造的に酷似してる。エンジニアと研究者、別々の場所で同じ「LLMの記憶」という壁にぶつかってたのかも。

詳細はこちら:qiita.com/dosanko_tousan/items/909...

みんなのLLM環境、長期記憶はどうしてる? #ClaudeCode #LocalLLM ...

0 0 0 0
Preview
OllamaでMLXを試してみる

OllamaのMLX対応プレビューがすごい。手元のMacで計測したら、GGUFと比較して生成速度が約2.1倍に向上しました。体感でも明らかに速く、ローカルLLMの実用性が一段と上がった印象。対応モデルはまだ限定的ですが、今後の拡大に期待大。みなさんの環境ではどうですか?

#LocalLLM #Ollama #MLX #Mac #AI #エンジニア

https://zenn.dev/sawacarac/articles/49885802b85f0c

1 0 0 0
Preview
API課金ゼロでAIコーディング環境を構築(VS Code × Continue × Ollama) - Qiita はじめに 本記事では、セルフホストでコードモデルとVS Code + Continue - open-source AI code agentを組み合わせた、開発環境の構築方法を紹介します。 実際に使ってみると、Claude CodeやCodeXに近い操作感で、diffベ...

AIコーディング環境、API課金を気にして躊躇してない?

実は「VS Code + Continue + Ollama」の組み合わせで、完全無料でローカルAIコーディング環境が構築できる。

Claude Code等と違ってLLMを自由に差し替え可能だから、qwen3-coder等の最新ローカルモデルで最強環境を作れるのが熱い。

API課金ゼロの環境、みんなもう構築した?

#AI #LLM #LocalLLM #VSCode #エンジニア #開発ツール

https://qiita.com/hu-work/items/1f6604cd2299abb97ff1

3 0 0 0
Preview
RTX5070Ti + Ollama で動くローカル LLM で一番賢いのはどれだ?!実際に比較検証してみました

RTX5070Ti環境でのローカルLLM比較、かなり実用的な結果ですね。

特に「qwen2.5:14b-instruct-q4_k_m」が、回答速度と推論・コード生成のバランスで頭一つ抜けているのは納得。VRAM16GBの恩恵をフル活用できるモデル選び、重要ですよね。

#AI #LocalLLM #Ollama #エンジニア https://zenn.dev/neos21/articles/d5d2f0e10feec1

0 0 0 0
Nemotron 3 Super: Can an 83GB Model Run on 16GB VRAM?
Nemotron 3 Super: Can an 83GB Model Run on 16GB VRAM? YouTube video by Zero to MVP

New video: Running Nemotron 3 Super (120B params, 83GB) locally with LM Studio on an RTX 4060 Ti. Mixture of Experts makes it possible. ~6.5 tok/sec on consumer hardware. Full walkthrough + settings 👇
youtu.be/advIzSzMAew
#LocalLLM #AI #Nemotron #LMStudio #OpenSourceAI #GPU

0 0 0 0
Preview
Ollama is now powered by MLX on Apple Silicon in preview · Ollama Blog Today, we're previewing the fastest way to run Ollama on Apple silicon, powered by MLX, Apple's machine learning framework.

OllamaがApple SiliconでMLX駆動になってるの、試した?

量子化のオーバーヘッドが減って、推論速度がさらに一段階上がってる感触。特に長文コンテキストでのKVキャッシュの処理がスムーズ。手元のMacでの動作報告を待ってます。

#AI #Ollama #LocalLLM #AppleSilicon
https://ollama.com/blog/mlx

0 0 0 0
Preview
「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能 AlibabaのAI研究チームであるQwen(Tongyi Lab)が「Qwen3.5-Omni」を2026年3月30日に発表しました。Qwen3.5-Omniはテキスト・画像・音声・動画の理解が可能なオムニモーダルモデルで、テキストだけでなく音声も生成することが可能。音声と映像の理解能力はGemini 3.1 Proを超えているとアピールされています。

Qwen3.5-Omniが発表されましたね。文章・コード生成だけでなく、映像認識や音声合成まで統合されてる。

最近のAIエージェント開発において、マルチモーダル処理のレイテンシは死活問題。Qwenのこの統合が実開発でどこまで使い物になるか、検証が必要そう。

#AI #Qwen #LocalLLM #LLM

https://gigazine.net/news/20260331-qwen3-5-omni/

0 0 0 0
Preview
Alibaba MNN Adds TurboQuant Support for Local LLM Inference Alibaba MNN framework adds TurboQuant support for aggressive KV-cache compression in local LLM inference, enabling faster on-device model deployment.

Alibaba's MNN framework just added TurboQuant support—aggressive KV-cache compression down to 3-4 bits. Local inference just got faster. #LocalLLM #Quantization #MNN

https://bymachine.news/alibaba-mnn-turboquant-kv-cache

0 0 0 0
Preview
DeepSeek V3 Complete Guide: Deploy and Optimize Local AI in 2026 Self-hosted DeepSeek V3 deployment guide: Configure local inference, build a Node.js/React full-stack AI app, optimize performance & reduce AI costs by 80%+.

DeepSeek V3のローカル環境構築、2026年現在ならもう「必須の教養」レベルですね。

正直、推論速度と精度のバランスが良すぎて、重いモデルをクラウドで回すのが馬鹿らしくなる。量子化の最適化まで踏み込めば、個人環境でも爆速。

みんなはローカルLLM、どのモデルを主力にしてます?

www.sitepoint.com/deepseek-v3-complete-gui...

#AI #LocalLLM #DeepSeek #OSS

0 0 0 0