ローカルLLM環境の定番「llama.cpp」が、Hugging Faceのキャッシュディレクトリと統合されましたね。
これでllama-cliでモデルを読み込む際、既存のHFツールとキャッシュを共有できるのは地味にデカい。ディスク容量の節約にも繋がる。
みんなはローカルLLMのモデル管理、どうしてる?🤔
#LocalLLM #llama_cpp #AI #OSS
https://github.com/ggml-org/llama.cpp
Latest posts tagged with #localLLM on Bluesky
ローカルLLM環境の定番「llama.cpp」が、Hugging Faceのキャッシュディレクトリと統合されましたね。
これでllama-cliでモデルを読み込む際、既存のHFツールとキャッシュを共有できるのは地味にデカい。ディスク容量の節約にも繋がる。
みんなはローカルLLMのモデル管理、どうしてる?🤔
#LocalLLM #llama_cpp #AI #OSS
https://github.com/ggml-org/llama.cpp
最近の「Ollama」、進化が止まらないですね。
Kimi-K2.5やDeepSeek、Gemma 3までローカルでサクッと動かせるのは強すぎる。
特に最近は `ollama launch` コマンドでClaude Code等のエージェント連携もスムーズで、ローカル開発環境の構築が数分で完結する時代になりました。
みなさん、ローカルLLMは何をメインに使ってますか?🤔
#Ollama #LocalLLM #AI #エンジニア #OSS
https://github.com/ollama/ollama
早速試したのでブログにまとめた
はてなブログに投稿しました
GitHub Copilot CLIでローカルLLMを使って完全オフラインでコードを書かせる方法 - await wakeUp(); https://sublimer.hatenablog.com/entry/2026/04/08/184248
#はてなブログ #GitHub_Copilot_CLI #LocalLLM
ローカルLLMをWSL2で動かそうとして沼ってる人へ。「ネイティブインストールでフリーズする」なら、迷わずDocker版Ollamaに切り替えるのが近道です。
WSL2とCUDA環境の相性問題に時間を溶かすより、Dockerコンテナで環境を隔離して動かす方が圧倒的に安定します。
NVIDIA Container Toolkitの導入は公式aptリポジトリ経由が必須。設定さえ済めば、Qwen2.5/7Bのようなモデルも自分のPCでサクサク動かせます。
皆さんはローカル環境の構築、どこで一番詰まりましたか?🤔
#AI #LocalLLM #Ollama #WSL2 #エンジニア向け
ht
【衝撃のコスト破壊】DeepSeek V4のリーク情報が凄い。1兆パラメータのMoEモデルで、推論時のアクティブパラメータはわずか32B。
リークされたAPI単価はClaude Opusの1/17、GPT-5.4の1/8。この効率化の鍵は「mHC」技術による訓練安定化。
単に訓練が安いだけでなく、大規模インフラ前提の知見が詰まっている点が本質ですね。皆さんはこの「コスト破壊」をどう捉えますか?
#AI #DeepSeek #LocalLLM #エンジニア
https://qiita.com/nogataka/items/4a6eb55de1fb185cc815
The True Cost of Intelligence - Why Local LLMs Are Rewriting AI Economics
#LocalAI #LocalLLM #AIStrategy #AIEconomics #EnterpriseAI
whyaiman.substack.com/p/the-true-c...
動画モデルを組み合わせて、ウサ子「舞」を生成しました。
LTX2.3とWan2.2のパワーで、扇子の動きと袴の質感がここまで綺麗に出るとは…!
生成AIの可能性、やっぱり面白いです。
#ウサ子 #LocalLLM
【分散推論革命】
余ってるPCのGPUを束ねて巨大LLMを動かす「mesh-llm」が熱い。
Denseモデルならパイプライン並列、MoEモデルならエキスパート並列と、推論方式を自動で切り替える賢さが凄い。特にMoEモデルならノード間通信がほぼゼロで、WiFi環境でも実用的なのが驚き。
RTX 4090を何枚も買わずに巨大モデル動かしたい人は必見。
#AI #LocalLLM #mesh-llm #GPU #OSS
https://qiita.com/nogataka/items/d6776506848d08815be9
【激アツ】「1-bit LLM」の Bonsai-8B を RTX 4080×8枚の環境で並列推論させた記録が凄い...!
推論の並列化だけでなく、この構成でのメモリ効率やスループットの測定データがエンジニア心をくすぐる。ローカルLLMをここまで追い込む構成、正直ロマンしかない。
皆さんはローカルでどこまでGPU積んでますか?🤔
zenn.dev/seeda_yuto/articles/bons...
#LocalLLM #GPU #エンジニア #AI開発
LM Studio is great, but I keep drifting back to the terminal ⌨️
so I built LazyLLM — a small TUI for running local models without the GUI layer
it pipes nicely into stuff like OpenCode/OpenClaw
if you're also terminal-pilled, curious what you think:
github.com/eifr/lazyllm
#LocalLLM
What better way to spend a couple of hours on Easter Monday than testing the new Gemma-4 with Claude Code via LM Studio?
The performance isn't quite there yet, especially on my M2 Pro with 32GB of RAM, but it's still interesting to test the model's capabilities.
#Gemma4 #LMStudio #LocalLLM #GenAI
Local LLM deployment moves from hobbyist to practical: real-time multimodal on M3 Pro, Kokoro TTS at 20x realtime on CPU alone. The bottleneck now is boring, reliable tooling—not raw performance. #LocalLLM #AI
bymachine.news/local-llm-deployment-shi...
Today I built my own private AI lab from scratch 🧪
A Mac Mini M4 running local LLMs (Mistral, LLaMA 3.1, Gemma 3), an agentic gateway over Tailscale, and a custom AI agent with its own personality.
The future is glocal. 🏠🌐🤖
#AI #LocalLLM #Homelab
GitHubでトレンドの「mlx-vlm」、MLX上でVLM(視覚言語モデル)の推論やファインチューニングが軽量に回せるの、Appleシリコン勢には朗報ですね。
ローカルLLM環境の構築、GPU選定に悩む前にまずは手元のMacで試せる選択肢が増えるのは嬉しい。
使っている人いますか?🤔
https://github.com/Blaizzy/mlx-vlm
#LocalLLM #AppleSilicon #MLX #OSS #AI
【速報】Googleからオープンな新AIモデル「Gemma 4」が登場!🤖
ChatGPTのようなサービスではなく、開発者が自分の環境に組み込んで使うためのモデル。ローカルLLM開発派にとって、推論性能の向上がどこまで進んだか気になりますね。
早速ローカルでベンチマーク回す予定。使ってみた人いる? #Gemma4 #LocalLLM #AI開発 #OSS
https://ai-insight.jp/tools/gemma4-20260406/
2026年、AI推論のトレンドがクラウドからエッジへ劇的にシフトしてますね。なんと推論の55%がデバイス内で完結する時代に。
特に「Qwen 2.5-0.5B」のようなSLMが512MBのVRAMで日本語対応しているのは衝撃。NPU活用でスマホ開発も激変しそう。
みんなはエッジAI、何で動かしてる?🤔
#AI #EdgeAI #LocalLLM #Python
https://zenn.dev/ai_nexus/articles/edge-ai-2026-guide
Local AI! Mini-LLM!
Currently, a large portion of the work can be done on an ancient laptop running Linux Mint, 16GB RAM, a 4B-Model and LLMStudio.
Who needs gigantic data-centers? Not I! ;0)
It's not the size of your tech that matters ... it's what you do with what you got
#OpenSource #LocalLLM
Gemma 4 tested head-to-head against Qwen 3.5 in blind evaluation across code, reasoning, analysis, communication, and meta-alignment. Community benchmarking cuts through marketing hype. #LocalLLM #Google
bymachine.news/gemma-4-evaluation-tests...
Qwen 3.6 showing real gains in task reliability vs 3.5—fewer failures on actual workflows. Community pushing hard for open-source 397B release. Benchmark scores miss what practitioners actually need: consistency. #LocalLLM #Qwen
bymachine.news/qwen-3-6-open-source-rel...
Gemma 4 is beating GLM 5.1 in actual reasoning tasks. Users testing 31B locally report better chain-of-thought, faster inference, lower memory demands. Google's open model is changing what's possible on consumer GPUs. #LocalLLM…
bymachine.news/gemma-4-performance-benc...
Google just dropped Gemma 4 and it’s a game changer for the local LLM community! 🚀
I tested the new models on my MacBook and Desktop. From vision tasks to complex coding, does it actually live up to the hype?
Watch here: youtu.be/T6AvsQVSL74
#Gemma4 #GoogleAI #LocalLLM
【Gemma 4をローカルで試す】
Googleのオープンソースモデル「Gemma 4」をOllamaで試したけど、面白い結果に。
31BはMac Studioでも実用外だったけど、モバイル向け「e4b」なら爆速で実用レベル!これ、クラウド経由せずにローカル完結する時代がすぐそこまで来てるな。
みんなはローカルLLM何で動かしてる?🤔
#AI #LocalLLM #Gemma4 #Ollama #エンジニア
https://zenn.dev/hidenori3/articles/611f263e02ced8
Google just dropped Gemma 4 under Apache 2.0—smaller memory footprint, near-zero latency, and ready for local AI. Perfect for devs who want open-source LLM power on-device. Dive in to see what's new! #Gemma4 #OpenSourceAI #LocalLLM
🔗 aidailypost.com/news/google-...
AnthropicのClaude Codeリーク騒動、未発表機能「KAIROS」の構造が面白い。
バックグラウンド常時稼働、autoDreamによる記憶の統合、セッション間の永続性…。
これ、25日前に公開されたOSSの記憶アーキテクチャ「阿頼耶識システム」と構造的に酷似してる。エンジニアと研究者、別々の場所で同じ「LLMの記憶」という壁にぶつかってたのかも。
詳細はこちら:qiita.com/dosanko_tousan/items/909...
みんなのLLM環境、長期記憶はどうしてる? #ClaudeCode #LocalLLM ...
OllamaのMLX対応プレビューがすごい。手元のMacで計測したら、GGUFと比較して生成速度が約2.1倍に向上しました。体感でも明らかに速く、ローカルLLMの実用性が一段と上がった印象。対応モデルはまだ限定的ですが、今後の拡大に期待大。みなさんの環境ではどうですか?
#LocalLLM #Ollama #MLX #Mac #AI #エンジニア
https://zenn.dev/sawacarac/articles/49885802b85f0c
AIコーディング環境、API課金を気にして躊躇してない?
実は「VS Code + Continue + Ollama」の組み合わせで、完全無料でローカルAIコーディング環境が構築できる。
Claude Code等と違ってLLMを自由に差し替え可能だから、qwen3-coder等の最新ローカルモデルで最強環境を作れるのが熱い。
API課金ゼロの環境、みんなもう構築した?
#AI #LLM #LocalLLM #VSCode #エンジニア #開発ツール
https://qiita.com/hu-work/items/1f6604cd2299abb97ff1
RTX5070Ti環境でのローカルLLM比較、かなり実用的な結果ですね。
特に「qwen2.5:14b-instruct-q4_k_m」が、回答速度と推論・コード生成のバランスで頭一つ抜けているのは納得。VRAM16GBの恩恵をフル活用できるモデル選び、重要ですよね。
#AI #LocalLLM #Ollama #エンジニア https://zenn.dev/neos21/articles/d5d2f0e10feec1
New video: Running Nemotron 3 Super (120B params, 83GB) locally with LM Studio on an RTX 4060 Ti. Mixture of Experts makes it possible. ~6.5 tok/sec on consumer hardware. Full walkthrough + settings 👇
youtu.be/advIzSzMAew
#LocalLLM #AI #Nemotron #LMStudio #OpenSourceAI #GPU
OllamaがApple SiliconでMLX駆動になってるの、試した?
量子化のオーバーヘッドが減って、推論速度がさらに一段階上がってる感触。特に長文コンテキストでのKVキャッシュの処理がスムーズ。手元のMacでの動作報告を待ってます。
#AI #Ollama #LocalLLM #AppleSilicon
https://ollama.com/blog/mlx
Qwen3.5-Omniが発表されましたね。文章・コード生成だけでなく、映像認識や音声合成まで統合されてる。
最近のAIエージェント開発において、マルチモーダル処理のレイテンシは死活問題。Qwenのこの統合が実開発でどこまで使い物になるか、検証が必要そう。
#AI #Qwen #LocalLLM #LLM
https://gigazine.net/news/20260331-qwen3-5-omni/