W ostatnich tygodniach dwa ważne wydarzenia ponownie rzuciły Midjourney w światło reflektorów: długo oczekiwana wersja alfa modelu V7 i głośny pozew o naruszenie praw autorskich złożony przez Disney i Universal. Podczas gdy V7 obiecuje drastyczną poprawę jakości obrazu, wielu użytkowników nadal napotyka nieoczekiwane artefakty „blokowania” lub „dzwonienia” JPEG podczas zapisywania i udostępniania swoich dzieł. W tym artykule zbadano podstawowe przyczyny tych artefaktów, wyjaśniono, jak działa kompresja JPEG i przedstawiono praktyczne strategie minimalizowania niepożądanych zniekształceń w obrazach generowanych przez Midjourney.
Czym jest Midjourney V7?
Midjourney V7 to pierwsza od ponad roku całkowicie przeprojektowana wersja modelu, która zapewnia szybszą przepustowość, inteligentniejszą interpretację komunikatów i lepszą wierność wizualną.
Kluczowe ulepszenia w wersji 7
- Ulepszone szczegóły i spójność:Według notatek o wydaniu Midjourney, wersja V7 oferuje znacznie wyższą rozdzielczość tekstur i bardziej spójne renderowanie złożonych elementów — dłonie, zagięcia tkanin i naturalne krajobrazy — wszystkie te elementy cechują się płynniejszymi przejściami tonalnymi i drobniejszymi szczegółami w porównaniu z wersją V6.1.
- Personalizacja domyślna:V7 to pierwszy model Midjourney z domyślnym modelem „personalizacji”, wymagającym od użytkowników oceny około 200 przykładowych obrazów, aby odblokować w pełni spersonalizowane doświadczenie. Ta pętla sprzężenia zwrotnego pomaga systemowi lepiej dopasować wyniki do indywidualnych preferencji estetycznych.
Wersja Alpha i dostęp społeczności
Midjourney udostępniło wersję 7 do testów alfa na początku kwietnia 2025 r. Członkowie społeczności mogą uzyskać dostęp do nowego modelu, dołączając --v 7 flagę do ich monitów lub przez dedykowany kanał V7. Ta wersja alfa umożliwia szersze testowanie głównych ulepszeń modelu — szybkiego zrozumienia, jakości obrazu i spójności — przed pełnym publicznym wdrożeniem.
Dlaczego na zdjęciach z Midjourney widzę artefakty JPEG?
Pomimo wewnętrznego renderowania opartego na PNG w V7, wielu użytkowników nadal zgłasza artefakty kompresji w stylu JPEG. Te widoczne zniekształcenia zwykle pojawiają się podczas przetwarzania w dół — szczególnie na platformach takich jak Discord.
Wewnętrzne generowanie PNG i zewnętrzna konwersja JPEG
Midjourney sam generuje i przechowuje obrazy w bezstratnym formacie PNG, zapewniając zachowanie pełnego detalu modelu i subtelnych gradientów. Jednak gdy te pliki są udostępniane na Discordzie lub pobierane za pośrednictwem niektórych linków, mogą zostać przekonwertowane do formatów stratnych (JPEG lub WebP) w celu zwiększenia wydajności przepustowości.
Automatyczna kompresja Discorda
Domyślnie Discord ponownie koduje duże obrazy, aby zmniejszyć rozmiar pliku, często używając kompresji JPEG lub WebP. Ten zautomatyzowany krok wprowadza artefakty granic bloków („makroblokowanie”) i niewielkie przesunięcia kolorów, które mogą być szczególnie zauważalne w płynnych gradientach lub jednolitych obszarach tła.
Rekompresja wywołana przepływem pracy
Chociaż Midjourney generuje i przechowuje obrazy wewnętrznie jako bezstratne pliki PNG lub nawet reprezentacje o wyższej precyzji, w momencie wybrania opcji „Zapisz jako JPEG” lub udostępnienia za pośrednictwem platform, które automatycznie konwertują do formatu JPEG (np. niektóre galerie internetowe, media społecznościowe), artefakty pojawiają się. Serwer proxy obrazów Discord, przeglądarki zapisujące podglądy jako WebP i konwersja za pomocą kliknięcia prawym przyciskiem myszy „Zapisz obraz jako…” wyzwalają rekompresję. Każdy krok rekompresji powoduje utratę generacji: przycinanie, zmiana rozmiaru lub ponowne kodowanie przy domyślnych ustawieniach jakości (często około 75–85%) wzmacnia blokowanie i pasma.
W jaki sposób kompresja JPEG powoduje powstawanie artefaktów?
Zrozumienie technicznych podstaw kodowania JPEG pozwala dowiedzieć się, dlaczego pojawiają się artefakty i jak sobie z nimi radzić.
DCT i kwantyzacja oparta na blokach
Kompresja JPEG polega na podzieleniu obrazu na bloki 8×8 pikseli i zastosowaniu dyskretnej transformacji kosinusowej (DCT) do każdego bloku. Aby zmniejszyć rozmiar pliku, kwantyzuje ona składowe o wysokiej częstotliwości — skutecznie odrzucając drobne szczegóły. Gdy poziom kwantyzacji jest zbyt wysoki (tj. silniejsza kompresja), proces ten prowadzi do widocznych granic bloków, utraty tekstury i pasm kolorów. Obrazy generowane przez AI, zwłaszcza te o złożonych gradientach i drobnych teksturach, są bardzo podatne na te artefakty, jeśli są zapisywane lub przesyłane jako pliki JPEG bez wystarczających ustawień jakości.
Typowe typy artefaktów
- Blokowanie (Makroblokowanie):Gdy całe bloki 8×8 stają się wyraźnie odrębne, tworząc wzór „szachownicy”.
- Efekty dzwonienia/konturowania:Zniekształcenia przypominające halo wzdłuż ostrych krawędzi, powstające w wyniku utraty składowych o wysokiej częstotliwości.
- Paski kolorów:Gdy drobne różnice zostaną wyeliminowane, płynne gradienty przekształcają się w dyskretne „pasma” koloru.
Jakie formaty plików obsługuje Midjourney i jak zmieniły się one ostatnio?
Jakie formaty są natywne dla Midjourney?
Domyślnie Midjourney dostarcza pliki PNG o wysokiej rozdzielczości — bezstratne, 8-bitowe na kanał (24-bitowe RGB) obrazy, które zachowują każdą wartość piksela. Gdy zwiększasz skalę lub używasz trybów „Light Upscale”, nadal otrzymujesz pliki PNG za pośrednictwem przycisku pobierania galerii internetowej. Jednak miniatury podglądu wyświetlane bezpośrednio w Discordzie są dostarczane jako WebP (nowoczesny stratny/opcjonalnie bezstratny format), aby przyspieszyć ładowanie. W zależności od przeglądarki lub klienta Discord, pobieranie prawym przyciskiem myszy może pobierać miniaturę WebP, a nie pełny PNG.
Dlaczego niektórzy użytkownicy nagle zaczęli zauważać wyniki w formacie JPEG?
Na niezamierzoną konwersję JPEG wpływa kilka czynników:
- Rurociągi stron trzecich: Jeśli kierujesz obrazy Midjourney przez boty lub narzędzia automatyzacji, które domyślnie zapisują mniejsze ładunki w formacie JPG, dziedziczysz artefakty.
- Skrypty przetwarzania wsadowego: Niektóre społecznościowe narzędzia do skalowania (np. Automatic1111 dla Stable Diffusion) zapisują dane wyjściowe w tym samym formacie co dane wejściowe — zamieniając końcowe pliki PNG z powrotem na pliki JPG, jeśli są one łańcuchowo przesyłane za pomocą pliku JPG.
- Domyślne ustawienia platformy: Platformy mediów społecznościowych, takie jak Instagram czy Twitter, automatycznie kompresują pliki przesyłane przez użytkowników do formatów JPEG, co jeszcze bardziej pogarsza jakość obrazu.
Jak zminimalizować artefakty JPEG na obrazach?
Choć nie możesz zmienić domyślnej polityki kompresji Discorda, możesz zoptymalizować swój obieg pracy, aby zachować wierność obrazu.
Używaj formatów bezstratnych i eksportów o wyższej szybkości transmisji bitów
- Bezpośrednie pobieranie PNG: Zawsze pobieraj wersję PNG swojego obrazu z aplikacji internetowej Midjourney, zamiast polegać na podglądach Discord. PNG unika pułapek kwantyzacji JPEG.
- Określ wyższą jakość: Jeśli musisz używać formatu JPEG (np. do przesyłania treści w Internecie), eksportuj przy ustawieniu jakości 90–100%, aby zachować więcej współczynników DCT i zmniejszyć widoczne granice bloków.
Dostosuj swój przepływ pracy, aby uniknąć ponownej kompresji
- Omiń warstwę podglądu Discorda:W Discordzie zamień linki z
media.discordapp.netwcdn.discordapp.comaby uzyskać dostęp do oryginalnych przesłanych plików bez kompresji podglądu. - Utrzymuj kompresję jednoetapową: Otwórz oryginalny plik PNG tylko raz w edytorze; jeśli potrzebujesz pliku JPEG, wyeksportuj go bezpośrednio bez dodatkowych edycji lub ponownego zapisywania.
Skorzystaj z usuwania artefaktów wspomaganego przez sztuczną inteligencję
Ostatnie badania doprowadziły do powstania modeli opartych na dyfuzji, które mogą selektywnie usuwać artefakty JPEG, zachowując jednocześnie szczegóły. Na przykład model CODiff wykorzystuje wizualny osadzacz uwzględniający kompresję (CaVE) do kierowania jednoetapowym denoiserem dyfuzji, osiągając najnowocześniejszą redukcję artefaktów przy minimalnym narzucie.
Użyj MidJourney w CometAPI
CometAPI zapewnia dostęp do ponad 500 modeli AI, w tym modeli multimodalnych typu open source i specjalistycznych dla czatu, obrazów, kodu i innych. Jego główna siła polega na uproszczeniu tradycyjnie złożonego procesu integracji AI.
Interfejs API Comet zaoferuj cenę znacznie niższą od oficjalnej, aby ułatwić Ci integrację API w trakcie podróży, a możesz wypróbować go za darmo na swoim koncie po zarejestrowaniu się i zalogowaniu! Zapraszamy do rejestracji i wypróbowania CometAPI.CometAPI płaci za użytkowanie.
Ważny warunek wstępny: Przed użyciem MidJourney V7 należy rozpocząć tworzenie CometAPI już dziś – zarejestruj się tutaj, aby uzyskać bezpłatny dostęp. Proszę odwiedzić docs.
Rozpoczęcie korzystania z MidJourney V7 jest bardzo proste — wystarczy dodać --v 7 parametr na końcu twojego monitu. To proste polecenie mówi CometAPI, aby użył najnowszego modelu V7 do wygenerowania twojego obrazu.
Sprawdź API w trakcie podróży aby uzyskać szczegóły dotyczące integracji.
Podsumowanie
Rozumiejąc, gdzie — i dlaczego — artefakty JPEG trafiają do Twojego przepływu pracy Midjourney, możesz podjąć konkretne kroki, aby zachować pełny potencjał kreatywny modelu. Niezależnie od tego, czy poprzez strategiczne wykorzystanie PNG, usprawnione praktyki eksportu, czy najnowocześniejsze narzędzia do usuwania artefaktów, możliwe jest zaprezentowanie niezwykłej wierności V7 bez niepożądanych efektów ubocznych kompresji stratnej.
